Hola amigo , entiendo lo que necesitas , puedo hacerlo usando ffmpeg y python (o cualquier lenguaje) como wrapper y en cuanto a la voz hay muchas alternativas , todo depende de que grado de humanidad quieras , me parece interesante , escríbeme si te interesa.