
En este tutorial [actualizado], aprenderás cómo crear con HeyGen un avatar con tu rostro y hacer que hable siguiendo cualquier guión. Una idea perfecta para escalar contenido de video y, al mismo tiempo, liberar a los líderes superiores del trabajo constante frente a la cámara.
Crear personajes que hablan
Para crear personajes que hablan, puedes empezar con nuestras dos guías.
Para iniciarte en HeyGen, lee primero este post: Cómo crear personajes que hablan individualmente con una única herramienta (HeyGen)
Así es como hemos creado un avatar de A. Cambronero explicando esta noticia. Ver el vídeo en YouTube o haz clic a continuación.
Información sobre accesibilidad
En la parte inferior de este vídeo, y de otros que puedan aparecer en esta página, puedes activar los subtítulos.
Para acceder a una transcripción, haz clic en «YouTube» y en la página del vídeo, en la sección anterior a los comentarios, haz clic en «Mostrar transcripción».
A continuación, sigue los pasos para crear un avatar que sea tu propio gemelo y hacerlo hablar.
1. Crear imagen

Esta imagen se creó en Gemini y el modelo «Nanobanana» con el siguiente prompt. Para ello eligen la opción «Imágenes con imagen».
Una foto hiperrealista de un primer plano de la persona hablando hacia la cámara, en un estudio de videopodcasting. El ambiente es cinematográfico y parece estar iluminado por el foco especial para grabar vídeos. La iluminación detrás de la persona es la típica de los videopodcasts.
Una manera fácil de crear una primera versión de la imagen es también utilizar un GPT como el Prompt Engineer pidiéndole que mejore cualquier prompt. Por ejemplo, podríamos querer un avatar ficticio (no un gemelo) como el personaje de Lucía 2.0 que hemos creado y partiríamos del prompt escrito por Prompt Engineer.

Después iríamos a Gemini para obtener un retrato hiperrealista como este.
A continuación, una versión de Lucía 1.0 construida con ChatGPT:

2. Crea el avatar
Entra en HeyGen y crea en «My avatars» (mis avatares) un nuevo avatar basado en la imagen creada en el paso 1. Para mejores resultados entrenando a la IA, puedes subir más fotos y crear nuevos looks.
Recuerda que, tanto en Gemini como en ChatGPT, puedes lograr una imagen con tu rostro subiendo una foto tuya (o varias mejor). No olvides, retocar el prompt diciendo algo así como «Mantén el rostro intacto (pelo, rasgos, gafas, etc.)». Si usas un Gem, en Gemini, para el propósito de generar imágenes con tu rostro, te ahorras subir las fotos cada vez. Aquí tienes cómo se crea un Gem a tal efecto: Cómo crear un gem de Gemini para obtener imágenes con tu rostro
3. Generar el vídeo
Ve a «Create video» (crear vídeo) y la opción «Create in AI Studio», elige el avatar y sube un audio con tu voz de menos de 30 segundos; selecciona el motor utilizado para renderizar el movimiento de tu avatar (Avatar IV aunque esto consume más créditos y Faster -menos coste pero más rápido); y añade los elementos que quieras (por ejemplo, subtítulos) y haz clic en «Generate» (generar) para procesar tu video.
También puedes hacerlo asignando una voz a tu avatar en el paso 2 subiendo un archivo con un speech y luego escribiendo en este paso el script o guion de lo que quieres que diga el avatar.
El vídeo que se muestra como ejemplo al principio de este post se hizo a partir de una grabación mp3 con mi voz leyendo el guion.
He aquí un posible episodio de un videopodcast con Lucía como presentadora:
Cómo generar el script
Si eliges la opción de escribir el script, en lugar de grabarte tu voz, debes optimizar la redacción y el estilo. Por ejemplo, Blogpocky habla desenfadadamente. Pero si quieres un avatar gemelo debería hablar como tú.
Para crear el guion a partir de la noticia sobre la investigación relacionada con el uso de la IA para mejorar las vacunas contra la gripe, primero se hizo un resumen con NotebookLM. Luego, para generar el resumen de audio, se eligió el formato «Breve» e idioma español. Y, finalmente, se subió el archivo de audio descargado como nueva fuente, pidiéndole a NotebookLM que escribiese una transcripción exacta.
Posteriormente, se editó la transcripción acortándola con la escritura mágica (IA) de Canva.com y se corrigió adaptándola para optimizarla.
Conclusiones
El resultado obtenido, cuando se clona tu propia voz, está muy afinado pero todavía dista mucho de la perfección. Los resultados con voces predeterminadas (por ej. con Lucía 2.0) son mejores o, incluso la clonación a partir de archivos obtenidos en Amazon Polly, u otras herramientas como en el caso de Blogpocky.
Si subes un archivo con tu voz a modo de script, entonces el resultado es casi perfecto porque la sincronización labial también se ha mejorado bastante.
En el caso de HeyGen, los resultados son mejores con Avatar IV pero el coste es mayor.
Si no ves el prompt autocompletado o ves el de una ejecución anterior (o aparece la página de acceso), el texto ya está copiado. Solo pégalo.
En Blogpocket se promueve un uso ético y responsable de la IA

Deja una respuesta