Cómo mover un personaje hiperrealista y hacerlo hablar con sincronización labial, usando Runway

Share to social media
Clara, la influencer, en distintas posturas, hablando en su videopodcast.

El último capítulo de la serie Cómo crear con IA personajes que hablan es para proponerte que explores Runway, una herramienta especialmente pensada para mover personajes realistas y hacerlos hablar.

El proceso es parecido al que hemos visto con Hedra y HeyGen; primero creas el avatar con ChatGPT y luego subes la imagen a la herramienta. En el caso de Runway hay que usar prompts muy bien optimizados porque, en caso contrario, no se logran los resultados esperados.

Empezaremos, por ejemplo, pidiéndole a ChatGPT una postura más relajada con las manos sobre la mesa.

Clara, hablando resposadamente en su videopodcast.

Un GPT para optimizar los prompts de Runway

El GPT lo elaboró también Amel Fernández y es Prompt Video Builder.

La mecánica es la misma que ya vimos para el GPT Fotógrafo de retratos. Das la idea y el GPT escribe el mejor prompt. Lo que sucede es que Runway interpreta el prompt a su manera y muchas veces no coincide con lo que quieres. Es preciso realizar una buena descripción de lo que quieres, a partir de la imagen de partida, para que «Prompt Video Builder» genere el prompt acertado.

Podríamos decir que hay que hacer ingeniería de la ingeniería de prompts 😉

Sin embargo, si aciertas con el prompt, los resultados son excelentes.

Por supuesto, no es necesario utilizar el GPT. En las pruebas que he realizado, la mayoría de las veces conseguí mejores resultados con prompts descriptivos breves pensados por mí que con los que me dio el GPT «Prompt Video Builder».

Por ejemplo, con el siguente prompt, logramos una primera escena de 10 segundos para la presentación: «A 10-second zoom-out video of Clara, a confident and poised female influencer, sitting at her podcast desk in a warm, softly lit studio. She is centered in the frame, speaking into a professional microphone. The zoom begins tightly focused on her calm, expressive face and gradually pulls back to reveal the studio setup with acoustic panels, a glowing neon sign that reads «VIDEO PODCAST,» bookshelves, and warm ambient lighting. During the last 5 seconds, Clara smiles naturally, showing a slight glimmer of joy and connection with the audience. The style is photorealistic with hyperrealismo absoluto, emphasizing her realistic facial features and the authentic textures of the studio. Every frame exudes an apariencia auténtica sin artificios, capturing subtle lighting shifts and camera depth with cinematic smoothness.»

Para mayor movimiento y accción, se pueden intentar palabras como “cinematic action”, “flying”, or “speeding”.

Sincronización labial

Una vez que has generado 5 o 10 segundos del vídeo a partir de la imagen de partida (con un prompt optimizado), puedes subir un audio (o grabarlo tú) para sincronizar los labios del personaje y hacerlo hablar.

Para ello, podemos obtener un archivo mp3 con Amazon Polly; escribiendo el texto base, eligiendo idioma y locutor.

Escoge la acción «Lip Sync» en el vídeo generado y verás a Clara presentar su videopodcast:

(Ver vídeo en YouTube)

Información sobre accesibilidad

En la parte inferior de este vídeo, y de otros que puedan aparecer en esta página, puedes activar los subtítulos.

Para acceder a una transcripción, haz clic en «YouTube» y en la página del vídeo, en la sección anterior a los comentarios, haz clic en «Mostrar transcripción».

Comparación con HeyGen

Aunque los resultados de Runway están orientados al hiperrealismo, el problema está en acertar, tal y como hemos indicado antes, con los prompts.

Quise probar en HeyGen a generar un vídeo de Clara hablando, para comparar el resultado con el de Runway. Para ello, primero subí -en la sección de avatars- la imagen de Clara, como look, con las manos entrelazadas. Luego le asigné el archivo de audio, obtenido en Amazon Polly, tanto como modelo y también como script. Y este fue el resultado.

(Ver vídeo en YouTube)

Puedes juzgar tú mismo las diferencias.

Runway gana en capacidad para el movimiento del personaje, giros de cámara, detalles del escenario, etc. Todo con una idea hiperrealista y dinámica. Sin embargo, HeyGen -más limitado- mejora el resultado no solo en la sincronización labial sino también en la gesticulación del rostro, con movimientos corporales y de la cabeza más naturales.

Coste de Runway

El plan siguiente al gratuito es el Standard con 2250 créditos mensuales por 39 $ / mes (sin iva). Creo que es demasiada inversión para principiantes, ya que exige dominio absoluto de los prompts. HeyGen, un poco más limitado en el alcance de dinamismo pero más completo en funciones, es más económico (recordemos que los planes incluyen videos ilimitados).

Índice

Resumir con tu IA favorita

Si no ves el prompt autocompletado o ves el de una ejecución anterior (o aparece la página de acceso), el texto ya está copiado. Solo pégalo.

En Blogpocket se promueve un uso ético y responsable de la IA

Reacciones en el Fediverso

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Información básica sobre protección de datos Ver más

  • Responsable: Antonio Cambronero.
  • Finalidad:  Moderar los comentarios.
  • Legitimación:  Por consentimiento del interesado.
  • Destinatarios y encargados de tratamiento: No se ceden o comunican datos a terceros para prestar este servicio. El Titular ha contratado los servicios de alojamiento web a GreenGeeks que actúa como encargado de tratamiento.
  • Derechos: Acceder, rectificar y suprimir los datos.
  • Información Adicional: Puede consultar la información detallada en la Política de Privacidad.

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.