Microsoft Research, la división investigativa del gigante informático, está desarrollando una herramienta de inteligencia artificial (IA) generativa capaz de crear "rostros parlantes" hiperrealistas a partir de una imagen estática y un clip de audio, de acuerdo con un artículo publicado este martes.
Según explican sus creadores, VASA-1 (abreviatura de 'Visual Affective Skills Animator', o 'Animador de Habilidades Afectivas Visuales' en español) toma el retrato de una persona y hace que literalmente hable, produciendo una muy convincente sincronización entre sus labios y el archivo de audio que se desee. Además, captura un "amplio espectro de matices faciales y movimientos naturales de la cabeza que contribuyen a la percepción de autenticidad y vivacidad".
Para demostrar las impresionantes capacidades del modelo, Microsoft compartió varios ejemplos utilizando rostros humanos inexistentes —por razones de privacidad— creados con las redes neuronales de generación de imágenes DALL-E 3 y StyleGAN2. La galería incluye avatares cantando y hablando en sincronización con pistas de audio pregrabadas y muestras de cómo se pueden controlar para que expresen diferentes estados de ánimo o cambien su mirada.
Estas "caras parlantes realistas" emulan comportamientos conversacionales humanos a través de gesticulaciones faciales y el movimiento de los ojos y la cabeza. Sin embargo, VASA-1 también puede procesar "fotografías artísticas, audios cantados y de habla no inglesa". Como prueba, sus creadores lograron que la famosa obra maestra de Leonardo da Vinci, la 'Mona Lisa', interpretara el 'Paparazzi Rap' que una vez cantó la actriz Anne Hathaway.
De momento, VASA-1 está en etapa de aprendizaje y lo revelado esta semana es solo una demostración de la investigación, por lo cual no está disponible para que lo pruebe nadie ajeno al equipo de Microsoft Research. La empresa dejó claro que no tiene previsto lanzarlo al público, en la medida en que es consciente de los peligros de este tipo de tecnología.
El modelo no es perfecto, pero supera significativamente a otros similares de animación de voz en términos de realismo, expresividad y eficiencia, por lo que existe el riesgo de ser "potencialmente mal utilizado" para suplantar identidades, afirma Microsoft. Así, podría prestarse para que personas inescrupulosas falsifiquen material audiovisual creando contenido engañoso o perjudicial, como los famosos 'deepfakes' que a menudo implican fraudes o desinformación.
"Aun reconociendo la posibilidad de un uso indebido, es imperativo reconocer el considerable potencial positivo de nuestra técnica. Los beneficios —como aumentar la equidad educativa, mejorar la accesibilidad de las personas con problemas de comunicación, ofrecer compañía o apoyo terapéutico a quienes lo necesitan, entre muchos otros— subrayan la importancia de nuestra investigación y de otras exploraciones relacionadas. Nos dedicamos a desarrollar la IA de forma responsable, con el objetivo de mejorar el bienestar humano", concluye Microsoft.