Google for Developers: Cómo mejorar el doblaje en videos mediante el aprendizaje profundo

Cómo mejorar el doblaje en videos mediante el aprendizaje profundo

martes, 20 de diciembre de 2022

Entrada publicada por Paul McCartney, ingeniero de software, Vivek Kwatra, científico investigador, Yu Zhang, científico investigador, Brian Colonna, ingeniero de software, y Mor Miller, ingeniero de software.

Son cada vez más las personas que consideran a los videos la mejor manera de mantenerse informadas, explorar sus intereses y entretenerse. Sin embargo, el idioma que se habla en los videos suele impedir la comprensión. Por ejemplo, un alto porcentaje de los videos de YouTube están en inglés, pero menos que el 20% de la población mundial habla inglés como su primera o segunda lengua. El doblaje, método por el que se traduce y se reemplaza el diálogo original del video, se usa con cada vez más frecuencia para trasladar el video a otros idiomas. De esta manera, se eliminan eficazmente las barreras lingüísticas y se ofrece una mejor opción de accesibilidad en cuanto a nivel de educación y visión, en comparación con los subtítulos.
En la entrada de hoy, compartimos los resultados de nuestra investigación a fin de mejorar la calidad del doblaje mediante el aprendizaje profundo y proporcionar una experiencia de visualización más cercana a la de un video producido directamente para el idioma de destino. En especial, describimos nuestro trabajo con tecnologías de transferencia de voz entre idiomas y reanimación labial, que mantiene la voz similar a la del hablante original y ajusta los movimientos de los labios de este en el video de modo que coincidan mejor con el audio generado en el idioma de destino. Estas funcionalidades se desarrollaron con Tensor, que proporciona una plataforma escalable para el aprendizaje automático multimodal. Compartimos videos producidos con nuestro prototipo de investigación y demostramos que distraen menos y que —esperamos— serán más disfrutables para los espectadores.
Transferencia de voz entre idiomasEl casting de voces es el proceso de selección de voces que representen de forma adecuada a cada persona que aparece en pantalla. Mantener la suspensión de la incredulidad del público con voces creíbles es importante en la producción de un doblaje de calidad para que el video sea atractivo, en lugar de distractivo. Para lograrlo, utilizamos una transferencia de voz entre idiomas en la que creamos voces sintéticas en el idioma de destino que suenan similares a las de las personas que hablan en el video original. Por ejemplo, en el siguiente video se utilizó una voz doblada en inglés que se creó a partir de la voz del hablante de español del original.

Inspirados por el aprendizaje en pocas tomas, primero preentrenamos un modelo TTS multilingüe basado en nuestro enfoque de transferencia de voz entre idiomas. En este enfoque, utilizamos un modelo de secuencia a secuencia basado en la atención para generar una serie de fotogramas de espectrograma Log-Mel a partir de una secuencia de texto de entrada multilingüe con un codificador residual de tipo autocodificador variacional. Luego, ajustamos los parámetros del modelo. Para ello, volvemos a programar el decodificador y los módulos de atención con una relación de mezcla fija de los datos de adaptación y los datos multilingües originales, como se muestra en la Figura 1.

Figura 1: Arquitectura de transferencia de voz
Ten en cuenta que la transferencia de voz y la reanimación labial solo se realizan si el propietario del contenido y los actores dan su consentimiento.Reanimación labialEn los videos doblados de manera convencional, se escuchan las voces traducidas/dobladas, mientras que se ven a los actores originales hablar en el idioma de origen. Por lo general, los movimientos de los labios que se ven en el video no coinciden con el doblaje que se escucha, de modo que la combinación de audio y video parece poco natural. Esto puede distraer y hacer que a los espectadores no les atraiga el contenido. De hecho, a veces incluso de manera intencional, las personas no miran las bocas de las personas que hablan en los videos doblados para evitar ver esta discrepancia.
A fin de atraer al público, los productores de videos doblados de mayor calidad se esfuerzan más a la hora de adaptar cuidadosamente el diálogo y la voz de modo que coincidan parcialmente con el movimiento de labios de las personas que aparecen en los videos. Sin embargo, esta técnica consume mucho tiempo y es muy costosa, por lo que es prohibitiva para muchos productores de contenido. Además, requiere cambios que pueden afectar levemente el rendimiento de las voces y la precisión de la traducción.
Para obtener el beneficio de una correcta sincronización labial, pero sin estos problemas, desarrollamos una arquitectura de reanimación labial a fin de corregir el video de modo que coincida con las voces dobladas. Es decir, ajustamos los movimientos labiales de las personas que hablan en el video para que se alineen con el diálogo doblado. De esta manera, parece que el video hubiera sido filmado con personas que hablan en el idioma del diálogo traducido o doblado. Este enfoque se puede aplicar cuando lo permiten el propietario del contenido y los actores.
Por ejemplo, el siguiente es un clip de video que se dobló con el método convencional (sin reanimación labial):

Como se puede observar, la boca de la persona que habla no parece moverse de forma natural con relación a la voz. El video que aparece a continuación es el mismo, pero con reanimación labial, de modo que los movimientos labiales se ven más naturales con respecto al idioma del doblaje.

Para la reanimación labial, entrenamos un modelo multietapa personalizado que aprende a asignar el audio a las formas de los labios y el aspecto facial de la persona que habla, como se muestra en la Figura 2. Usamos videos originales de las personas que hablan para aislar y representar las caras en un espacio normalizado que desacopla la geometría en 3D, la postura de la cabeza, la textura y la iluminación, como se describe en este informe. Este enfoque nos permite concentrarnos, en nuestra primera etapa, en sintetizar la geometría en 3D y la textura de la sincronización labial compatibles con el audio doblado, sin tener que preocuparnos por la postura ni la iluminación. En la segunda etapa, se utiliza un enfoque basado en RGA condicional para fusionar estas texturas sintetizadas con el video original a fin de generar caras con posturas e iluminación coherentes. Esta etapa se entrena de manera adversa usando discriminadores múltiples para conservar simultáneamente la calidad visual, la fluidez temporal y la consistencia de la sincronización labial. Finalmente, acotamos el resultado usando una red de superresolución personalizada para generar un video con reanimación labial fotorrealista. También puedes ver aquí los videos comparativos que se muestran arriba.

Figura 2: Flujo de procesamiento de reanimación labial: bloques de inferencia en azul, bloques de entrenamiento en rojo.
Alineación con nuestros principios de IALas técnicas que aquí se describen entran en la categoría más amplia de generación de contenido multimedia sintético, que atrajo un análisis minucioso debido a su potencial de abuso. La manipulación fotorrealista de videos podría utilizarse incorrectamente para producir información falsa o engañosa que puede generar daños en la sociedad en general, por lo que los investigadores deberían ser conscientes de estos riesgos. No obstante, nuestro caso de uso de doblaje de video destaca los beneficios sociales potenciales de estas tecnologías. Nuestra nueva investigación en el campo del doblaje podría brindar una mayor accesibilidad a las lecciones educativas, los blogs de video, los discursos públicos y otros formatos ante un público global. Además, esta tecnología solo se aplica si los propietarios y actores del contenido otorgaron su consentimiento.
Durante nuestra investigación, seguimos nuestros principios de IA a fin de desarrollar e implementar esta tecnología de manera responsable. Primero, trabajamos con los creadores para garantizar que todo el contenido doblado se produzca con su consentimiento y que todo contenido multimedia generado se identifique como tal. En segundo lugar, estamos desarrollando herramientas y técnicas para atribuir la propiedad de contenido original y modificado usando técnicas de indicación de procedencia y marca de agua digital. Finalmente, nuestro objetivo central es la fidelidad al video en su idioma de origen. Las técnicas aquí analizadas solo sirven a ese propósito, es decir, el de amplificar el beneficio social potencial que se ofrece al usuario, al tiempo que se pretende conservar la naturaleza original, el estilo y la intención de los creadores del contenido. Continuamos determinando la mejor manera de conservar e implementar los estándares de privacidad y medidas de protección de datos antes de la implementación general de nuestra investigación.

La oportunidad que se vieneCreemos firmemente que el doblaje es un proceso creativo. Con estas técnicas, nos esforzamos por hacer que una oferta más amplia de contenidos esté disponible y se pueda disfrutar en una serie de otros idiomas.
Esperamos que nuestra investigación inspire el desarrollo de nuevas herramientas que democraticen el contenido de una manera responsable. Para demostrar su potencial, hoy lanzamos contenido doblado de dos series educativas, AI for Anyone y Machine Learning Foundations con Tensorflow en el canal Google Developers LATAM.
Hemos trabajado activamente para ampliar nuestro alcance a más idiomas y a hablantes de más regiones y países. Ya detallamos este trabajo, junto con un análisis más amplio, en nuestros informes de investigaciones sobre transferencia de voz y reanimación labial.