Un modelo de incorporación multilingüe es un instrumento potente que codifica texto de diferentes idiomas en un espacio de incorporación compartido, lo que permite aplicarlo a una serie de tareas descendentes, como la clasificación de texto y el agrupamiento de clústeres, entre otras, al mismo tiempo que se aprovecha la información semántica para la comprensión de los idiomas. Los enfoques existentes para generar esas incorporaciones, como LASER o m~USE, se basan en datos paralelos y asignan una frase de un idioma directamente a otro para fomentar la coherencia entre las incorporaciones de oraciones. Si bien estos enfoques multilingües existentes proporcionan buenos resultados generales en varios idiomas, a menudo tienen un rendimiento inferior en los idiomas de altos recursos en comparación con los modelos bilingües dedicados, que pueden aprovechar enfoques como tareas de clasificación de traducciones con pares de traducción como datos de entrenamiento para obtener representaciones más alineadas. Además, debido a la limitada capacidad de los modelos y a la calidad a menudo deficiente de los datos de entrenamiento para los idiomas de escasos recursos, puede resultar difícil ampliar los modelos multilingües para que admitan una mayor cantidad de idiomas y mantener al mismo tiempo un buen rendimiento.

Ilustración de un espacio de incorporación multilingüe.

Los recientes esfuerzos por mejorar los modelos de idioma incluyen el desarrollo de entrenamiento previo de modelo de lenguaje enmascarado (MLM), como el que utilizan BERT, ALBERT y RoBERTa. Este enfoque ha generado resultados excepcionales en una amplia variedad de idiomas y en diferentes de tareas de procesamiento de lenguaje natural, ya que solo requiere texto monolingüe. Además, se ha ampliado el entrenamiento previo de MLM al ámbito multilingüe modificándolo a fin de incluir pares de traducción concatenados, conocidos como modelado de lenguaje de traducción (TLM), o simplemente introduciendo datos de entrenamiento previo de varios idiomas. No obstante, si bien las representaciones de modelos internos aprendidas durante el entrenamiento de MLM y TLM son útiles para ajustar las tareas posteriores, sin un objetivo a nivel de la oración, no producen directamente incorporaciones de oraciones, que son fundamentales para las tareas de traducción.

En Incorporación de oraciones BERT independientes del idioma, presentamos un modelo de incorporación multilingüe BERT, llamado LaBSE, que produce incorporaciones de frases en 109 idiomas. El modelo se entrena con 17 000 millones de frases monolingües y 6000 millones de pares de frases bilingües utilizando el entrenamiento previo de MLM y TLM, lo que genera un modelo eficaz incluso en los idiomas de escasos recursos sobre los que no se dispone de datos durante el entrenamiento. Además, el modelo establece un nuevo estado actual en varias tareas de recuperación de textos paralelos (lo que también se conoce como bitext). Pusimos a disposición de la comunidad el modelo de entrenamiento previo a través de tfhub, que incluye módulos que se pueden utilizar como están o se pueden ajustar usando datos específicos del dominio.

La recopilación de los datos de entrenamiento para 109 idiomas admitidos

El modelo
En trabajos anteriores, propusimos el uso de una tarea de clasificación de traducciones para aprender una frase multilingüe incorporada en una oración. Este enfoque asigna al modelo la tarea de clasificar la traducción verdadera por sobre una colección de oraciones en el idioma de destino, dada una oración en el idioma de origen. La tarea de clasificación de traducciones se entrena utilizando una arquitectura de doble codificador con un codificador transformer compartido. Los modelos bilingües resultantes lograron un rendimiento de vanguardia en varias tareas de recuperación de texto en paralelo (lo que incluye Naciones Unidas y BUCC). Sin embargo, el modelo se vio afectado cuando se extendieron los modelos bilingües para admitir varios idiomas (16 en nuestro caso de prueba) debido a limitaciones en la capacidad del modelo, la cobertura de vocabulario, la calidad de los datos de entrenamiento y más aspectos.

Tarea de clasificación de traducciones. Dada una oración en un determinado idioma de origen, la tarea es encontrar la verdadera traducción en una colección de oraciones en el idioma de destino.

Para LaBSE, aprovechamos los recientes avances en el entrenamiento previo de modelos de idioma, incluidos MLM y TLM, en una arquitectura parecida a BERT y seguimos trabajando con un ajuste en una tarea de clasificación de traducciones. Para aumentar la cobertura del modelo y el vocabulario, se utiliza un modelo de 12 capas transformer con un vocabulario de token de 500 000 entradas entrenado previamente utilizando MLM y TLM en 109 idiomas. El modelo resultante de LaBSE ofrece compatibilidad ampliada con 109 idiomas en un solo modelo.

La arquitectura de codificación dual, en la que el texto de origen y el de destino se codifican utilizando una red de incorporaciones de elementos transformer compartida por separado. Se aplica la tarea de clasificación de traducciones, con lo cual se imponen representaciones similares al texto que se parafrasea. La red de incorporaciones de elementos transformer se inicializa desde un punto de control de BERT entrenado en tareas de MLM y TLM.

Rendimiento en la recuperación de textos en varios idiomas
Evaluamos el modelo propuesto utilizando el corpus de Tatoeba, un conjunto de datos que consiste en hasta 1000 pares de frases alineadas en inglés para 112 idiomas. El modelo no tiene datos de entrenamiento para más de 30 de los idiomas del conjunto de datos. La tarea del modelo es encontrar la traducción del elemento vecino más cercano para una oración dada, que calcula usando la distancia de coseno.

A fin de comprender el rendimiento del modelo para los idiomas del principio o del final de la distribución de datos de entrenamiento, dividimos el conjunto de idiomas en varios grupos y calculamos la precisión promedio de cada conjunto. El primer grupo es de 14 idiomas y se selecciona a partir de los que admite m~USE, que son los del principio de la distribución (idiomas del principio). También evaluamos un segundo grupo, compuesto por 36 idiomas de la comparativa XTREME. El tercer grupo, de 82 idiomas y seleccionado a partir de los que figuran en los datos de entrenamiento de LASER, incluye muchos idiomas del final de la distribución (idiomas del final). Por último, calculamos la precisión promedio de todos los idiomas.

En la siguiente tabla se presenta la precisión promedio que alcanzó LaBSE, comparada con los modelos m~USE y LASER, para cada grupo de idiomas. Como era de esperarse, todos los modelos se desempeñan correctamente en el grupo de 14 idiomas que cubre la mayoría de los idiomas principales. Cuando se incluyen más idiomas, la precisión promedio tanto para LASER como para LaBSE disminuye. Sin embargo, la reducción de la precisión del modelo LaBSE con el aumento de la cantidad de idiomas es mucho menor, lo cual significa que LaBSE supera a LASER de manera significativa, en particular cuando se incluye la distribución completa de 112 idiomas (83,7% de precisión frente a 65,5%).

Modelo: 14 idiomas 36 idiomas 82 idiomas Todos los idiomas
m~USE* 93,9
LASER 95,3 84,4 75,9 65,5
LaBSE 95,3 95,0 87,3 83,7
Precisión promedio (%) en conjunto de datos de Tatoeba. El grupo “14 idiomas” está formado por los idiomas que admite m~USE, el “36 idiomas” incluye los que seleccionó XTREME y el “82 idiomas” representa los que abarca el modelo LASER. En el grupo “Todos los idiomas”, se incluyen todos los idiomas que admite Tatoeba.
* El modelo m~USE viene en dos variedades: una compilada en una arquitectura de red neuronal convolucional y otra sobre una arquitectura similar a la de Transformer. Aquí, solo se realiza la comparación con la versión de Transformer.

Compatibilidad para idiomas no admitidos
El rendimiento promedio de todos los idiomas incluidos en Tatoeba es muy prometedor. Curiosamente, LaBSE incluso funciona con relativa eficacia con muchos de los más de 30 idiomas de Tatoeba para los que no tiene datos de entrenamiento (ver más adelante). Para un tercio de esos idiomas, la precisión de LaBSE es superior al 75%, y solo 8 tienen una precisión inferior al 25%, lo que indica un rendimiento de transferencia muy fuerte a los idiomas sin datos de entrenamiento. Esa transferencia lingüística positiva solo es posible debido a la naturaleza masivamente multilingüe de LaBSE.

Precisión de LaBSE correspondiente al subconjunto de idiomas de Tatoeba (representados con los códigos ISO 639-1/639-2) para las que no había datos de entrenamiento.

Extracción de texto paralelo de la Web: LaBSE puede utilizarse para extraer texto paralelo (bi-text) a partir de datos a escala de la Web. Por ejemplo, aplicamos LaBSE a CommonCrawl, un corpus monolingüe a gran escala, a fin de procesar 560 millones de frases chinas y 330 millones de oraciones alemanas para la extracción de texto paralelo. Cada par de oraciones en chino y alemán se codifica utilizando el modelo LaBSE; luego, se utiliza la incorporación codificada para encontrar una posible traducción en un conjunto de 7700 millones de frases en inglés procesadas previamente y codificadas por el modelo. Se emplea una búsqueda aproximada del elemento vecino cercano para buscar rápidamente en las incorporaciones de oraciones de alta dimensión. Después de un simple filtrado, el modelo muestra 261 millones de pares paralelos potenciales para inglés-chino y 104 millones para inglés-alemán. El modelo NMT entrenado que utiliza los datos extraídos alcanza puntuaciones de BLEU de 35,7 y 27,2 en tareas de traducción WMT (wmt17 para inglés a chino y wmt14 para inglés a alemán). El rendimiento está a solo unos pocos puntos del estado actual de los modelos entrenados con datos paralelos de alta calidad.

Conclusión: nos entusiasma compartir esta investigación y el modelo con la comunidad. El modelo entrenado previamente se publica en tfhub para que se puedan desarrollar más investigaciones en esta dirección y posibles casos de uso posteriores. También creemos que lo que estamos mostrando aquí es solo el comienzo y que hay problemas de investigación más importantes que deben abordarse, como el diseño de mejores modelos para admitir todos los idiomas.

Agradecimientos El equipo principal está formado por Wei Wang, Naveen Arivazhagan y Daniel Cer. Nos gustaría agradecer al equipo de Google Research Language, junto con nuestros socios de otros grupos de Google, por sus comentarios y sugerencias. Un agradecimiento especial a Sidharth Mudgal y Jax Law por su ayuda en el procesamiento de datos, así como a Jialu Liu, Tianqi Liu, Chen Chen y Anosh Raj por su ayuda en el entrenamiento previo de BERT.