Publicado por Scott Lin, gerente de producto de Google Play
Para muchos desarrolladores, las calificaciones y opiniones son un punto de contacto importante con los usuarios. Todos los días, se dejan millones de opiniones en Google Play, lo que ofrece a los desarrolladores estadísticas valiosas sobre lo que les gusta a los usuarios y lo que estos quieren que se mejore. Los usuarios también confían en las calificaciones y opiniones para decidir qué apps y juegos son los adecuados para ellos.
En los últimos dos años, Google Play ha lanzado varias funciones para facilitar a los usuarios la tarea de dejar opiniones, así como para que los desarrolladores interactúen con ellas y las respondan. Por ejemplo, los usuarios pueden dejar sus opiniones en la página principal de Google Play. También lanzamos la página Opiniones, en Mis apps y juegos, que ofrece a los usuarios un lugar centralizado para dejar y administrar opiniones.
Sin embargo, una de las funciones más solicitadas por los desarrolladores ha sido dar a los usuarios la posibilidad de dejar una opinión desde dentro de la app, sin necesidad de regresar a la página Detalles de la app. Por eso, hoy nos complace lanzar la nueva API de opiniones integradas en la app para atender esa necesidad.
La API permite a los desarrolladores elegir cuándo pedir a los usuarios que escriban opiniones dentro de la experiencia de la app. Creemos que el mejor momento para avisar a los usuarios es cuando hayan utilizado la app lo suficiente como para poder proporcionar comentarios minuciosos y útiles. Sin embargo, asegúrate de no interrumpirlos en medio de una tarea o cuando su atención sea necesaria, ya que el flujo de opiniones anulará cualquier acción de la pantalla.
Los usuarios ahora pueden dejar calificaciones y opiniones dentro de tu app.
La API de opiniones integradas en la app admite opiniones públicas y privadas para la fase Beta de tu app.
Esta API es parte de la Biblioteca de Play Core, que se distribuye para Java/Kotlin, C++ y Unity. Ofrece una API ligera que permite a las apps solicitar una opinión e iniciar el flujo correspondiente sin que los usuarios deban abandonar la app.
La integración consiste en cuatro pasos principales:
Tanto si el usuario deja una opinión como si no lo hace, la app debe continuar sin alterar el flujo de usuarios. La API de opiniones integradas en la app está diseñada para no interferir en las actividades de los usuarios.
Para ver en acción la API de opiniones integradas en la app, consulta el ejemplo recién publicado, que muestra la llamada de la API a través de la biblioteca de extensiones de Kotlin de Play Core (KTX), junto con otras API de Play Core, como las actualizaciones integradas en la app y la instalación de módulos de funciones a pedido.
La API hará que sea mucho más fácil para los usuarios compartir estadísticas valiosas sobre tu app.
Esto es lo que dijeron algunos de nuestros socios durante el programa de acceso anticipado:
"La integración fue rápida y sencilla gracias a los nuevos cambios de la API de opiniones integradas en la app, y obtuvimos un aumento casi inmediato en las calificaciones y opiniones positivas después de publicar esos cambios".- Chris Scoville, gerente de ingeniería de Calm
- Chris Scoville, gerente de ingeniería de Calm
"La API de opiniones integradas en la app permite a nuestros clientes dejar calificaciones sin salir de la app. Desde la implementación de la API, nuestras calificaciones de 5 estrellas se han incrementado 4 veces".- Nathaniel Khuana, arquitecto técnico de Tokopedia
- Nathaniel Khuana, arquitecto técnico de Tokopedia
"Obtuvimos nuestra calificación más alta de todos los tiempos apenas una semana después de implementar las opiniones integradas en la app".- Welly Chandra, gerente asociado de producto de Traveloka
- Welly Chandra, gerente asociado de producto de Traveloka
Debido a que los mejores comentarios son honestos e imparciales, diseñamos la API para que fuera autónoma y no requiriera más indicaciones que la de invocar la API. También hemos puesto límites máximos para asegurarnos de que a los usuarios no se les solicite repetidamente una opinión si deciden no dejar ninguna.
Animamos a los desarrolladores a que exploren la integración de la API de opiniones integradas en la app, ya que les proporcionará el tipo de información que solo sus usuarios dedicados pueden brindar. Y recuerda que, una vez que recibas esas opiniones, hay muchísimas herramientas de calificaciones y opiniones disponibles en Google Play Console para ayudarte a analizar las opiniones y responder de forma directa a las preocupaciones de los usuarios.
¿Qué tan útil te resultó esta entrada de blog?
★ ★ ★ ★ ★
En poco más de dos años, Android App Bundle se ha convertido en el estándar preferido para publicar en Google Play. Actualmente, más de 600 000 apps y juegos utilizan un paquete de apps en producción, lo que representa más del 40% de todos los lanzamientos de Google Play. El 50% de los principales desarrolladores de Google Play usa paquetes de apps. Por ejemplo, Adobe los utilizó para reducir el tamaño de Adobe Acrobat Reader en un 20%.
Recientemente, lanzamos Play Asset Delivery (PAD) para ofrecer a los juegos los grandes beneficios de los paquetes de apps y permitir que los desarrolladores mejoren la experiencia del usuario y, a la vez, reduzcan los costos de entrega y el tamaño de sus juegos. Gameloft usó PAD para mejorar la retención de los usuarios, gracias a lo cual generó un 10% más de nuevos jugadores que con su anterior sistema de entrega de activos.
Para aquellos que hagan el cambio, hemos publicado algunas preguntas frecuentes sobre la firma de apps de Play, que es obligatoria para los paquetes de apps, además de una guía sobre cómo probar el paquete de apps. Sigue leyendo para saber más acerca de las recientes mejoras que hemos hecho en los procesos de desarrollo, prueba y publicación de paquetes de apps.
Play Feature Delivery
Los paquetes de apps permiten el desarrollo modular mediante módulos de funciones dinámicas con una variedad de opciones de entrega personalizables. Ahora es posible acceder a recursos de reducción en módulos de funciones dinámicas, así como a tu módulo base cuando se compilan apps modulares. Esta función tan solicitada puede generar una reducción considerable en el tamaño de tus apps. Está disponible en Android Studio 4.2, actualmente en versión canary, en la función experimental android.experimental.enableNewResourceShrinker=true.
android.experimental.enableNewResourceShrinker=true
De forma predeterminada, los módulos de tiempo de instalación ahora se fusionan automáticamente cuando se procesan los paquetes de apps en APK de distribución (a partir de bundletool 1.0.0). Eso significa que puedes separar tu app en módulos durante el desarrollo y al mismo tiempo reducir la cantidad de APK distribuidos a cada dispositivo, lo que acelerará la descarga e instalación de tu app. Puedes elegir establecer una "función experimental extraíble" para los módulos de tiempo de instalación a fin de evitar la fusión, lo que te permite desinstalar un módulo en el dispositivo después de haberlo usado. Es una buena idea quitar los módulos grandes una vez que ya no se necesiten, puesto que, si se reduce el tamaño de la aplicación, es menos probable que se desinstale.
La dependencia de función en función ahora está estable en Android Studio 4.0, por lo que puedes especificar si un módulo de funciones dinámicas depende de otro módulo de funciones. El hecho de poder definir esa relación garantiza que tu app cuente con los módulos necesarios para desbloquear funcionalidades adicionales, lo que genera menos solicitudes y una modularización más sencilla.
Sabemos que es importante probar la entrada de una app y obtener la misma experiencia que tus usuarios en una situación real. El uso compartido interno de apps te permite subir compilaciones de pruebas a Play y obtener un vínculo para compartir que permita descargar tu app. Al descargar tu aplicación desde ese vínculo, obtienes un objeto binario idéntico al que se entregaría a los usuarios después del lanzamiento de tu app en Play.
Play Asset Delivery
Play Asset Delivery amplía el formato del paquete de apps, ya que permite empaquetar hasta 2 GB de recursos de juegos junto con el objeto binario en un solo artefacto publicado en Google Play. PAD permite que los juegos de más de 150 MB sustituyan a los archivos de expansión heredados (OBB) y dependan de Play para mantener los activos actualizados, al igual que con tu objeto binario de juego. También se encarga de la compresión y la aplicación de parches delta, ya que minimiza el tamaño de descarga y hace que el juego se actualice más rápido.
<id="imgCaption"> El contenido de un paquete de aplicaciones para Android con un módulo base, dos módulos de funciones dinámicas y dos paquetes de activos.
Luego, puedes elegir uno de los tres modos de entrega, según el momento en que desees que esos activos se entreguen a los usuarios: tiempo de instalación, como parte de la instalación inicial del juego; a pedido, para que los activos se entreguen solo cuando se soliciten; o seguimiento rápido, que activará una descarga adicional inmediatamente después de que se complete la instalación del juego, independientemente de si el usuario abre la app. El seguimiento rápido te permite minimizar el tiempo de la primera interacción y hacer llegar los activos a los usuarios lo más rápido posible.
En los próximos meses, lanzaremos la orientación de formato de compresión de textura, que te permitirá incluir varios activos de formato de compresión de textura y confiar en que los entreguemos al formato más avanzado que admita el dispositivo solicitante.
Obtén más información en esta sesión de nuestra Game Developer Summit y consulta la documentación para ver las opciones de integración de Unity, Unreal Engine, Gradle, Native y Java.
La mejor distribución de Google Play
Google Play ofrece miles de millones de apps, juegos, actualizaciones y módulos de funciones dinámicas cada mes a los usuarios de Android en miles de tipos de dispositivos de todo el mundo. Invertimos mucho tiempo y energía en asegurarnos de que tu contenido se entregue a los usuarios de la manera más fluida y eficiente posible al mismo tiempo que se oculta la complejidad de la experiencia del usuario.
Por ejemplo, recientemente mejoramos el servicio de descargas que usa Google Play. Este cambio, por sí solo, ha acelerado la instalación de los paquetes de apps en un promedio del 6% y ha aumentado el éxito de la instalación a nivel mundial en un 1%, lo que genera millones de nuevas instalaciones para los desarrolladores cada semana.
También estamos implementando varias mejoras en la distribución de módulos de funciones dinámicas, como permitir que se instalen cuando su aplicación es VISIBLE o superior, reducir el umbral de almacenamiento libre que desencadena errores de almacenamiento insuficiente y eliminar la confirmación del usuario para las funciones dinámicas de gran tamaño a través de Wi-Fi. Solo esto ha generado un 12% más de descargas de módulos aplazados con éxito. Las apps que utilizan funciones dinámicas se beneficiarán de estos cambios automáticamente.
Necesidad de nuevas aplicaciones en la segunda mitad de 2021
Seguimos haciendo que los paquetes de apps tengan un mejor formato de publicación que los APK de Google Play. Por ejemplo, el nuevo explorador de paquetes de apps te permite administrar todos tus paquetes de apps en un solo lugar. Puedes descargar y certificar los APK exactos que Play genera para su entrega, así como un APK firmado y universal (un APK único e instalable que incluye todo el código y los recursos necesarios para los dispositivos compatibles) que puedes utilizar en otros canales de distribución.
Nos complace ver que los paquetes de apps han sido bien recibidos por el ecosistema de apps y juegos, y nos entusiasma seguir mejorándolos. Como anunciamos en el evento de Android 11, para ayudarnos a invertir en futuras mejoras, tenemos la intención de hacer obligatoria la publicación de apps y juegos nuevos con Android App Bundle en Google Play a partir de la segunda mitad de 2021. En el mismo plazo, daremos de baja los archivos de expansión de APK heredados (OBB) y haremos que Play Asset Delivery sea la opción estándar para la publicación de juegos de más de 150 MB. También requeriremos que las experiencias instantáneas se publiquen a través de paquetes de apps instantáneas y daremos de baja el formato ZIP de las apps instantáneas heredadas.
Queremos agradecer a todos los que ya han hecho el cambio a Android App Bundle y, en especial, a aquellos que han compartido sus comentarios. Tus comentarios nos ayudan a definir el futuro de los paquetes de apps y a mejorar la tecnología para todo el mundo, así que continúa haciéndonos saber lo que piensas.
Esta entrada de blog es parte de una serie semanal de #11WeeksOfAndroid. Cada semana, exploramos un área clave de Android para que no te pierdas nada. En esta edición, veremos la distribución y monetización de apps en Google Play. Esto es lo que deberías saber.
Gracias por acompañarnos en esta edición de 11 semanas de Android, donde nos centramos en la distribución y monetización de apps. Los desarrollos que anunciamos te permitirán ofrecer las emocionantes mejoras de la plataforma Android de las que has oído hablar desde la semana 1.
Google Play se asocia con desarrolladores para ofrecer experiencias digitales sorprendentes a miles de millones de usuarios de Android. Desde el principio, nos hemos comprometido a proporcionar las herramientas y los conocimientos necesarios para que puedas llegar a más usuarios y expandir tu negocio. Esta semana, lanzamos aún más funciones (y mejoramos las existentes) para ayudarte a continuar maximizando tu éxito.
Gracias a todos los que ya han compartido sus comentarios sobre la nueva versión Beta de Google Play Console, que se lanzó hace unos meses en play.google.com/console. A medida que continuamos actualizando la versión Beta, realizamos una serie de lanzamientos clave, que incluyen:
A principios de esta semana, organizamos tres seminarios web para que te pongas al día sobre las novedades y los cambios de la versión clásica de Play Console. Si no pudiste ver la transmisión en vivo, mira los videos a pedido a continuación.
Si acabas de empezar, únete al ingeniero jefe de Google Play Console, Dan White, para descubrir las nuevas funciones, como Inbox, el estado de las políticas, el contenido de las apps y las funciones mejoradas de administración de equipos.
Para ayudarte a lanzar contenido con más confianza, consulta este seminario web del diseñador de UX de Google Play Matt McGriskin, que te guiará a través del nuevo flujo de trabajo de pruebas y publicación.
Por último, si quieres expandir tu público, únete al ingeniero de Google Play Ryan Fanelli para conocer las prácticas recomendadas de optimización de la tienda de aplicaciones y obtener una descripción general de los nuevos informes de adquisición.
También puedes realizar nuestro curso de Play Console Play Academy. Y, si aún no lo has hecho, habilita la verificación en 2 pasos para acceder a Google Play Console, que será obligatoria a finales de este año.
Nos alegra que muchos desarrolladores ya estén usando Android App Bundle para lanzar sus apps y juegos. Seguimos optimizando este paquete de publicación con varias mejoras recientes:
Si aún no has cambiado a los paquetes de apps, publicamos algunas preguntas frecuentes sobre la firma de apps de Play (que es obligatoria para los paquetes de apps), además de documentación que explica cómo probar un paquete de apps. Consulta nuestra reciente entrada de blog para saber más acerca de las mejoras que hemos hecho en los procesos de desarrollo, prueba y publicación de paquetes de apps.
Como parte del lanzamiento de Android 11 Beta, anunciamos que tenemos la intención de requerir que las apps nuevas se publiquen con Android App Bundle en Google Play a partir de la segunda mitad de 2021. Eso significa que también daremos de baja los archivos de expansión de APK (OBB) y haremos que Play Asset Delivery sea el estándar para la publicación de juegos de más de 150 MB.
Debido a que las calificaciones y las opiniones son un punto de contacto importante con los usuarios, muchos desarrolladores nos pidieron que les diéramos a los usuarios la posibilidad de dejar una opinión dentro de la app. Ahora, con la nueva API de opiniones integradas en la app, se puede hacer justamente eso. Elige cuándo pedir a los usuarios que dejen una opinión y obtén comentarios valiosos en el momento indicado. La API de opiniones integradas en la app ya está disponible en la biblioteca de Play Core.
También lanzamos una muestra unificada para API de Play Core, que incluye opiniones y actualizaciones integradas en la app, así como módulos de funciones a pedido. Consúltala para aprender a utilizar estas API usando nuestro artefacto de extensiones de Play Core para Kotlin, que hace que trabajar con Play Core sea más fácil para los usuarios de ese lenguaje.
Hemos hecho una serie de actualizaciones en Play Commerce con el objetivo de crear confianza en los usuarios mediante experiencias de pago más sencillas y claras. Las políticas de confianza que anunciamos en abril ofrecen a los usuarios una mayor transparencia, experiencias de pruebas gratuitas más seguras y cancelaciones más sencillas.
También lanzamos la Biblioteca de Facturación Play 3, que admite pagos en efectivo, una mejor experiencia de canje de códigos promocionales de suscripciones, atribución de compras y mucho más. La Biblioteca de Facturación Play 3 será obligatoria para todas las apps nuevas a partir del 2 de agosto de 2021.
Para obtener más información, consulta esta sesión con Mrinalini Loew, gerenta de proyecto de grupo de Google Play Commerce.
También acabamos de publicar una serie de seis artículos sobre Google Play Billing, que puedes seguir en Medium.
Google Play Pass permite a los desarrolladores obtener ingresos adicionales y conectarse con públicos no explotados ofreciendo experiencias libres de anuncios y compras directas desde la aplicación. Desde su lanzamiento en septiembre de 2019, Play Pass ha agregado más de 200 títulos nuevos a su catálogo, desde juegos de acertijos y carreras hasta apps infantiles y de herramientas. También nos emociona celebrar los estrenos mundiales de Super Glitch Dash y Element esta semana como estrenos de Play Pass.
El catálogo ampliado ha enriquecido la experiencia de los usuarios y ha proporcionado ingresos sostenibles a los desarrolladores mediante un innovador modelo de pago. En total, los títulos en Play Pass ganan 2,5 veces más ingresos en comparación con las ganancias que solo provienen de Play Store en Estados Unidos.
El mes pasado, pusimos a disposición del público Google Play Pass en nueve mercados nuevos y les dimos a los usuarios la opción de empezar con una suscripción anual o con el plan mensual existente.Hoy anunciamos que los desarrolladores que tienen suscripciones integradas en sus apps ahora pueden postular sus títulos para que se incluyan en Play Pass. Si estás creando una gran experiencia que a los usuarios de Google Play Pass les encantará, puedes obtener más información y expresar tu interés en participar.
Si estás buscando una manera fácil de conocer lo más destacado de esta semana, echa un vistazo a la vía de aprendizaje de monetización y distribución de apps. Pon a prueba tus conocimientos sobre las principales conclusiones clave para ganar una insignia virtual de edición limitada.
¡Gracias por acompañarnos durante 11 semanas de Android! Esperamos que estos anuncios y recursos recientes te ayuden a potenciar tu éxito en Google Play.
Puedes encontrar la lista de reproducción completa del contenido de video de #11WeeksOfAndroid aquí y obtener más información sobre cada semana aquí. Seguiremos hablando sobre nuevas áreas destacadas cada semana, así que mantente al tanto y síguenos en Twitter y YouTube. Muchas gracias por dejarnos ser parte de esta experiencia contigo.
Un modelo de incorporación multilingüe es un instrumento potente que codifica texto de diferentes idiomas en un espacio de incorporación compartido, lo que permite aplicarlo a una serie de tareas descendentes, como la clasificación de texto y el agrupamiento de clústeres, entre otras, al mismo tiempo que se aprovecha la información semántica para la comprensión de los idiomas. Los enfoques existentes para generar esas incorporaciones, como LASER o m~USE, se basan en datos paralelos y asignan una frase de un idioma directamente a otro para fomentar la coherencia entre las incorporaciones de oraciones. Si bien estos enfoques multilingües existentes proporcionan buenos resultados generales en varios idiomas, a menudo tienen un rendimiento inferior en los idiomas de altos recursos en comparación con los modelos bilingües dedicados, que pueden aprovechar enfoques como tareas de clasificación de traducciones con pares de traducción como datos de entrenamiento para obtener representaciones más alineadas. Además, debido a la limitada capacidad de los modelos y a la calidad a menudo deficiente de los datos de entrenamiento para los idiomas de escasos recursos, puede resultar difícil ampliar los modelos multilingües para que admitan una mayor cantidad de idiomas y mantener al mismo tiempo un buen rendimiento.
Los recientes esfuerzos por mejorar los modelos de idioma incluyen el desarrollo de entrenamiento previo de modelo de lenguaje enmascarado (MLM), como el que utilizan BERT, ALBERT y RoBERTa. Este enfoque ha generado resultados excepcionales en una amplia variedad de idiomas y en diferentes de tareas de procesamiento de lenguaje natural, ya que solo requiere texto monolingüe. Además, se ha ampliado el entrenamiento previo de MLM al ámbito multilingüe modificándolo a fin de incluir pares de traducción concatenados, conocidos como modelado de lenguaje de traducción (TLM), o simplemente introduciendo datos de entrenamiento previo de varios idiomas. No obstante, si bien las representaciones de modelos internos aprendidas durante el entrenamiento de MLM y TLM son útiles para ajustar las tareas posteriores, sin un objetivo a nivel de la oración, no producen directamente incorporaciones de oraciones, que son fundamentales para las tareas de traducción.
En Incorporación de oraciones BERT independientes del idioma, presentamos un modelo de incorporación multilingüe BERT, llamado LaBSE, que produce incorporaciones de frases en 109 idiomas. El modelo se entrena con 17 000 millones de frases monolingües y 6000 millones de pares de frases bilingües utilizando el entrenamiento previo de MLM y TLM, lo que genera un modelo eficaz incluso en los idiomas de escasos recursos sobre los que no se dispone de datos durante el entrenamiento. Además, el modelo establece un nuevo estado actual en varias tareas de recuperación de textos paralelos (lo que también se conoce como bitext). Pusimos a disposición de la comunidad el modelo de entrenamiento previo a través de tfhub, que incluye módulos que se pueden utilizar como están o se pueden ajustar usando datos específicos del dominio.
El modelo En trabajos anteriores, propusimos el uso de una tarea de clasificación de traducciones para aprender una frase multilingüe incorporada en una oración. Este enfoque asigna al modelo la tarea de clasificar la traducción verdadera por sobre una colección de oraciones en el idioma de destino, dada una oración en el idioma de origen. La tarea de clasificación de traducciones se entrena utilizando una arquitectura de doble codificador con un codificador transformer compartido. Los modelos bilingües resultantes lograron un rendimiento de vanguardia en varias tareas de recuperación de texto en paralelo (lo que incluye Naciones Unidas y BUCC). Sin embargo, el modelo se vio afectado cuando se extendieron los modelos bilingües para admitir varios idiomas (16 en nuestro caso de prueba) debido a limitaciones en la capacidad del modelo, la cobertura de vocabulario, la calidad de los datos de entrenamiento y más aspectos.
Para LaBSE, aprovechamos los recientes avances en el entrenamiento previo de modelos de idioma, incluidos MLM y TLM, en una arquitectura parecida a BERT y seguimos trabajando con un ajuste en una tarea de clasificación de traducciones. Para aumentar la cobertura del modelo y el vocabulario, se utiliza un modelo de 12 capas transformer con un vocabulario de token de 500 000 entradas entrenado previamente utilizando MLM y TLM en 109 idiomas. El modelo resultante de LaBSE ofrece compatibilidad ampliada con 109 idiomas en un solo modelo.
Rendimiento en la recuperación de textos en varios idiomas Evaluamos el modelo propuesto utilizando el corpus de Tatoeba, un conjunto de datos que consiste en hasta 1000 pares de frases alineadas en inglés para 112 idiomas. El modelo no tiene datos de entrenamiento para más de 30 de los idiomas del conjunto de datos. La tarea del modelo es encontrar la traducción del elemento vecino más cercano para una oración dada, que calcula usando la distancia de coseno.
A fin de comprender el rendimiento del modelo para los idiomas del principio o del final de la distribución de datos de entrenamiento, dividimos el conjunto de idiomas en varios grupos y calculamos la precisión promedio de cada conjunto. El primer grupo es de 14 idiomas y se selecciona a partir de los que admite m~USE, que son los del principio de la distribución (idiomas del principio). También evaluamos un segundo grupo, compuesto por 36 idiomas de la comparativa XTREME. El tercer grupo, de 82 idiomas y seleccionado a partir de los que figuran en los datos de entrenamiento de LASER, incluye muchos idiomas del final de la distribución (idiomas del final). Por último, calculamos la precisión promedio de todos los idiomas.
En la siguiente tabla se presenta la precisión promedio que alcanzó LaBSE, comparada con los modelos m~USE y LASER, para cada grupo de idiomas. Como era de esperarse, todos los modelos se desempeñan correctamente en el grupo de 14 idiomas que cubre la mayoría de los idiomas principales. Cuando se incluyen más idiomas, la precisión promedio tanto para LASER como para LaBSE disminuye. Sin embargo, la reducción de la precisión del modelo LaBSE con el aumento de la cantidad de idiomas es mucho menor, lo cual significa que LaBSE supera a LASER de manera significativa, en particular cuando se incluye la distribución completa de 112 idiomas (83,7% de precisión frente a 65,5%).
Compatibilidad para idiomas no admitidos El rendimiento promedio de todos los idiomas incluidos en Tatoeba es muy prometedor. Curiosamente, LaBSE incluso funciona con relativa eficacia con muchos de los más de 30 idiomas de Tatoeba para los que no tiene datos de entrenamiento (ver más adelante). Para un tercio de esos idiomas, la precisión de LaBSE es superior al 75%, y solo 8 tienen una precisión inferior al 25%, lo que indica un rendimiento de transferencia muy fuerte a los idiomas sin datos de entrenamiento. Esa transferencia lingüística positiva solo es posible debido a la naturaleza masivamente multilingüe de LaBSE.
Extracción de texto paralelo de la Web: LaBSE puede utilizarse para extraer texto paralelo (bi-text) a partir de datos a escala de la Web. Por ejemplo, aplicamos LaBSE a CommonCrawl, un corpus monolingüe a gran escala, a fin de procesar 560 millones de frases chinas y 330 millones de oraciones alemanas para la extracción de texto paralelo. Cada par de oraciones en chino y alemán se codifica utilizando el modelo LaBSE; luego, se utiliza la incorporación codificada para encontrar una posible traducción en un conjunto de 7700 millones de frases en inglés procesadas previamente y codificadas por el modelo. Se emplea una búsqueda aproximada del elemento vecino cercano para buscar rápidamente en las incorporaciones de oraciones de alta dimensión. Después de un simple filtrado, el modelo muestra 261 millones de pares paralelos potenciales para inglés-chino y 104 millones para inglés-alemán. El modelo NMT entrenado que utiliza los datos extraídos alcanza puntuaciones de BLEU de 35,7 y 27,2 en tareas de traducción WMT (wmt17 para inglés a chino y wmt14 para inglés a alemán). El rendimiento está a solo unos pocos puntos del estado actual de los modelos entrenados con datos paralelos de alta calidad.
Conclusión: nos entusiasma compartir esta investigación y el modelo con la comunidad. El modelo entrenado previamente se publica en tfhub para que se puedan desarrollar más investigaciones en esta dirección y posibles casos de uso posteriores. También creemos que lo que estamos mostrando aquí es solo el comienzo y que hay problemas de investigación más importantes que deben abordarse, como el diseño de mejores modelos para admitir todos los idiomas.
Agradecimientos El equipo principal está formado por Wei Wang, Naveen Arivazhagan y Daniel Cer. Nos gustaría agradecer al equipo de Google Research Language, junto con nuestros socios de otros grupos de Google, por sus comentarios y sugerencias. Un agradecimiento especial a Sidharth Mudgal y Jax Law por su ayuda en el procesamiento de datos, así como a Jialu Liu, Tianqi Liu, Chen Chen y Anosh Raj por su ayuda en el entrenamiento previo de BERT.