Los sistemas de reconocimiento de voz automáticos (ASR) tradicionales, que se usan para diferentes aplicaciones de búsqueda por voz en Google, constan de un modelo acústico (AM), un modelo de pronunciación (PM) y un modelo de idioma (LM), que se preparan individualmente y, por lo general, se diseñan manualmente, en diferentes conjuntos de datos [1]. Los AM toman funciones acústicas y predicen un conjunto de unidades de subpalabras; normalmente, fonemas dependientes e independientes del contexto. Luego, un léxico diseñado manualmente (el PM) asigna una secuencia de fonemas, producida por el modelo acústico, a palabras. Por último, el LM asigna probabilidades a secuencias de palabras. La preparación de componentes independientes crea otras complejidades y no es óptimo cuando se compara con la preparación de todos los componentes de forma conjunta. Durante los últimos años, se ha vuelto cada vez más popular el desarrollo de sistemas integrales, cuyo propósito es aprender esos componentes independientes de forma conjunta como un solo sistema. Si bien esos modelos integrales han mostrado resultados prometedores en la literatura [2, 3], aún no está claro si esos enfoques pueden mejorar en los sistemas convencionales de vanguardia actuales.

Hoy compartimos con entusiasmo “Reconocimiento de voz innovador con modelos secuenciales [4]”, que describe un nuevo modelo integral que supera el rendimiento de un sistema de producción convencional [1]. Mostramos que nuestro sistema integral alcanza un índice de error de palabras (WER) del 5,6%, que corresponde a una mejora relativa del 16% en comparación con un sistema convencional sólido, que alcanza un WER del 6,7%. Además, el modelo integral usado para generar la hipótesis de palabras inicial, antes de realizar una nueva puntuación de cualquier hipótesis, es 18 veces más pequeño que el modelo convencional, ya que no contiene LM ni PM independientes.

Nuestro sistema se basa en la arquitectura integral escuchar-asistir-deletrear (LAS), que se presentó por primera vez en [2]. La arquitectura LAS consta de 3 componentes. El componente codificador de escucha, similar a un AM estándar, toma una representación de frecuencia de tiempo de la señal de voz de entrada, x, y usa un conjunto de capas de red neurales para asignar los datos de entrada a una representación de función de nivel superior, henc. Los datos de salida del codificador se pasan a un mecanismo de atención, que usa henc para determinar una alineación entre las funciones de entrada x y las unidades de subpalabra previstas {yn, … y0}, donde cada subpalabra generalmente es un grafema o una parte de una palabra. Por último, el resultado del módulo de atención se pasa al deletreador (es decir, el decodificador), similar a un LM, que produce una distribución de probabilidad entre un conjunto de palabras supuestas.
Componentes del modelo integral LAS.
Todos los componentes del modelo LAS se preparan de forma conjunta como una sola red neural integral, no como módulos independientes propios de los sistemas convencionales, lo cual hace mucho más simple el proceso.
Además, debido a que el modelo LAS es completamente neural, no se requieren componentes externos diseñados manualmente, como transductores de estado limitados, un léxico o módulos de normalización de texto. Por último, a diferencia de lo que sucede con los modelos convencionales, para la preparación de modelos integrales no se necesitan arranques desde árboles de decisión ni alineaciones de tiempo generadas por un sistema independiente; esta se puede lograr a partir de pares de transcripciones de texto y de la acústica correspondiente.

En [4], presentamos diferentes mejoras estructurales nuevas, que incluyen la optimización de los vectores de atención que se pasan al decodificador y la preparación con unidades de subpalabras más extensas (es decir, partes de palabras). A su vez, también presentamos varias mejoras de optimización para la preparación, entre las que se incluyen el uso de preparación con un índice de error de palabras mínimo [5]. Estas mejoras estructurales y de optimización son las que permiten alcanzar la mejora relativa del 16% en comparación con el modelo convencional.

Otro campo de aplicación potencial que genera entusiasmo para esta investigación es el de los sistemas multidialecto y multilingüe, en el cual la facilidad de optimización de una red neural individual hace que el modelo sea muy atractivo. Aquí, los datos para todos los dialectos e idiomas se pueden combinar para preparar una red sin la necesidad de un AM, PM y LM independientes para cada dialecto o idioma. Estos modelos funcionan bien en 7 dialectos del inglés [6] y 9 idiomas de la India [7], y su rendimiento supera al de un modelo preparado de forma independiente para cada idioma o dialecto por separado.

Si bien estamos entusiasmados con los resultados, nuestro trabajo no ha terminado. Actualmente, estos modelos no pueden procesar voz en tiempo real [8, 9 y 10], que es un requisito importante para las aplicaciones sensibles a la latencia, como la búsqueda por voz. Además, la comparación de estos modelos con la producción aún es negativa cuando se evalúan en los datos de producción en tiempo real. Además, nuestro modelo integral incorpora 22 millones de enunciados en pares de audio-texto en comparación con un sistema convencional, que generalmente se prepara con elementos mucho más extensos. A esto se suma que nuestro modelo propuesto no puede aprender a deletrear de forma correcta palabras de uso poco frecuente, como nombres propios, algo que generalmente se logra con un PM diseñado manualmente. Nuestros esfuerzos continuos se centran en la manera de abordar esos desafíos.

Agradecimientos
Este trabajo se realizó en un gran esfuerzo colaborativo entre los equipos de ideas y voz de Google. Entre los colaboradores se incluyen Tara Sainath, Rohit Prabhavalkar, Bo Li, Kanishka Rao, Shankar Kumar, Shubham Toshniwal, Michiel Bacchiani y Johan Schalkwyk, del equipo de voz, y Yonghui Wu, Patrick Nguyen, Zhifeng Chen, Chung-cheng Chiu, Anjuli Kannan, Ron Weiss, Navdeep Jaitly, William Chan, Yu Zhang y Jan Chorowski, del equipo de ideas de Google. El trabajo se describe de forma más detallada en los documentos [4-12].

Referencias
[1] G. Pundak and T. N. Sainath, “Lower Frame Rate Neural Network Acoustic Models," in Proc. Interspeech, 2016.

[2] W. Chan, N. Jaitly, Q. V. Le y O. Vinyals, “Listen, attend and spell”, CoRR, vol. abs/1508.01211, 2015

[3] R. Prabhavalkar, K. Rao, T. N. Sainath, B. Li, L. Johnson y N. Jaitly, “A Comparison of Sequence-to-sequence Models for Speech Recognition”, en Proc. Interspeech, 2017.

[4] C.C. Chiu, T.N. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kannan, R.J. Weiss, K. Rao, K. Gonina, N. Jaitly, B. Li, J. Chorowski y M. Bacchiani, “State-of-the-art Speech Recognition With Sequence-to-Sequence Models”, presentado en ICASSP 2018.

[5] R. Prabhavalkar, T.N. Sainath, Y. Wu, P. Nguyen, Z. Chen, C.C. Chiu y A. Kannan, “Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models”, presentado en ICASSP 2018.

[6] B. Li, T.N. Sainath, K. Sim, M. Bacchiani, E. Weinstein, P. Nguyen, Z. Chen, Y. Wu y K. Rao, “Multi-Dialect Speech Recognition With a Single Sequence-to-Sequence Model”, presentado en ICASSP 2018.

[7] S. Toshniwal, T.N. Sainath, R.J. Weiss, B. Li, P. Moreno, E. Weinstein y K. Rao, “End-to-End Multilingual Speech Recognition using Encoder-Decoder Models”, presentado en ICASSP 2018.

[8] T.N. Sainath, C.C. Chiu, R. Prabhavalkar, A. Kannan, Y. Wu, P. Nguyen y Z. Chen, “Improving the Performance of Online Neural Transducer Models”, presentado en ICASSP 2018.

[9] C.C. Chiu* y C. Raffel*, “Monotonic Chunkwise Attention”, presentado en ICLR 2018.

[10] D. Lawson*, C.C. Chiu*, G. Tucker*, C. Raffel, K. Swersky, N. Jaitly. “Learning Hard Alignments with Variational Inference”, presentado en ICASSP 2018.

[11] T.N. Sainath, R. Prabhavalkar, S. Kumar, S. Lee, A. Kannan, D. Rybach, V. Schogol, P. Nguyen, B. Li, Y. Wu, Z. Chen y C.C. Chiu, “No Need for a Lexicon? Evaluating the Value of the Pronunciation Lexica in End-to-End Models”, presentado en ICASSP 2018.

[12] A. Kannan, Y. Wu, P. Nguyen, T.N. Sainath, Z. Chen y R. Prabhavalkar. “An Analysis of Incorporating an External Language Model into a Sequence-to-Sequence Model”, presentado en ICASSP 2018.