Últimamente, hemos trabajado a toda velocidad en nuestros productos de voz de IA de Cloud. El mes pasado, presentamos Cloud Text-to-Speech, nuestra API de sintetización de voz con modelos WaveNet de DeepMind. Hoy anunciamos la revisión más grande de Cloud Speech-to-Text (antes conocida como Cloud Speech API) desde su introducción, hace dos años.

Primero presentamos la Cloud Speech API en 2016, que ya ha estado disponible de manera generalizada durante casi un año y cada seis meses experimenta duplicaciones en sus índices de uso. Hoy, con la inauguración de las conferencias NAB y SpeechTek, presentaremos nuevas características y actualizaciones que, a nuestro entender, convertirán a Speech-to-Text en una herramienta mucho más útil para empresas; entre otras, la transcripción de llamadas y video.

Cloud Speech-to-Text ahora incluye:

  1. Una selección de modelos previamente compilados para mejorar la precisión de la transcripción de llamadas y videos.
  2. Puntuación automática para mejorar la legibilidad de la transcripción de audio de formato largo.
  3. Un mecanismo nuevo (metadatos de reconocimiento) para etiquetar y agrupar tus cargas de trabajo de transcripción y proporcionar comentarios al equipo de Google.
  4. Un Acuerdo de nivel de servicio (ANS) estándar con un compromiso de disponibilidad del 99,9%.

Observemos con mayor detalle las nuevas actualizaciones de Cloud Speech-to-Text.

Nuevos modelos de transcripción de video y llamadas


Existen muchas maneras diferentes de usar la tecnología de reconocimiento de voz, desde la interacción entre el hombre y la computadora (p. ej., comandos por voz o IVR) hasta el análisis de voz (p. ej., datos analíticos de centros de atención telefónica). En esta versión de Cloud Speech-to-Text, agregamos modelos orientados a casos de uso específicos; p. ej., transcripciones de llamadas telefónicas y transcripciones de audio de video.
Por ejemplo, para procesar llamadas telefónicas, enrutamos las solicitudes de llamadas telefónicas entrantes en inglés de los EE. UU. a un modelo optimizado para administrar llamadas telefónicas, y muchos clientes consideran que es la mejor herramienta de su clase en el sector. Hoy ofrecemos a los clientes el poder de elegir explícitamente el modelo que prefieran en lugar de depender de la selección de modelo automática.

La mayoría de los principales proveedores de servicios en la nube usan datos de voz de solicitudes entrantes para mejorar sus productos. En Google Cloud, hemos evitado esta práctica. Sin embargo, los clientes solicitan con frecuencia que, para mejorar nuestros modelos, usemos datos reales que representen los suyos. Queremos cumplir con esta solicitud sin perder de vista la privacidad y el cumplimiento de nuestras políticas de protección de los datos. Por eso, hoy implementaremos uno de los primeros programas optativos de la industria para el registro de datos, y presentamos un primer modelo basado en estos datos: enhanced phone_call.

Desarrollamos el modelo enhanced phone_call usando datos de clientes que los compartieron de forma voluntaria con Cloud Speech-to-Text para mejorar el modelo. Los clientes que elijan participar en el programa en el futuro obtendrán acceso a este y otros modelos mejorados a partir de datos de los clientes. El modelo enhanced phone_call tiene un 54 % menos de errores que nuestro modelo basic phone_call para nuestro conjunto de pruebas de llamadas telefónicas.
Además, también presentaremos el modelo video, que se optimizó para procesar audio de videos o audio con varios altavoces. El modelo video usa tecnología de aprendizaje automático similar a la que usa el subtitulado de YouTube, y presenta un 64 % menos de errores en comparación con nuestro modelo predeterminado en un conjunto de pruebas de video.

Tanto el modelo enhanced phone_call como el modelo premium video ahora están disponibles para transcripción en inglés de EE. UU. y pronto esta disponibilidad se extenderá a otros idiomas. También continuamos ofreciendo nuestros modelos existentes para voz command_and_search y nuestro modelo default para transcripción de formato largo.
Mira la demostración en nuestro sitio web del producto para cargar un archivo de audio y ver los resultados de la transcripción de cada uno de estos modelos.

Genera texto legible con puntuación automática


La mayoría de nosotros sabemos usar puntuación básica (comas, puntos y signos de interrogación, entre otros elementos) cuando terminamos la escuela primaria. Pero transcribir voz con la puntuación correcta es difícil. En Google, supimos lo dificultoso que esto puede ser desde nuestros primeros intentos de transcribir mensajes de buzones de voz, de los cuales surgían oraciones continuas muy difíciles de leer.
Hace unos años, desde Google comenzamos a proporcionar puntuación automática con nuestro servicio de transcripción de buzón de voz de Google Voice. Recientemente, el equipo creó una nueva red neuronal LSTM para mejorar la puntuación automática en transcripciones de voz de formato largo. Diseñado con el rendimiento en mente, el modelo en versión beta ya está disponible en Cloud Speech-to-Text, y es capaz de sugerir automáticamente comas, signos de interrogación y puntos para tu texto.

Describe tus casos de uso con metadatos de reconocimiento


El avance que hemos logrado con Cloud Speech-to-Text se debe en gran parte a los comentarios recibidos durante los últimos dos años, y queremos expandir aún más las vías de comunicación con metadatos de reconocimiento. Ahora puedes describir tu audio o video transcripto con etiquetas como “comandos por voz para una app de compras” o “programas televisivos de baloncesto”. Luego, nosotros agregamos esa información entre los usuarios de Cloud Speech-to-Text para priorizar lo que haremos a continuación. Proporcionar metadatos de reconocimiento aumenta la probabilidad de que tu caso de uso mejore con el tiempo, pero el programa es totalmente opcional.

Referencias de clientes

Estamos muy entusiasmados con esta nueva versión de Cloud Speech-to-Text, pero no te fíes solo de lo que decimos nosotros; a continuación, se muestran opiniones de nuestros clientes.
“Los datos no estructurados, como el audio, están llenos de información importante, pero para muchas empresas resulta complicado encontrar aplicaciones que faciliten la extracción de valor de ese formato y su administración. Descript facilita la edición y visualización de archivos de video, como en el caso de un documento. Elegimos potenciar nuestra aplicación con Google Cloud Speech-to-Text. De acuerdo con nuestras pruebas, es la tecnología de reconocimiento de voz más avanzada, y el nuevo modelo video tiene menos de la mitad de los errores en comparación con cualquier otro modelo que hayamos considerado. A su vez, gracias a su modelo de precios simple, podemos ofrecer los mejores precios a nuestros usuarios”.  
Andrew Mason, director ejecutivo, Descript
“GoToMeeting de LogMeIn proporciona software colaborativo a millones de usuarios de todo el mundo. Apuntamos siempre a la mejor experiencia del cliente, y después de evaluar varias soluciones para permitir que nuestros usuarios transcriban reuniones, descubrimos que el nuevo modelo video de Cloud Speech-to-Text de Google es mucho más preciso que cualquier otra solución analizada. Nos entusiasma la posibilidad de extender la colaboración con Google más allá de la reunión y trabajar juntos a fin de generar valor para nuestros clientes con la adición de transcripción de grabaciones de GoToMeeting”. 
 – Matt Kaplan, gerente general de Producto, Productos colaborativos de LogMeIn
“En InteractiveTel, hemos utilizado Cloud Speech-to-Text desde el comienzo para optimizar nuestros productos de transcripción y análisis de llamadas telefónicas en tiempo real. La capacidad que Google tiene de aportar mejoras rápidas a las características y al rendimiento nos maravilla constantemente, pero nos impactan los resultados que obtuvimos con el nuevo modelo phone_call. El simple cambio al nuevo modelo phone_call supuso para nosotros mejoras superiores al 64 % en términos de precisión en comparación con otros proveedores, y del 48% en comparación con el modelo genérico de banda angosta de Google”.  
 Jon Findley, ingeniero principal de Producto, InteractiveTel
El acceso a tecnología de transcripción de voz de alta calidad abre un mundo de posibilidades para las compañías que desean conectarse con sus usuarios y aprender de ellos. Con esta actualización de Cloud Speech-to-Text, puedes acceder a las últimas investigaciones de nuestro equipo de expertos en aprendizaje automático, todo a través de una simple REST API. El precio es de USD 0,006 por 15 segundos de audio para todos los modelos, a excepción del modelo video, que cuesta $0.012 por 15 segundos. Ofreceremos el nuevo modelo video por el mismo precio (USD 0,006 por 15 segundos) durante un período de prueba limitado hasta el 31 de mayo. Para obtener más información, prueba nuestra demostración en la página del producto o visita nuestra documentación.