Muchos productos Google (p. ej., Asistente de Google, Búsqueda y Maps) tienen una síntesis de texto a voz integrada de alta calidad que produce el sonido de una voz natural. Los desarrolladores nos han indicado varias veces que les gustaría poder agregar una función de texto a voz en sus aplicaciones, y hoy incorporamos esta tecnología a Google Cloud Platform con Cloud Text-to-Speech.

Puedes usar Cloud Text-to-Speech de varias formas. Por ejemplo:
  • Para potenciar sistemas de respuesta por voz para centros de atención telefónica (IVR) y mejorar las conversaciones en lenguaje natural en tiempo real. 
  • Para permitir respuestas de dispositivos IoT (p. ej., TV, vehículos y robots). 
  •  Para convertir medios basados en texto (p. ej., artículos informativos y libros) al formato oral (p. ej., podcasts o audiolibros).
Cloud Text-to-Speech te permite elegir 32 voces diferentes en 12 idiomas y dialectos. Cloud Text-to-Speech pronuncia correctamente texto complejo, como nombres, fechas, horas y direcciones de inmediato con sonido de voz auténtica. Cloud Text-to-Speech te permite personalizar el tono, la velocidad de articulación y el volumen, y admite diferentes formatos de audio, como MP3 y WAV.

DeepMind entra en escena


Además, nos complace anunciar que Cloud Text-to-Speech también incluye una selección de voces de alta fidelidad compiladas usando WaveNet, un modelo generativo para audio sin formato creado por DeepMind. WaveNet sintetiza un sonido de voz más natural y, en general, produce un sonido de voz que las personas prefieren antes que otras tecnologías de texto a voz.

A fines de 2016, DeepMind presentó la primera versión de WaveNet, una red neuronal preparada con una gran cantidad de muestras de voz que puede crear formas de onda de audio sin formato desde cero. Durante la preparación, la red extrae la estructura de la voz subyacente; por ejemplo, los tonos que se suceden y la forma de onda que debe tener una onda de voz real. Cuando se le proporciona texto, el modelo preparado de WaveNet genera las formas de onda de voz correspondientes, de a una muestra por vez; de esta manera, logra mayor precisión que los enfoques alternativos.

Avanzando rápidamente hasta la actualidad, hoy usamos una versión actualizada de WaveNet que se ejecuta en infraestructura de Cloud TPU de Google. El modelo mejorado de WaveNet genera ondas sin formato 1000 veces más rápido que el modelo original y puede generar un segundo de voz en solo 50 milisegundos. De hecho, el modelo no solo es más rápido, sino también ofrece mayor fidelidad y es capaz de crear formas de onda con 24 000 muestras por segundo. También aumentamos la resolución de cada muestra de 8 bits a 16 bits, lo que produce un audio de mayor calidad y resonancia más humana.
Con estos ajustes, el nuevo modelo de WaveNet produce un sonido de voz más natural. En las pruebas, las personas dieron a las nuevas voces de WaveNet en inglés estadounidense una nota media de opinión (MOS) de 4,1 en una escala de 1 a 5; la mejoría respecto de las voces estándares superó el 20% y se redujo la diferencia con la voz humana en más de un 70%. Teniendo en cuenta que las voces de WaveNet también requieren menos grabaciones de audio para producir modelos de alta calidad, esperamos continuar mejorando la variedad y la calidad de las voces de WaveNet disponibles para los clientes de Cloud en los próximos meses.
Cloud Text-to-Speech ya está ayudando a muchos clientes a proporcionar una mejor experiencia a sus usuarios finales. Entre estos clientes, se incluyen Cisco y Dolphin ONE.
“Como proveedor líder de soluciones de colaboración, Cisco tiene una larga trayectoria de incorporación de los últimos avances tecnológicos a la empresa. Cloud Text-to-Speech de Google nos ha permitido lograr la calidad de sonido natural que desean nuestros clientes”.  
 Tim Tuttle, CTO de Colaboración cognitiva, Cisco
“La plataforma de telefonía Calll.io de Dolphin ONE ofrece conectividad desde una gran variedad de dispositivos, prácticamente en cualquier lugar. Integramos Cloud Text-to-Speech a nuestros productos y permitimos que nuestros usuarios creen experiencias de atención telefónica naturales. Con las herramientas de aprendizaje automático de Google Cloud proporcionamos, al instante, tecnología de punta a nuestros usuarios”. 
Jason Berryman, Dolphin ONE

Comienza hoy


Con Cloud Text-to-Speech, solo deberás hacer unos clics para acceder a una de las tecnologías de voz más avanzadas del mundo. Para obtener más información, consulta la documentación o nuestra página de precios. Para dar los primeros pasos con nuestro beta público o probar las voces nuevas, visita el sitio web de Cloud Text-to-Speech.