Local blog for Spanish speaking developers in LATAM
Mejoramiento de los modelos integrales para el reconocimiento de voz
viernes, 23 de febrero de 2018
Publicado por Tara N. Sainath, científica investigadora, equipo de voz, y Yonghui Wu, ingeniero de software, equipo de ideas de Google
Los sistemas de reconocimiento de voz automáticos (ASR) tradicionales, que se usan para diferentes aplicaciones de búsqueda por voz en Google, constan de un modelo acústico (AM), un modelo de pronunciación (PM) y un modelo de idioma (LM), que se preparan individualmente y, por lo general, se diseñan manualmente, en diferentes conjuntos de datos [1]. Los AM toman funciones acústicas y predicen un conjunto de unidades de subpalabras; normalmente, fonemas dependientes e independientes del contexto. Luego, un léxico diseñado manualmente (el PM) asigna una secuencia de
fonemas
, producida por el modelo acústico, a palabras. Por último, el LM asigna probabilidades a secuencias de palabras. La preparación de componentes independientes crea otras complejidades y no es óptimo cuando se compara con la preparación de todos los componentes de forma conjunta. Durante los últimos años, se ha vuelto cada vez más popular el desarrollo de sistemas integrales, cuyo propósito es aprender esos componentes independientes de forma conjunta como un solo sistema. Si bien esos modelos integrales han mostrado resultados prometedores en la literatura [2, 3], aún no está claro si esos enfoques pueden mejorar en los sistemas convencionales de vanguardia actuales.
Hoy compartimos con entusiasmo “
Reconocimiento de voz innovador con modelos secuenciales
[4]”, que describe un nuevo modelo integral que supera el rendimiento de un sistema de producción convencional [1]. Mostramos que nuestro sistema integral alcanza un
índice de error de palabras
(WER) del 5,6%, que corresponde a una mejora relativa del 16% en comparación con un sistema convencional sólido, que alcanza un WER del 6,7%. Además, el modelo integral usado para generar la hipótesis de palabras inicial, antes de realizar una nueva puntuación de cualquier hipótesis, es 18 veces más pequeño que el modelo convencional, ya que no contiene LM ni PM independientes.
Nuestro sistema se basa en la arquitectura integral escuchar-asistir-deletrear (LAS), que se presentó por primera vez en [2]. La arquitectura LAS consta de 3 componentes. El componente codificador de
escucha
, similar a un AM estándar, toma una representación de frecuencia de tiempo de la señal de voz de entrada,
x
, y usa un conjunto de capas de red neurales para asignar los datos de entrada a una representación de función de nivel superior,
h
enc
. Los datos de salida del codificador se pasan a un
mecanismo de atención
, que usa
h
enc
para determinar una alineación entre las funciones de entrada
x
y las unidades de subpalabra previstas {y
n
, … y
0
}, donde cada subpalabra generalmente es un
grafema
o una
parte de una palabra
. Por último, el resultado del módulo de atención se pasa al
deletreador
(es decir, el decodificador), similar a un LM, que produce una distribución de probabilidad entre un conjunto de palabras supuestas.
Componentes del modelo integral LAS.
Todos los componentes del modelo LAS se preparan de forma conjunta como una sola red neural integral, no como módulos independientes propios de los sistemas convencionales, lo cual hace mucho más simple el proceso.
Además, debido a que el modelo LAS es completamente neural, no se requieren componentes externos diseñados manualmente, como transductores de estado limitados, un léxico o módulos de normalización de texto. Por último, a diferencia de lo que sucede con los modelos convencionales, para la preparación de modelos integrales no se necesitan arranques desde árboles de decisión ni alineaciones de tiempo generadas por un sistema independiente; esta se puede lograr a partir de pares de transcripciones de texto y de la acústica correspondiente.
En [4], presentamos diferentes mejoras estructurales nuevas, que incluyen la optimización de los vectores de atención que se pasan al decodificador y la preparación con unidades de subpalabras más extensas (es decir, partes de palabras). A su vez, también presentamos varias mejoras de optimización para la preparación, entre las que se incluyen el uso de preparación con un índice de error de palabras mínimo [5]. Estas mejoras estructurales y de optimización son las que permiten alcanzar la mejora relativa del 16% en comparación con el modelo convencional.
Otro campo de aplicación potencial que genera entusiasmo para esta investigación es el de los sistemas multidialecto y multilingüe, en el cual la facilidad de optimización de una red neural individual hace que el modelo sea muy atractivo. Aquí, los datos para todos los dialectos e idiomas se pueden combinar para preparar una red sin la necesidad de un AM, PM y LM independientes para cada dialecto o idioma. Estos modelos funcionan bien en 7 dialectos del inglés [6] y 9 idiomas de la India [7], y su rendimiento supera al de un modelo preparado de forma independiente para cada idioma o dialecto por separado.
Si bien estamos entusiasmados con los resultados, nuestro trabajo no ha terminado. Actualmente, estos modelos no pueden procesar voz en tiempo real [8, 9 y 10], que es un requisito importante para las aplicaciones sensibles a la latencia, como la búsqueda por voz. Además, la comparación de estos modelos con la producción aún es negativa cuando se evalúan en los datos de producción en tiempo real. Además, nuestro modelo integral incorpora 22 millones de enunciados en pares de audio-texto en comparación con un sistema convencional, que generalmente se prepara con elementos mucho más extensos. A esto se suma que nuestro modelo propuesto no puede aprender a deletrear de forma correcta palabras de uso poco frecuente, como nombres propios, algo que generalmente se logra con un PM diseñado manualmente. Nuestros esfuerzos continuos se centran en la manera de abordar esos desafíos.
Agradecimientos
Este trabajo se realizó en un gran esfuerzo colaborativo entre los equipos de ideas y voz de Google. Entre los colaboradores se incluyen Tara Sainath, Rohit Prabhavalkar, Bo Li, Kanishka Rao, Shankar Kumar, Shubham Toshniwal, Michiel Bacchiani y Johan Schalkwyk, del equipo de voz, y Yonghui Wu, Patrick Nguyen, Zhifeng Chen, Chung-cheng Chiu, Anjuli Kannan, Ron Weiss, Navdeep Jaitly, William Chan, Yu Zhang y Jan Chorowski, del equipo de ideas de Google. El trabajo se describe de forma más detallada en los documentos [4-12].
Referencias
[1] G. Pundak and T. N. Sainath, “
Lower Frame Rate Neural Network Acoustic Models
," in Proc. Interspeech, 2016.
[2] W. Chan, N. Jaitly, Q. V. Le y O. Vinyals, “
Listen, attend and spell
”, CoRR, vol. abs/1508.01211, 2015
[3] R. Prabhavalkar, K. Rao, T. N. Sainath, B. Li, L. Johnson y N. Jaitly, “
A Comparison of Sequence-to-sequence Models for Speech Recognition
”, en Proc. Interspeech, 2017.
[4] C.C. Chiu, T.N. Sainath, Y. Wu, R. Prabhavalkar, P. Nguyen, Z. Chen, A. Kannan, R.J. Weiss, K. Rao, K. Gonina, N. Jaitly, B. Li, J. Chorowski y M. Bacchiani, “
State-of-the-art Speech Recognition With Sequence-to-Sequence Models
”, presentado en ICASSP 2018.
[5] R. Prabhavalkar, T.N. Sainath, Y. Wu, P. Nguyen, Z. Chen, C.C. Chiu y A. Kannan, “
Minimum Word Error Rate Training for Attention-based Sequence-to-Sequence Models
”, presentado en ICASSP 2018.
[6] B. Li, T.N. Sainath, K. Sim, M. Bacchiani, E. Weinstein, P. Nguyen, Z. Chen, Y. Wu y K. Rao, “
Multi-Dialect Speech Recognition With a Single Sequence-to-Sequence Model
”, presentado en ICASSP 2018.
[7] S. Toshniwal, T.N. Sainath, R.J. Weiss, B. Li, P. Moreno, E. Weinstein y K. Rao, “
End-to-End Multilingual Speech Recognition using Encoder-Decoder Models
”, presentado en ICASSP 2018.
[8] T.N. Sainath, C.C. Chiu, R. Prabhavalkar, A. Kannan, Y. Wu, P. Nguyen y Z. Chen, “
Improving the Performance of Online Neural Transducer Models
”, presentado en ICASSP 2018.
[9] C.C. Chiu* y C. Raffel*, “
Monotonic Chunkwise Attention
”, presentado en ICLR 2018.
[10] D. Lawson*, C.C. Chiu*, G. Tucker*, C. Raffel, K. Swersky, N. Jaitly. “
Learning Hard Alignments with Variational Inference
”, presentado en ICASSP 2018.
[11] T.N. Sainath, R. Prabhavalkar, S. Kumar, S. Lee, A. Kannan, D. Rybach, V. Schogol, P. Nguyen, B. Li, Y. Wu, Z. Chen y C.C. Chiu, “
No Need for a Lexicon? Evaluating the Value of the Pronunciation Lexica in End-to-End Models
”, presentado en ICASSP 2018.
[12] A. Kannan, Y. Wu, P. Nguyen, T.N. Sainath, Z. Chen y R. Prabhavalkar. “
An Analysis of Incorporating an External Language Model into a Sequence-to-Sequence Model
”, presentado en ICASSP 2018.
Labels
.app
.dev
.txt
#AMP
#CPU
#DeveloperStudentClubs
#DevFest
#DragonBall
#DSC
#Forsety
#ForsetySecurity
#freeandopen
#GCP
#Google
#GoogleCloud
#GoogleCloudPlatform
#GoogleLaunchpad
#iio2009
#Kubernetes
#MaterialDesign
#OneCommunity
#Security
#TensorFlow
#UPGlobal
#UpLatam
#WithGoogle
+page
10 YEARS
2013
2019
64 bits
A/B Testing
AA
Accelerator
Action on Goolge
actionbar
Actions
Actions Console
AdMob
Ads
adwords
adwords api
AI
AIY
ajax
alarmmanager
ALFA
almacenamiento
alojamiento de proyectos en google code
AMP
AMP Conf
AMP Project
amp-date-picker
amphtml
Analytics
Andorid
android
Android (operating System)
Android 3.1
android 3.3
android 4.2
android 9
Android 9 Pie
Android App Bundle
android design
Android Dev Summit
Android Developers
android Jetpack
Android P
Android SDK
Android Studio
Android Things
Android Wear
AndroidDevStory
androititlan
angelina jolie
Annotation
Announcements
anuncios
API
API Analytics YouTube
Apigee
APIs
Aplicaciones
aplicaciones chrome
app
app engine
App Indexing
app invites
App Server
applications
AppQuality
apps
Apps Script
AR
ARCore
arte
ATLAS
AWP
backend
Base64
batch
Bava
Betatesting
Better Ads Standars
bigdata
BigQuery
Biometrics
blink
bootcamp
BOT
BQ
Business
búsqueda ajax
by Google
byCases
byCommunity
byDevelopers
byGoogle
C++
CALENDAR
Cardboard
case
caso de éxito
Casos de éxito
casos destacados
CCOSS
Century Fox
chat
chrome
chrome web store
chromebook
chromecast
chromium
Cinéfilos
cloud
Cloud Anchors
CLOUD endpoints
Cloud Firestore
Cloud Functions
Cloud IoT Core
Cloud Next
Cloud Scheduler
Cloud services
cloud test lab
Cloud Text-to-Speech
Cloud Translation
CMD en vivo
coconut
code
code-in
code.org
CodeLabs
código
código abierto
Colab
colombia
Communities
Comunidades
concurso google
conference
contenedores
convocatoria
Coordinate
crashlytics
CRE
crear aplicaciones ajax
creatividad
Crowdsource
CSS
cws
daniela robles
dart
dart sdk
dartium
dartlang
Dataset
DCL
denis labelle
desarrolladores
Desarrolladores Google
desarrolladores LatAm
Desarrollar
Design
Design Sprint
Destacados
dev
Dev.f
DevArt
DevBus
DevBusLatAm
Developer Bus
Developer Summit
DeveloperConsole
developers
DevFest
devoxx
dialogflow
diseño UX
Distribuir
DNS
DOM
domain
DonkeyCar
doubleclick
Drive SDK
Drivers
ecommerce
ecosistema
elections
elizalde
Emoticons
emprendedores
empresas
engagement
english
Enhanced Campaigns
enterprise
eventos
Events
evolución de aplicaciones
Excel
ExpertosDicen
Faas
Family
FanBridge
FCM
FCP
Featured
fido
find people
Fintech
firebase
Firebase Cloud Messaging
firebase summit
flu trends
Flutter
Flutter 1.0
flutter 1.7
flutter developers
Flutter Live
FlutterLive
FoundersLab
Freebase
Fuction
Fuctions
Full-Stack
functional programming
G Suite Dev Show
G+
g+ goto gal
G+GotoGal
GAE
game
games
GCloud
gcm
GCP
GCS
GDA
GDE
GDG
GDH
GDL
GDLevent
GDS
Get Inspired
get.app
GitHub
GLP
gmail
golang
GOMO
Google
Google Accelerator
Google AdMob SDK
Google AdWords
Google Analytics
Google APIS
Google App Engine
Google Apps
Google Apps Script
Google Art Project
Google Assistant
google calendar
google cast
Google Charts
Google Chrome
Google Cloud
Google Cloud Console
Google Cloud Messaging
Google Cloud Next
Google Cloud Platform
Google Cloud Platform Newsletter
google cloud platforn
Google Cloud Storage
google code-in
Google Compute Engine
Google Dataset
Google Developer Groups
google developers
Google Developers Academy
google developers expert
Google Developers Hackademy
google dns
Google Drawings
Google Drive
Google Earth
Google for games
Google Forms
google geo
Google Home
google i/o
google i/o extended
google io
Google Keep
Google Kubernetes Engine
Google Launchapad
Google Launchpad
Google Maps
google maps coordinate
Google Maps Platform
Google Mexico
Google Nose
google now
Google Person Finder
google places api
Google Play
Google Play Books
Google Play Developer API
google play games
Google Play Movies
Google Play Protect
Google Play Services
Google Plus
Google Science Fair
google search
Google Sheets
google sign in
Google Top Geek
Google+
Google+ Communities
Google+ Hangouts
google+ sign-in
GoogleAPI
googlecloud storage
GoogleCloudPlatform
googledevs
GooglePlay
Googleplex
Goolge Lunchpad
GTG
Hackademy
hackers
Haiko
Haití
hangouts
Hangouts Remote Desktop
hardcode
Heello
honeycomb
HTML
HTML5
HTTPS
I/O
IA
IAM
IETF
IFAI
in app purchases
in-app
ingles
Ingress
instagram
integración de soluciones
interactive post
Interesante
International
International Women’s Day
IO
io15
io18
io19
iOS
IoT
istio
IU
IVR
J2EE
java
JavaScript
jelly bean
JS
JSON
Juegos
juegos html5
Kit ML
Knative
kotlin
kUBERNATES
Kubernetes
LATAM
latamRegionSur
Launchpad
Launchpad Studio
Lenovo Mirage Solo
lightbox
linux
lucero galindo
machine learning
Made with Code
Mapdata
Mapeo
maps
Maps Ad Unit
Maps API
Maps Engine
Market
Marketing
Marshmallow
MATERIAL DESIG
Material Design
mejores apps 2013
México
michelle marie
MIT
MIT Global Start-up Labs
MIT-AITI
ML
ML Kit
mobile
monetizar
mongoDB
MOOC
Motorola
Mountain View
móvil
MQTT
mr.white
mTLS
natalie villalobos
Navigation
NBA JAM
NES
Next Big Sound
Next Level
nfc
Niantic
Nik
NINTENDO
node.js
NoSQL
nube
OAuth2
Objective-C
OClock
open source
OPenApi
OS
OSS
Paas
PageSpeed
PagesSpeed
parallel18
patrones
patters
performance
permisos
Pipeline API
Pixability
pixel
Píxel
play
Play Console
Playtime
Podcast
pollito pio
Polymer
por lote
Posse
Prediction API
primer
Producto
programación
Propositos
Protocol Buffers
proyecto 20%
Push API
PYMES
python
Q
Q4
quickoffice
Rasberry Pi Zero WH
Raspberry Pi
Realtime
Reflectly
register
Release
Resources
robots.txt
Safe
SDK
Search
Security
seedbank
seguridad
SEO
servidores
Showyou
sign-in
SNES
SO
social media
Spain
SpLATAM
SQL
SQLite
Start
startup grind
Startup Launch
startup weekend
startup weekend for the planet
startupbus
startups
StayAtHome
story
Street View
subtitles
success
sw
SyScan
tablet
Tablet Optimization Tips
tabletas
takeaction
Tango
tendencias 2013
TensorFlow Developer Summit
testing
TextView
TF JAM
The Garage
The Venture City
tips G+
tips gmail
TLD
TLS
Top Experts
Top Geek
top level domain
TopExpert
topics
traducciones
Transparency Report
triggers
Tubular Labs
twilio
Tyka
TypeScript
UAC
udacity
ui
Umbrales
UNAM
unity
Unity3D
universal search
UX
Vector
VectorDrawable
video juegos
vidIQ
ViewPager
Visual Progress
Voicekit
VPC
VR
VSCode
web
Web hosting
Web móvil
WebAssembly
with google
Wizdeo
WizTracker
Women at Google
Women Techmakers
workmanager
WTM
XKCD
XML
Yifat Cohen
youtube
YouTube Analytics API
YouTube API
YouTube Data API
YouTube One Channel
YouTube Player API
Archive
2024
sept
2023
nov
oct
sept
ago
jun
may
abr
mar
ene
2022
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2021
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
2020
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2019
dic
nov
oct
sept
ago
jun
may
abr
mar
feb
ene
2018
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
2017
nov
sept
ago
jul
jun
may
abr
ene
2016
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2015
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2014
dic
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2013
dic
nov
oct
ago
jul
jun
may
abr
mar
feb
ene
2012
dic
nov
oct
sept
ago
jul
2011
nov
oct
may
mar
2010
dic
nov
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2009
dic
nov
sept
ago
jul
jun
may
abr
mar
feb
ene
2008
oct
sept
ago
jul
jun
may
abr
mar
feb
ene
2007
dic
Feed
Desarrolladores
Eventos y Comunidad
Casos Destacados
Dicen los Expertos
Google Accelerator