Cuando la Inteligencia Artificial dio sus primeros pasos, la ingenuidad sobre la dificultad de algunos temas era increíble. Por ejemplo, una de las primeras tareas que los científicos quisieron encarar fue la traducción automática. Se pensaba que básicamente la traducción de un idioma a otro era la de convertir cada palabra de un texto en un idioma en su equivalente a otro idioma, como si se tratara de hacer búsquedas en un diccionario. Los resultados iniciales fueron penosos y lo que se aprendió es que los problemas de la IA no sólo son difíciles, sino mucho más difíciles de lo que se había pensado.
Desde esas primeras experiencias en la traducción de idiomas de forma automatizada han pasado más de 50 años y aunque se han hecho avances importantes, aún se está lejos de tener traductores fiables. La medida del éxito está definida cuando se compara la traducción hecha por una computadora contra la traducción hecha por un experto humano.
El trabajo que actualmente se hace en Google Brain está empezando a hacerse notar pues parecen verse nuevos avances significativos. «La última aproximación de Google en lo que se refiere a la traducción automática hace que las personas puedan comunicarse más fácilmente con aquellos que hablan otro idioma, traduciendo el habla directamente a texto en un idioma que puedan entender», indica la editorial de la revista New Scientist.
La traducción automatizada de la voz normalmente implica primero convertir esto a texto y entonces traducir ese texto en otro idioma. Cualquier error en el reconocimiento del habla llevará forzosamente a un error en la transcripción y a otro error más en la traducción. Por ello, el enfoque de Google es ahora brincarse la transcripción y mediante este enfoque poder hacer traducciones más precisas y rápidas.
Los investigadores de Google han escrito ahora un artículo técnico llamado «Sequence-to-Sequence Models Can Directly Transcribe Foreign Speech», cuyos autores son Ron Weiss, Jan Chorowski, Navdeep Jaitly, Yonghui Wu y Zhifeng Chen. Describen su enfoque usando una red neuronal profunda para codificar y decodificar que traduce la voz directamente a texto en otro idioma.
«Presentamos un modelo que traduce directamente el habla en texto en otro idioma. Una de sus características es que la arquitectura es la misma que se usa en los sistemas neuronales ASR», indican los investigadores. ASR significa «automatic speech recognition» (reconocimiento automático del habla).
En esencia, lo que hicieron los autores fue entrenar al sistema con cientos de horas de audio en español con su correspondiente texto en inglés. En cada caso se usaron muchas capas de redes neuronales, que en el fondo buscan aproximarse a cómo es que el cerebro trabaja con las neuronas, para así hacer coincidir secciones del habla en español con la traducción escrita.
Los investigadores dicen que analizaron la forma de la onda del audio en español para aprender qué partes parecen corresponder con los bloques del inglés escrito. «Cuando el sistema y traduce, cada capa de la red neuronal usa este conocimiento para manipular la forma de la onda de audio hasta que se llega a la sección correspondiente del inglés escrito», indica el equipo de Google.
Los resultados parecen halagadores y el equipo reporta «el estado del arte en el desempeño» de español conversacional a traducción escrita en inglés. El modelo podría desempeñarse mejor que todas las tecnologías anteriores que hacen reconocimiento del habla y traducción automática.
Pero se necesitan más que opiniones. El equipo usó la puntuación BLEU, que juzga la traducción automática basándose en qué tan cerca está de la traducción humana hecha por profesionales. La puntuación de BLEU fue 1.8 puntos por encima de otros modelos de traducción.
Es probable que este nuevo enfoque comience a ser más usado por otros investigadores y la traducción de múltiples idiomas sea relativamente pronto, una realidad.
Referencias: Tech Explore