Hay tecnologías que están entre nosotros desde hace mucho tiempo pero que por alguna razón no terminan de «cuajar», y esto probablemente se aplique a la tecnología del habla, del reconocimiento de voz, que por algún motivo sí, las tenemos ahora en los asistentes del teléfono (lo cual no creo que sea extremadamente exitoso), pero que no se han convertido en tecnologías que usemos con frecuencia o que nos sean cotidianas. No encuentro una razón para que las cosas sean así, pero lo son.
Sin embargo, eso no quiere decir que no se hagan esfuerzos precisamente para que los desarrolladores busquen nuevos nichos de mercado para las tecnologías del habla y ahora Microsoft ha decidido liberar una nueva versión de su Translator API, el cual puede dar a los desarrolladores las mismas facilidades que se tienen en el Skype Translator y en las apps de iOS y Android de «Microsoft Translator».
El anuncio en el blog de la empresa indica que se trata de la primera solución completa optimizada para las conversaciones de la vida real (contrarias a los comandos simples que se pueden dar vía voz a la máquina), disponible en el mercado. Explica también cómo trabaja usando tecnologías como redes neuronales profundas para el reconocimiento del habla y traducción de textos, y bosqueja las cuatro etapas de la traducción del habla:
- Reconocimiento automático del habla (ASR – Automatic Speech Recognition) – Una red neuronal profunda entrenada por miles de horas de análisis de audio con voz como entrada. Este modelo se entrena sobre las interacciones humano-a-humano en lugar de humano-a-máquina (comandos de voz), produciendo reconocimiento de voz que se optimiza para las conversaciones normales.
- Texto Verdadero – TrueText – Una innovación de Microsoft Research. TrueText toma el texto literal y lo transforma en algo más cercano a lo que el usuario intenta reflejar. Esto se logra quitando las «disfluencias» del habla como los «um»s y «ah»s, así como las repeticiones. El texto se hace entonces más legible y traducible añadiendo pausas en las frases, una puntuación apropiada y poniendo mayúsculas donde deben ir.
- Traducción – El texto se traduce en cualquiera de los más de 50 lenguajes que soporta Microsoft Translator. Hay ocho lenguajes hablados que se han incluso optimizado para conversaciones entrenándolo con un millón de palabras de datos conversacionales, usando los modelos de las redes neuronales profundas de los lenguajes.
- Texto a Voz (text to Speech) – si el lenguaje al que se quiere traducir es uno de los 18 lenguajes soportados, el texto se convierte en la salida de voz usando síntesis de voz. Esta etapa se omite en los escenarios de voz-a-texto como por ejemplo, en el subtitulaje de videos.
Microsoft Translator cubre dos tipos de API:
- Traducción voz-a-voz, la cual está disponible para inglés, francés, alemán, italiano, portugués, español, mandarín chino y árabe.
- Traducción Voz-a-texto, para escenarios como webcasts o análisis BI, que permite a los desarrolladores traducir cualquier de los ocho lenguajes soportados para conversaciones hacia alguno de los más de 50 lenguajes en modo texto.
Hay una prueba gratuita de dos horas. Da unas 7,200 transacciones, donde cada transacción es equivalente a 1 segundo de entrada de audio. Para quien necesite más, puede optar por alguna de las suscripciones de pago.
Referencias:
Microsoft Translator Speech Translation API on Azure Marketplace
i-programmer