Una especificación para un API Web de voz ha sido publicada recientemente con un llamado para tener una especificación final por parte del grupo W3C Speech API Community Group. La especificación es para el API de Javascript que será capaz de darle a los desarrolladores web la posibilidad de incorporar páginas web con tecnología texto a voz (text to speech) y que pueda usar reconocimiento de voz como para introducir datos, hacer dictado contínuo y controlar computadoras.

El llamado HTML Speech Incubator Group se formó originalmente en agosto del 2010 con miembros de Microsoft, Google, Voxeo, AT&T, Mozilla y OpenReach. Hubo propuestas para la especificación del API por parte de Google y Microsoft. Se produjo entonces un reporte final en diciembre del 2011, en donde está la propuesta para el API de Javascript y sus límites dentro de HTML.

El siguiente diagrama reporta el lineamiento general que tendría el API para voz en cuanto se logren los consensos adecuados.

Dos semanas después de este reporte, Google salió con la propuesta del API de voz para Javascript que soporta 15 de los 17 casos definidos en el reporte final del HTML Speech Incubator Group, los cuales son:

  • Búsqueda por voz
  • Interface de comandos por voz
  • Gramáticas contingentes de dominio específico
  • Reconocimiento contínuo de díalogos abiertos
  • Gramáticas específicas en dominios
  • Interfaces de voz presentes cuando no se necesita una interfaz gráfica
  • Detección de actividad de voz
  • Hello world
  • Traducción de voz
  • Cliente de correo por voz
  • Sistemas de diálogo
  • Direcciones para manejo de autos por voz
  • Interacciones multimodales
  • Videojuegos multimodales

Los dos campos omitidos buscan mantener el API en su mínima expersión

  • Re-reconocimiento
  • Estructura temporal de la síntesis para dar retroalimentación visual

El grupo comunitario Speech API se formó en abril del 2012 para seguir trabajando en esta especificación. Está encabezado por Glen Shires de Google, uno de los editores del borrador del API de voz, y tiene otros cinco miembros más los representantes del consorcio W3C, Mozilla, OpenReach entre otros. La especificación del API de voz ha sido editado por Glen Shires y Hans Wennborg, de Google.

Por el momento la especificiación API no tiene el status de un estándar W3C. Igualmente, Chrome es el único navegador con API de voz y se espera que otros sigan este ejemplo para unificar esta tecnología, que hoy por hoy es absolutamente un desastre por no haber una guía ni un estándar.

Referencias:

Web Speech API Specification

Speech API Community Group

Speech JavaScript API Specification

HTML Speech Incubator Group Final Report