La síntesis de voz ¿fracaso comercial?

Por años el cómputo nos ha traído todo tipo de gadgets y dispositivos para hacernos la vida más fácil. Eso aunado a el desarrollo de software, pareciera que nos hace transitar de un mundo complejo, lleno de comandos, a la interfaz gráfica, que llegó para quedarse. Con dicha interfaz, salió naturalmente el ratón, como el dispositivo fundamental. Después salieron trackballs, plumas, y todo tipo de aparatejos que hacían la misma labor que el roedor, pero con menos cansancio, dificultades, etcétera.

Y en ese mismo asunto, el cómputo quiso dotar a la computadora de voz. La idea es formidable porque permite hacer que la computadora lea libros a viva voz, sin mediar más que un documento a leer. Imaginen las posibilidades de hacer esto. De hecho, de las primeras voces mecánicas, robotizadas, ya con los años se han logrado voces de hombre, de mujer, de niño, e incluso con tono para hacer preguntas, etcétera. Sin embargo, pareciera que no tuvo el suficiente éxito. Entonces los investigadores pensaron que lo que estaba faltando era el reconocer la voz de quien le dictaba órdenes. Y con el tiempo lograron echar a andar sistemas de dictado que usaban Word, por ejemplo, y que no había que usar el teclado. Cabe decir que estos sistemas requerían ser entrenados por quien iba a hacer el dictado, y para ello, había que leerle un cuento al programa (Pinocho si mal no recuerdo). Esto no actuaba en favor del software, pero era una molestia menor. Pero de nuevo, no se impuso esta manera de hacer las cosas.

La realidad es que la interfaz de voz, síntesis y reconocimiento merecería más suerte. Cuando salió Siri en el iPhone, una amiga me lo quiso mostrar funcionando y resultó un fiasco. Pero quiero creer que ahora Siri ya hace mucho mejor las cosas, y tan es así, que otros fabricantes de software están incorporando esta función de voz a sus dispositivos móviles, por ejemplo Android y Windows Phone 8. Y lo mismo parece ser un requisito necesario para Google Glass, pero como ya escribimos aquí mismo, el poseedor del posmoderno dispositivo se cansa de decirle “Glass…” a cada rato. Igualmente, el reconocimiento de la voz es pobre aún.

Pero el reconocimiento y síntesis de voz está disposible en Windows 7. Si se entra a este sitio de Microsoft, se hallará que se necesitan tres pasos para poderle ordenar vía voz a la computadora: 1. poner a trabajar el micrófono; 2. Enseñarnos a nosotros mismos cómo hablarle a la computadora y 3. Entrenar a la computadora a que reconozca su voz. No es un asunto difícil de hacer pero vean su alrededor, ¿cuántas personas le hablan a su computadora? ¿Cuántas han minimizado el uso del teclado? Pocas o ninguna.

Mi impresión es que esta tecnología no se usa por una razón curiosa: a la gente no le gusta hablarle a las máquinas porque parece de estúpidos. Imaginen que alguien le habla a la pared, ¿qué pensarían de esa persona? Porque de verdad, la tecnología ahí está, sólo hay que acostumbrarse a usarla. O quizás nunca nos obligaron a usar esta interfaz por voz y la fuerza de la costumbre ha impedido que se convierta en algo común. ¿Cuál será la verdad de este fracaso?