En 1886, el arquéologo británico, Arthur Evans, halló una antigua piedra con una curiosa inscripción en un idioma desconocido.
La piedra venía de la isla de Creta y Evans entonces viajó para buscar más evidencia. Rápidamente halló muchas piedras y tablas de roca con inscripciones similares, que databan del año 1400 AC.
Evans y otros determinaron que las placas de piedra encontradas se escribieron en dos diferentes idiomas. El más viejo, llamado Lineal A, era de entre 1800 y 1400 AC, cuando la isla estaba dominada por la civilización Minoan de la Era de Bronce.
La otra escritura, la Lineal B, era más reciente y aparece sólo después del año 1400 AC, cuando la isla fue conquistada por los Miceaneanos, que venían directamente de Grecia.
El arqueólogo británico, y otros, trataron por muchos años de descifrar lo que decían en esas tablas, pero los lenguajes perdidos se resistían a todos los intentos.
El problema se mantuvo sin solución hasta 1953 cuando un lingüista amateur, Michael Ventris, rompió el código para el lenguaje Lineal B.
Sin embargo, Lineal A se ha mantenido como un gran problema en lingüística hasta ahora.
En el MIT, Jiaming Luo y Regina Barzilay, así como Yuan Cao del Google AI Lab, desarrollaron un sistema de aprendizaje de máquinas capaz de descifrar lenguajes perdidos y ha demostrado poder descifrar Lineal B, haciendo esto por primera vez de forma automática.
¿Cómo funciona el sistema de traducción?
La idea principal en la traducción con máquinas es el entendimiento de que las palabras tienen una relación de unas con otras en modos similares, sin importar el tipo de idioma del que hablemos.
Así entonces, el proceso empieza mapeando esta relaciones para un lenguaje específico. Esto requiere una enorme base de datos de texto en ese particular idioma. Una máquina busca qué tan frecuente aparece cada palabra junto a otra.
Estos patrones de aparición son firmas únicas que definen una palabra en un espacio parametrizado de forma multidimensional.
Así entonces, las palabras pueden pensarse como vectores dentro de ese espacio. Y esto es la clave: cada vector actúa como un restricción poderosa sobre cómo una palabra puede aparecer en la traducción que se haga automáticamente.
Es decir, el vector restringe significativamente el uso de los símbolos asociados al mismo. Una gran idea.
Los vectores, a todo esto, obedecen a ciertas reglas matemáticas simples. Por ejemplo: rey – hombre + mujer = reina. Y la oración puede pensarse como un conjunto de vectores que se siguen unos con otros para formar un tipo de trayectoria único en este espacio.
El punto clave es que, en la traducción automática, las palabras en diferentes lenguajes ocupan los mismo puntos en sus espacios paramétricos respectivos.
Esto hace posible mapear todo un idioma a otro en una correspondencia uno a uno, es decir, a una biyección, como dirían los algebristas.
Curiosamente, con esta forma de traducción, las oraciones son un proceso de encontrar trayectorias similares a través de estos espacios. La máquina no necesita saber lo que significan las oraciones.
El problema más grande (y crucial), es que se requieren de grandes conjuntos de datos.
Sistema mejorado
Hace un par de años, un equipo de investigadores usó un enfoque similar con bases de datos más pequeñas para así traducir idiomas mucho más raros, en donde no había grandes cantidades de datos.
El truco fue entonces encontrar diferentes formas de restringir los vectores sin tener que depender de la base de datos (los textos en ese idioma que se quiere traducir).
Ahora Luo y colegas han ido más lejos, mostrando cómo la traducción de máquinas puede descifrar idiomas que se han perdido totalmente. Las restricciones que se usan son similares a las de los lenguajes conocidos que han evolucionado con el tiempo.
La idea es sencilla pero muy poderosa: todos los idiomas pueden cambiar en solamente unas formas, por ejemplo, los símbolos en los lenguajes relacionados aparecen con distribución similar.
Las palabras relacionadas tienen el mismo orden de caracteres, etcétera. Con estas reglas, la máquina puede descifrar de manera más sencilla los idiomas aunque claro, se necesita conocer un lenguaje que sea el progenitor.
Luo y colegas pusieron a prueba su técnica con dos idiomas perdidos: Lineal B y Ugaritico.
Los lingüistas ya saben que Lineal B se codificó como una versión tempranera de un griego antiguo y que el Ugaritico, descubierto en 1929, es una forma de Hébreo.
El resultado fue una traducción muy precisa: «Pudimos traducir el 67.3% de Lineal B» y agregó Luo: «Nuestro experimento es el primer intento de descifrar Lineal B automáticamente».
Un artículo al respecto puede hallarse en este enlace: Neural Decipherment via Minimum-Cost Flow: from Ugaritic to Linear B.