«Interlingua»: un idioma que rige a todos

Si usted ha leído algunas de nuestras publicaciones anteriores, entonces ya sabe que estamos todos evocando escenarios apocalípticos cuando se trata del papel que las máquinas juegan en las sociedades posmodernas y los dilemas morales planteados por nuestra creciente dependencia de la tecnología. Eso, y hacer referencias cinematográficas a Kubrick siempre que sea posible, por supuesto.

Bien, podríamos hacer un punto en este momento, porque HAL 9000 podría funcionar, esta vez puesto al servicio de nuestra querida industria de la traducción.

Parece que Google ha desatado una tecnología de aprendizaje profundo sobre el lenguaje con Traducción Automática Neuronal que tiene la capacidad de «aprender» por sí misma, de ser capaz de traducir en pares de idiomas desconocidos mediante la creación de un «metalenguaje» o «interlingua» como parte del proceso, produciendo resultados muy respetables.

La Traducción Automática Neuronal (NMT, por sus siglas en inglés) es un enfoque a la traducción automática donde se entrena una gran red neuronal a través de técnicas de aprendizaje profundo. Es un cambio radical respecto de lo que hasta ahora podemos llamar el «enfoque clásico» utilizado por la mayoría de los motores de traducción automática hasta ahora, que suelen descomponer el corpus del material fuente en pedazos individuales como si fuera un rompecabezas que se puede volver a armar más adelante.

Los modelos de la NMT aplican un aprendizaje profundo de la representación. Requieren sólo una fracción de la memoria que los modelos tradicionales de traducción automática estadística necesitan. Además, a diferencia de los sistemas de traducción convencionales, todas las partes del modelo de traducción neuronal están entrenados de manera conjunta, en un patrón de extremo a extremo, para maximizar el resultado de la traducción.

Traducir de un idioma a otro no es una tontería y crear un sistema que lo hace automáticamente tampoco es pan comido, en parte porque hay tan muchas palabras, frases y reglas de las que debemos ocuparnos en el proceso. Afortunadamente, las redes neuronales se nutren de grandes conjuntos de datos complicados, y parece que siempre necesitan más.

La Traducción Automática Neuronal de Google (en adelante GNMT, por sus siglas en inglés) es la más reciente y, lejos, la herramienta más eficaz para aprovechar con éxito el aprendizaje automático en traducción. Observa oraciones como también sintagmas completos, mientras se mantienen «en mente», por así decirlo, piezas pequeñas, como  palabras y frases comunes.

Es muy similar a la manera en que observamos una imagen en su conjunto, mientras tomamos en cuenta las piezas individuales que la componen (pensemos en píxeles), que de ninguna manera es casual. Las redes neuronales han sido entrenadas para identificar las imágenes y los objetos de manera que intentan replicar la percepción humana, y hay más que una semejanza pasajera entre la identificación de la Gestalt de una imagen y la de una oración.

Curiosamente, no hay mucho allí que en realidad sea específico del idioma: El sistema no sabe la diferencia entre el futuro perfecto y el futuro continuo, y no descompone las palabras basándose en sus etimologías. Es todo estadísticas y fantasía de disparatada matemáticas, pero sin humanidad ni alma.

Reducir la traducción a una tarea mecánica es admirable, pero de alguna manera también es escalofriante, por decir lo menos.

El sistema resultante, sin embargo, es muy preciso, supera a los motores de traducción basados ​​en frases y se acerca gradualmente a los niveles de calidad humanos. Se sabe que tiene que ser algo bueno cuando Google lo implementa en su sitio web público en la forma de una aplicación creada para un proceso difícil como la traducción del chino al inglés.

¿Entonces cuáles son las desventajas? ¿Cuándo HAL va a tratar de matarnos a todos nosotros y expulsarnos al espacio?

Bueno, la parte espeluznante es que no lo sabemos…

Una de las desventajas de la utilización de esta tecnología de vanguardia es que, como con tantos modelos predictivos producidos por el aprendizaje automático, no sabemos muy bien cómo funciona.

Charina Choi, en una entrevista reciente sobre el tema, dijo de Google: «La GNMT es igual que otros modelos de redes neuronales: un gran conjunto de parámetros que son entrenados, difíciles de investigar».

No es que no tengan ni idea de lo que está pasando, no todo es un montón de «teoría rebuscada» misteriosa después de todo, pero las muchas partes móviles de los motores de traducción basados ​en frases son diseñadas por personas, y cuando una pieza se va fuera de control o se vuelve obsoleta, se pueden reemplazar. Dado que las redes neuronales esencialmente se diseñan ellas mismas a través de millones de iteraciones, si algo sale mal, no podemos meter la mano y reemplazar una parte. El entrenamiento de un nuevo sistema no es trivial, a pesar de que se puede hacer rápidamente (y probablemente se hará regularmente a medida que se diseñen las mejoras).

Google está apostando fuerte por el aprendizaje automático y esta herramienta de traducción, que ahora funciona en vivo para la web y consultas móviles, es quizás la demostración más pública de la compañía hasta el momento. Las redes neuronales pueden ser complejas, misteriosas y un poco espeluznantes, pero es difícil discutir con su eficacia.

Aún así, el rompecabezas que la traducción automática presenta, aún no se ha resuelto. La GNMT todavía puede cometer errores significativos que un traductor humano nunca podría cometer, como traducir mal los nombres propios o términos inusuales, y traducir frases de manera aislada en lugar de considerar el contexto del párrafo o de la página. Todavía hay mucho trabajo por hacer. Sin embargo, la GNMT representa, sin duda, un hito importante en su camino hacia la grandeza.

Tendremos que esperar y ver cómo se desentraña ese camino…