Sanjib Chaudhary encontró StoryWeaver, una plataforma multilingüe de cuentos infantiles, mientras buscaba libros que pudiera leer a su hija de 7 años. La lengua materna de Chaudhary es el kochila tharu, hablada por unos 250 mil habitantes en el este de Nepal. (El nepalí, lengua oficial de Nepal, tiene 16 millones de hablantes.) Las lenguas con un número relativamente pequeño de hablantes, como el kochila tharu, no tienen mucho material en formato digital que pueda utilizar la comunidad: no hay Google Translate, subtítulos en las películas o la televisión, ni periódicos en línea. En términos de la industria, estas lenguas están “desatendidas” y “con recursos insuficientes”.
Aquí entra StoryWeaver. Fundada por Pratham Books, una organización educativa india sin fines de lucro, StoryWeaver tiene actualmente más de 50 mil cuentos de licencia abierta en más de 300 idiomas de todo el mundo. Los usuarios pueden explorar el repositorio por nivel de lectura, idioma y tema, y una vez que seleccionan un cuento, pueden hacer clic en las láminas ilustradas (cada una como si fuera la página de un libro) en el idioma seleccionado (también hay opciones bilingües, en las que se muestran dos idiomas uno al lado del otro, así como opciones de descarga y lectura con audio). “Smile please!”, un cuento sobre las divagaciones de un cervatillo en el bosque, es actualmente el cuento “más leído”: escrito originalmente en hindi para principiantes, se ha traducido a 147 idiomas y se ha leído 281,000 veces.
La mayoría de las lenguas representadas en la plataforma proceden de África y Asia, y muchas de ellas son lenguas indígenas en peligro de perder a sus hablantes, en un mundo en el que predomina el inglés. La experiencia de Chaudhary como padre refleja esta tensión. “El problema con los niños es que prefieren leer libros de cuentos en inglés antes que en su propia lengua porque el inglés es mucho, mucho más fácil. Con el kochila tharu, la ortografía es difícil, las palabras son difíciles, y están expuestos al inglés todo el tiempo, en las escuelas, en la televisión”, explica Chaudhary.
Las herramientas de traducción asistidas por inteligencia artificial, como StoryWeaver, pueden hacer que más lenguas convivan entre sí. Pero la tecnología aún es nueva y depende de datos que solo pueden proporcionar los hablantes de estas lenguas olvidadas. Esto plantea preguntas sobre el valor que se le dará al trabajo de los hablantes nativos que alimentan las herramientas de inteligencia artificial y sobre la manera en que se comercializarán los repositorios de datos lingüísticos.
Para entender cómo funcionan estas herramientas de traducción asistida por inteligencia artificial, es necesario mirar lo que pasa en India: con 22 lenguas oficiales y más de 780 lenguas habladas, no es casualidad que el país sea un centro de innovación para la tecnología multilingüe. El núcleo de StoryWeaver se inspira en una herramienta de procesamiento del lenguaje natural desarrollada en Microsoft Research India, llamada tecnología de predicción de traducción automática neural interactiva (INMT, por sus siglas en inglés).
A diferencia de la mayoría de las herramientas comerciales de traducción basadas en inteligencia artificial, la INMT no prescinde por completo del intermediario humano. En su lugar, ayuda a los humanos con sugerencias en el idioma al que están traduciendo. Por ejemplo, si se empieza a escribir “Está lloviendo” en el idioma de destino, el modelo que trabaja ofrece “esta noche”, “mucho” o “a cántaros” como opciones para completar la frase, basándose en el contexto y en la palabra o conjunto de palabras anteriores. Durante la traducción, la herramienta tiene en cuenta el significado en el idioma original y lo que permite el idioma de destino, y luego genera posibilidades entre las que puede elegir el traductor, explica Kalika Bali, investigador principal de Microsoft y uno de los arquitectos de la INMT.
Herramientas como la INMT permiten al grupo de voluntarios de StoryWeaver generar rápidamente traducciones de historias que ya existen. La interfaz de usuario es fácil de dominar, incluso para traductores principiantes, muchos de los cuales, como Chaudhary, son voluntarios o trabajan para organizaciones sin fines de lucro en temas de educación infantil. Este es el caso de Churki Hansda. Ella es empleada de la Sociedad Comunitaria Suchana Uttor Chandipur, una de las muchas organizaciones que colaboran con StoryWeaver, repartidas por todo el mundo. Ella aporta su conocimiento en kora y santali, dos lenguas indígenas desatentidas que se hablan en el este de la India. “Cuando éramos pequeños no teníamos libros de cuentos. Nuestros libros de texto estaban en bengalí [la lengua regional dominante], y acabábamos memorizándolo todo porque no entendíamos lo que leíamos”, me cuenta Hansda. “Se siente bien poder crear libros en nuestras lenguas para nuestros hijos”.
Amna Singh, directora de contenidos y asociaciones de Pratham Books, calcula que el 58% de las lenguas representadas en StoryWeaver están perdiéndose, unstatu quo que tiene consecuencias en el proceso de aprendizaje en la primera infancia. Pero los intentos de sacar del olvido a las comunidades lingüísticas desatendidas también están estrechamente relacionados con el aprovechamiento de su potencial como consumidores, y la tecnología de traducción basada en la inteligencia artificial es una parte importante de este cambio. Las herramientas de reconocimiento de voz y los chatbots en lenguas regionales indias pretenden atraer a los clientes que viven fuera de las ciudades metropolitanas, un mercado que se espera que crezca a medida que el uso de datos móviles se abarate aún más.
La calidad de estas herramientas depende de los datos con los que se les entrena, y su abastecimiento es un reto importante. Para mantener el multilingüismo en internet, los modelos de traducción automática necesitan grandes volúmenes de datos de entrenamiento generados en dos lenguas paralelas. Las actas parlamentarias y las publicaciones de los medios de comunicación son fuentes habituales de datos públicos que pueden utilizarse para la formación de estas herramientas. Sin embargo, estas dos fuentes –según Bali, investigador de Microsoft– son demasiado específicas y no abarcan una gama suficientemente amplia de temas y vocabulario como para ser representativas del habla humana. (Por eso StoryWeaver tampoco es una buena fuente de datos de entrenamiento, porque las frases de los libros infantiles son bastante sencillas y el corpus de lectura solo llega hasta niveles de lectura de cuarto grado).
Dejando de lado los requerimientos técnicos, el trabajo con datos suele ser invisible, mal remunerado, y se realiza en entornos no regulados. Existe una preocupación cada vez mayor por todo lo que debemos a los trabajadores humanos que recopilan conjuntos de datos tras bambalinas para entrenar sistemas de inteligencia artificial. Conocidos como crowdworkers, estas personas realizan tareas repetitivas y sistemáticas que van desde etiquetar imágenes de árboles y peatones para autos sin conductor, hasta detectar signos de enfermedad en escáneres médicos.
Este tipo de “trabajo fantasma” monótono adquiere una dimensión emocional en el contexto de la preservación del lenguaje. Los trabajadores de datos lingüísticos que contribuyen a los modelos de traducción automática están tan motivados por la idea de la dignidad lingüística en internet, que las cuestiones de la remuneración justa y la administración de datos se dejan de lado en los debates sobre por qué este trabajo es importante desde una perspectiva cultural.
Su valor cultural, después de todo, es enorme: la hija de Sanjib Chaudhary entiende más kochila tharu que hace unos años, y la participación de Chaudhury en StoryWeaver ha crecido desde entonces. Durante el último año y medio, él y dos amigos trabajaron para generar el equivalente en nepalí de unas 40,000 palabras en inglés. Pero solo les pagaron 243 dólares por el proyecto, es decir, menos de 1 centavo por palabra en inglés, dividido entre tres. Según Bali de Microsoft, los modelos necesitan 100 mil frases emparejadas para empezar a generar traducciones aceptables.
A pesar de lo repetitivo y mal remunerado del trabajo, Chaudhary no se ve a sí mismo como un crowdworker, sino como un curador lingüístico. “Tenemos muchas palabras homófonas en kochila tharu que no existen en inglés. Por ejemplo, los nombres de los distintos pescados… tenemos muchas palabras para referirnos al pescado, a los artículos de pesca y a las preparaciones a base de pescado que no se encuentran en otras lenguas”, explica. “Si nuestra lengua muere, las perderemos. Quiero recopilar estas palabras antes de que desaparezcan”.
La esperanza de un futuro en el que las identidades lingüísticas marginales puedan prosperar en internet es un poderoso incentivo para gente como Chaudhary y Hansda. El paso de Hansda por StoryWeaver le permitió tener una oportunidad remunerada en AI4Bharat (o Inteligencia Artificial para la India), una iniciativa del Instituto Indio de Tecnología en Chennai, que recopila datos en pares etiquetados para el inglés y 12 lenguas indias. Las 100 mil frases que Hansda añadirá al conjunto de datos de AI4Bharat en Santali a lo largo de 18 meses abarcan historias orales indígenas, cuentos populares, literatura, frases y palabras. Hansda cobra 1.66 dólares la hora por este trabajo como “experta lingüística”.
Para ser realmente innovadora y responsable, la investigación lingüística asistida por la inteligencia artificial debe garantizar que los hablantes nativos y sus comunidades no se limiten a aportar datos, sino que también ayuden a determinar cómo se utilizarán. De momento, AI4Bharat pretende “traer paridad con respecto al inglés para las lenguas indias en el entorno de las tecnologías de Inteligencia Artificial, mediante contribuciones de código abierto”. Eso supone que la apertura llevará automáticamente a la inclusión. Sin embargo, en la práctica no hay directrices claras que impidan a las empresas que desarrollan tecnologías de inteligencia artificial utilizar conjuntos de datos recogidos y entrenados por entidades de investigación no comerciales, como universidades u organizaciones sin ánimo de lucro.
AI4Bharat, por ejemplo, clasifica sus conjuntos de datos como de código abierto, lo que significa que las contribuciones de Hansda podrían comercializarse en el futuro con fines lucrativos. Hay precedentes de ello: la herramienta de inteligencia artificial Make-a-Video de Meta, que aún no se ha hecho pública pero se anunció el otoño pasado, se ha entrenado con conjuntos de datos recopilados de videoclips disponibles públicamente en YouTube y Shutterstock. El tecnólogo Andy Baio calificó esta práctica de “lavado de datos de inteligencia artificial” y escribió que “subcontratar el trabajo pesado de la recopilación de datos y el entrenamiento de modelos a entidades no comerciales permite a las empresas esquivar la rendición de cuentas y la posible responsabilidad legal”.
Por ahora, el impulso hacia la inclusión lingüística –ya sea motivado por el beneficio comercial, el impacto social, la innovación tecnológica o una mezcla de los tres–, es emocionante para los hablantes de lenguas minoritarias. Hansda espera que llegue el día en que sus nietos puedan vivir sus vidas online en santalí. “Dirán: ‘esto lo hizo nuestra abuela’”, afirma. ~
Este artículo es publicado gracias a una colaboración de Letras Libres con Future Tense, un proyecto de Slate, New America, y Arizona State University.