
Nairobi.- Desde el hausa en Nigeria hasta el kikuyu en Kenia, pasando por el chichewa en Malaui, en África existen alrededor de 2.000 lenguas. Aunque algunas son habladas por millones de personas, su presencia en la inteligencia artificial (IA) es muy limitada. Un grupo de científicos se ha propuesto cambiarlo.
«Si una lengua nunca ha existido digitalmente, ¿cómo conseguimos que la puedan usar estas tecnologías?», se pregunta en una entrevista con EFE Lilian Wanzare, lingüista computacional en la Universidad de Maseno (oeste de Kenia).
Wanzare dirige en Kenia el proyecto African Next Voices, que pretende corregir la infrarrepresentación de las lenguas africanas en los llamados modelos extensos de lenguaje (LLM, por sus siglas en inglés) mediante la creación del mayor conjunto de datos elaborado hasta el momento en idiomas del continente.
Los LLM son sistemas avanzados de IA que comprenden y producen lenguaje humano después de haber sido entrenados con enormes cantidades de datos, como ChatGPT, de la empresa OpenAI; o Gemini, de Google.
Estos modelos pueden mantener conversaciones fluidas en inglés, mandarín o español. Sin embargo, ChatGPT reconoce solo entre un 10% y un 20 % de las frases en hausa, un idioma que hablan 94 millones de nigerianos, según reportó la revista científica Nature.
Desde Nigeria hasta Etiopía
Con una financiación de 2,2 millones de dólares (1,8 millones de euros) de la Fundación Gates y tras dos años de trabajo, African Next Voices publicó el pasado julio su primer paquete de datos con 9.000 horas de grabación en diferentes lenguas africanas.
El proyecto incluyó hasta entonces el hausa, el yoruba y el pidgin (lengua criolla basada en el inglés) de Nigeria; el venda y el zulú de Sudáfrica; y el kikuyu y el lúo de Kenia, si bien está previsto que acabe cubriendo al menos 18 idiomas del continente.
En los últimos meses, detalla Wanzare, se han recogido más horas y Etiopía se ha sumado al proyecto con el amhárico, el tigriña y el oromo, entre otros; mientras se ha empezado a documentar también el suajili, que es la lengua africana más hablada de África subsahariana, con más de 200 millones de personas en una quincena de países.
Aunque estos idiomas «son muy productivos» y tienen millones de hablantes, su presencia digital -datos con los que se entrenaría a la IA- es muy reducida, explica a EFE Ife Adebara, codirectora de la iniciativa en Nigeria.
Adebara argumenta que la «oralidad» de las lenguas africanas a la que tradicionalmente se alude no es excusa: «Todas las lenguas del planeta son orales, pero se ha hecho el esfuerzo de documentarlas y crear una ortografía. Eso es lo que falta en África, porque no se han puesto en marcha las políticas adecuadas», afirma.
Algunos de estos idiomas están relegados al hogar o a la informalidad y no se usan en ámbitos como la educación, la salud o las instituciones públicas.
Para crear la base de datos, los equipos del proyecto se desplegaron para captar a ciudadanos de todas las edades y contextos, llegando incluso a zonas remotas con escaso acceso a internet.
Los participantes responden a preguntas o describen imágenes en unas grabaciones que son posteriormente transcritas y traducidas y que, a menudo, requieren de la opinión de expertos porque la escritura de las lenguas «no siempre está estandarizada».
Los cuestionarios reflejan la vida cotidiana de la población para que los datos recopilados sean «realmente representativos del uso que las personas hacen del lenguaje en sus comunidades», destaca Adebara.
Preservación y servicios básicos
El primer objetivo de African Next Voices -cuyas bases de datos están disponibles en internet de manera gratuita- es «la documentación de nuestras lenguas, de nuestra cultura y de la sabiduría que contienen», subraya la investigadora nigeriana.
Pero el proyecto también busca «dar acceso a todos los africanos (también los que no hablan con fluidez el inglés u otras lenguas coloniales) a tecnologías que están haciendo más eficientes las vidas de las personas».
Durante los últimos años, diferentes empresas e iniciativas en el continente han demostrado cómo el uso de lenguas africanas en la IA puede democratizar el acceso a servicios básicos.
Es el caso de la compañía keniana Jacaranda Health, que ofrece servicios de salud materna y neonatal en suajili, hausa y twi (Ghana) y ha desarrollado modelos de IA en cinco idiomas africanos. Mediante su sistema, madres de estos países pueden recibir consejos médicos por SMS en su propia lengua.
«El impacto ha sido inmediato y profundo (…). Estamos viendo que las madres hacen preguntas más complejas e interactúan con más frecuencia cuando pueden comunicarse de manera natural en su lengua materna», asegura a EFE Jay Patel, director de Tecnología de la empresa.
«Sin una IA que comprenda las lenguas africanas, millones de madres no pueden acceder a información sanitaria adecuada cuando más la necesitan», concluye. EFE