la IA entrenada con traducciones basura de Wikipedia es un drama para las lenguas minoritarias

Publicado el

septiembre 30, 2025

Cuando Kenneth Wehr se hizo cargo de la interpretación de Wikipedia en groenlandés hace cuatro abriles, su primera medida fue drástica: borrarlo casi todo. Era, según él, la única forma de que el esquema tuviera alguna posibilidad de sobrevivir. Wehr, un germano de 26 abriles obsesionado con Groenlandia, descubrió que la Wikipedia en este idioma, hablado por unas 57.000 personas, era un espejismo.

Pero esto incluso ocurre en auténticos paraísos como Hawai, donde Noah Ha'alilio Solomon, apunta a que más o menos del 35% de las palabras de algunas páginas de la Wikipedia hawaiana son incomprensibles. Aunque es poco que tiene su explicación.

Falsos traductores. A pesar de contar con unos 1.500 artículos en este idioma, la inmensa mayoría habían sido creados por personas que no hablaban el idioma, utilizando traductores automáticos. El resultado, como se recoge en MIT Technology Review, era un desastre: artículos con errores gramaticales básicos, palabras sin sentido e incluso datos absurdos, como una entrada que afirmaba que Canadá tenía solo 41 habitantes.

Hay tantos artículos escritos por la IA en internet que la Wikipedia ya tiene un método para detectarlos

"Las frases no tenían ningún sentido o contenían errores obvios", se lamentaba Wehr. "Los traductores de IA son en realidad malos en groenlandés".

Basados en predicción. Los grandes modelos de inteligencia químico, desde Google Translate hasta ChatGPT, aprenden a "balbucir" nuevos idiomas analizando cantidades masivas de texto extraído de internet. Para muchas lenguas minoritarias, con poca presencia digital, Wikipedia es a menudo la anciano, si no la única, fuente de datos lingüísticos acondicionado. Y aquí es donde empieza el gran destrozo lingüístico.

Y es que al final todo comienza con usuarios bienintencionados (o no tanto) que utilizan herramientas de traducción cibernética para poder crear artículos en Wikipedia en lenguas que son minoritarias. Pero lógicamente no piensan que estos traductores no están admisiblemente entrenados para estas lenguas por los pocos posibles que hay de por sí en la red.

Cíclico. Con toda esta información generada con los traductores automáticos se está generando incluso el material con el que van a trabajar los futuros modelos de IA, ya que van a usar la información que hay en la red. De esta guisa, los nuevos modelos de IA aprenden de estos textos 'basura', perpetuando y amplificando los errores que se cometieron anteriormente.

Ahora las nuevas herramientas de traducción que surgen se generan a partir de traducciones de otras IA y entonces se van a acumulando los errores uno encima de otro. Y al final lo que esperamos tener es un desastre auténtico.

Va más alla. Voluntarios que trabajan en cuatro idiomas africanos estimaron para MIT Technology Review que entre el 40% y el 60% de los artículos en sus ediciones de Wikipedia eran traducciones automáticas sin corregir. Una auditoría de la impresión en inuktitut (un idioma indígena de Canadá) reveló que más de dos tercios de las páginas contenían fragmentos generados de esta guisa.

La dependencia. Ya en 2020, se estimaba que Wikipedia constituía más de la parte de los datos de entrenamiento para la IA en idiomas hablados por millones de personas en África, como el malgache, el yoruba y el shona. En 2022, un equipo de investigación alemán descubrió que para 27 idiomas de bajos posibles, Wikipedia era la única fuente de datos lingüísticos fácilmente accesible en internet.

"Estos modelos se basan en datos brutos", explica Kevin Scannell, un informático que desarrolla software para lenguas en peligro. "No hay libros de gramática. No hay diccionarios. No hay falta más que el texto que se introduce".

Los secuestradores. Trond Trosterud, un filólogo computacional de la Universidad de Tromsø, lleva abriles alertando sobre este engendro. Él acuña el término "secuestradores de Wikipedia" para describir a un subconjunto de usuarios que, ya sea por ingenuidad o por un afán de "ayudar", inundan estas pequeñas ediciones con contenido de depreciación calidad. Concretamente, apunta a que estos usuarios están "armados con Google Translate", lo que categoriza como el problema principal.

Antiguamente, esto era poco impensable, porque exclusivamente contábamos con una serie de diccionarios entre dos idiomas y traducir al final requería mucho tiempo. Pero al final un 'copia y pega' se pueden suscitar contenidos muy largos.

Le dan las herramientas. La propia Wikipedia a día de hoy ofrece a los usuarios esta aparejo señal 'Content Translate'. Esta permite traducir artículo a un idioma a otro conservando el formato llamativo. Sin confiscación, al subordinarse de los motores externos lógicamente, los errores comenzaban a aflorar, y las imprecisiones eran mayúsculas.

Se llegó a tal punto, que la interpretación en inglés de Wikipedia dejo de mostrar en gran medida el contenido que estaba generado con esta aparejo de traducción si antiguamente no pasaba por un revisor humano. Todo porque no cumplían con el en serie de calidad imperceptible que se solicitaba. Pero en las ediciones más pequeñas de Wikipedia no hay un ejército de editores humano que puedan corregir los errores que cometen los traductores de IA.

Un ejemplo de esto está en Yuet Man Lee, un profesor canadiense, que admitió sobrevenir usado ChatGPT y Google Translate para crear artículos en inuktitut. Una atrevimiento ue tomó tras ver la "arrogancia de la Wikipedia ancho", ya que se encontraba que en inglés hay mucho contenido, pero en lenguas minoritarias no. Pero esto es poco que hizo confiando en que alguno vendría a posteriori a corregirlo, aunque la efectividad es que nadie ha tocado los artículos desde entonces.

Wikipedia quiso introducir resúmenes con IA en sus artículos. La feroz reacción de los editores les ha parado los pies

Las consecuencias. En el finalidad de Nigeria Abdulkadir Abdulkadir dedica tres horas diarias a editar la Wikipedia en fula, un idioma hablado por pastores y agricultores. Él lo ve como una aparejo trascendental para resistir el conocimiento de la agricultora a las aldeas remotas. Pero si la información está traducida, obviamente puede sobrevenir grandes daños en los cultivos de las personas que han confiado en esta entrada.

Pone varios ejemplos para poder ilustrarlo. Apunta específicamente que los traductores automáticos confunden la palabra fula para "cosecha" con "fiebre" o "bienestar". Aunque incluso relata como recientemente tuvo que corregir un artículo sobre el caupí, un cultivo fundamental en África, porque era prácticamente ilegible. Estima que el 60% de los artículos en fula son traducciones automáticas sin corregir.

Al otro flanco del país, Lucy Iwuala, editora en igbo, es aún más tajante. "El daño ya está hecho", afirma, mientras revisa artículos recién creados que contienen trivio que ni siquiera existen en el alfabeto igbo. Apunta que esta impresión de las entradas de Wikipedia para ella es una forma de lucha cultural, ya que se siente identificada con esas entradas.

Imágenes | Oberon Copeland

En Genbeta | Wikipedia: 20 abriles que cambiaron internet y el ataque al conocimiento en 10 hitos

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

la IA entrenada con traducciones basura de Wikipedia es un drama para las lenguas minoritarias

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes

la IA entrenada con traducciones basura de Wikipedia es un drama para las lenguas minoritarias

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Por favor, complete este formulario, a la brevedad no estaremos contactando con usted.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes