una batalla legal está sacando a la luz cómo se han entrenado

Publicado el

junio 26, 2025

Los modelos de IA capaces de suscitar textos tienen cada vez más presencia en nuestro día a día. Y eso hace que mucha gentío se plantee una pregunta crucial: ¿dónde aprendieron estas máquinas a escribir como lo hacen? La respuesta es que lo han rematado 'leyendo' millones de libros durante su entrenamiento, en numerosos casos, sin autorización de sus autores.

Y no sólo eso: en casos como el de LLaMa, la IA de Meta, su entrenamiento tuvo empleo luego de que la compañía recurrió sin miramientos a descargas masivas de libros desde bibliotecas online no autorizadas por los titulares de los derechos, como LibGen.

Recientes evidencias judiciales indican que la compañía de Zuckerberg habría insistido en acogerse a estas fuentes incluso luego de que ingenieros expresaran dudas al respecto a nivel interno:

"No parece correcto estar descargando torrents desde un equipo corporativo".

Y ahora, tanto el uso de libros como el debatido origen de los mismos ha iniciado un interesante debate judicial, y desembocado recientemente en diversas demandas aún por resolver en presencia de los tribunales.

'Sgroogled.com': cuando MICROSOFT lanzaba anuncios ANTI-GOOGLE

El caso Anthropic: ¿recital o robo?

La reciente resolución del magistrado federal William Alsup en el caso contra Anthropic, la empresa detrás del maniquí de lengua Claude, ha sido calificada de histórica: en su veredicto de hace dos días, Alsup determinó que entrenar una inteligencia sintético con libros protegidos por derechos de autor puede constituir 'uso acoplado' (fair use) bajo la carta estadounidense.

De hecho, el magistrado fue más allá y comparó el formación de los LLM (modelos de lengua de gran escalera) con el proceso de un disertador humano que estudia autores para desarrollar su propio estilo. En sus palabras, el uso de los libros por parte de la IA era "espectacularmente transformador", ya que no se trataba de copiar, sino de crear poco dispar.

Sin requisa, eso no significa que Alsup diera carta blanca a la industria: en el mismo veredicto, condenó a Anthropic por sobrevenir acumulado más de 7 millones de libros descargados de fuentes no autorizadas para formar una biblioteca digital central, una experiencia que calificó como una infracción directa del copyright. Aunque la empresa luego compró muchos de esos libros, eso no la exime de responsabilidad: se celebrará un cordura en diciembre para determinar los daños económicos.

ChatGPT no está borrando el registro de ninguno de tus chats. Es por orden de una juez, pero no está claro que sea legal

Microsoft en el punto de mira

La osadía procesal sobre Anthropic contrasta con la situación que enfrenta Microsoft, ahora demandada por un familia de reconocidos escritores estadounidenses, que alegan que la empresa utilizó versiones escaneadas extraoficialmente de casi 200.000 libros para entrenar su maniquí 'Megatron' sin consentimiento ni compensación de los detentadores de los derechos.

La demanda afirma que esta experiencia no solo vulnera derechos de autor, sino que todavía permite a la IA suscitar texto que imita el estilo, la sintaxis y los temas de los autores originales. Microsoft, que aún no ha emitido comentarios al respecto, se une así a una creciente tira de empresas tecnológicas, como OpenAI, Meta y la propia Anthropic, que enfrentan litigios por el uso no calificado de contenidos protegidos.

No nos olvidemos de OpenAI

Si Microsoft y Anthropic han sido objeto de indagación procesal y mediático por el uso de obras protegidas en el entrenamiento de sus modelos, OpenAI —la empresa que popularizó la IA generativa con ChatGPT— no se queda detrás. Aunque ha intentado proyectar una imagen de cooperación y transparencia, lo que sabemos hasta ahora revela que todavía ha incurrido en prácticas similares a las de sus competidores. Y de hecho, se habría precoz en el tiempo a los mismos.

Recientemente, de hecho, OpenAI confirmó sobrevenir eliminado dos conjuntos de datos fundamentales —'books1' y 'books2'— que se utilizaron para entrenar versiones tempranas de su maniquí GPT-3: según documentos judiciales desclasificados en el entorno de la demanda interpuesta por el Sindicato de Autores de EE. UU., estos datasets contenían probablemente más de 100.000 libros publicados, muchos con derechos de autor vigentes.

Los dos datasets representaban el 16% de los datos de entrenamiento de GPT-3, lo que equivale a unas 50.000 millones de palabras.

OpenAI sostiene que los datos fueron eliminados por "equivocación de uso" en 2022 y que sus modelos actuales —como GPT-4 o los ofrecidos a través de su API— no se entrenaron con esos conjuntos.

Todo apunta a que OpenAI, al igual que harían luego otras tecnológicas, habría considerado que lograr licencias individuales para cada obra era un obstáculo logístico y financiero incompatible con la celeridad del crecimiento de sus modelos. La 'alternativa' habría sido simplemente entrenar con lo que estuviera habitable, sin importar el status judicial de los textos.

¿Qué es el 'uso legal' y por qué importa?

La doctrina del 'fair use' (o 'uso legal' en castellano) permite el uso circunscrito de obras protegidas sin permiso del titular de los derechos en ciertos contextos, como la crítica, la enseñanza o la transformación creativa. En el caso de Anthropic, el magistrado Alsup considera que la IA no reproduce fragmentos reconocibles ni sustituye las obras originales en el mercado. En cambio, la transforma para crear textos nuevos, lo que se alinea con el espíritu de la ley: promover la creatividad y el progreso verificado.

Aun así, no todo está dicho. La osadía de Alsup, aunque pionera, no es vinculante para otros tribunales. De hecho, se dilación que la cuestión llegue al Tribunal Supremo de EE. UU., dada la cantidad de demandas similares pendientes.

Te recomendamos leer este libro… que no existe. Dos periódicos han publicado un suplemento generado por IA: no ha salido bien

Cuando la IA deja de formarse y empieza a copiar

La defensa más recurrente de las grandes tecnológicas frente a las acusaciones de plagio ha sido tajante: los modelos de lengua no copian, sino que "aprenden patrones". Sin requisa, recientemente investigadores de varias universidades estadounidenses demostraron que LLaMa 3.1, de Meta, ha memorizado textualmente hasta el 42% del vademécum Harry Potter y la piedra filosofal.

Esta capacidad de retención no es trivial ni accidental: el maniquí acertó secuencias largas de texto con una precisión promedio del 98,5%, lo que implica no solo exposición, sino reproducción casi textual del contenido flamante. Cierto es que LLaMa 3.1 no recuerda todos los libros por igual. Tiende a memorizar mucho más aquellos títulos populares y ampliamente disponibles en sitios pirata como LibGen. Así, mientras recordaba casi la porción de Harry Potter, solo retenía un 0,13% de una novelística menos conocida como es 'Sandman Slim', escrita por Richard Kadrey, uno de los participantes en la demanda colectiva contra Meta.

¿Hasta qué punto el maniquí contiene la obra?

El estudio plantea un desafío directo a la rectitud del maniquí en sí mismo. Si los pesos de LLaMa 3.1 contienen representaciones explícitas de fragmentos protegidos, como sugiere todavía la Oficina de Derechos de Autor de EE. UU., el maniquí podría considerarse una copia infractora, incluso si nunca genera esas frases de forma espontánea.

Y esto golpea el corazón mismo del argumento de "uso acoplado": porque no se trataría ya de un maniquí que "aprendió a escribir", sino de poco muy similar a una saco de datos camuflada bajo la apariencia de IA.

Imagen | Marcos Merino mediante IA

En Genbeta | El Gobierno inglés quiere permitir a empresas de IA usar contenidos con copyright. Se han topado con Dua Lipa, Elton John y más

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

una batalla legal está sacando a la luz cómo se han entrenado

El caso Anthropic: ¿recital o robo?

Microsoft en el punto de mira

No nos olvidemos de OpenAI

¿Qué es el 'uso legal' y por qué importa?

Cuando la IA deja de formarse y empieza a copiar

¿Hasta qué punto el maniquí contiene la obra?

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes

una batalla legal está sacando a la luz cómo se han entrenado

El caso Anthropic: ¿recital o robo?

Microsoft en el punto de mira

No nos olvidemos de OpenAI

¿Qué es el 'uso legal' y por qué importa?

Cuando la IA deja de formarse y empieza a copiar

¿Hasta qué punto el maniquí contiene la obra?

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Por favor, complete este formulario, a la brevedad no estaremos contactando con usted.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes