ARTDEPARTMENT

Solicitar una consulta

Nos dijeron que "la IA no copia", pero LLaMa 3.1 de Meta es capaz de recordar el 42% del primer libro de Harry Potter

Publicado el 
junio 16, 2025

Durante abriles, las grandes tecnológicas se han defendido de las acusaciones de la industria editorial sosteniendo que los LLM (modelos de jerga, o modelos de IA generativa enfocada al texto) no 'copian' obras con copyright (ni ninguna otra), sino que se limitan a formarse patrones y estructuras de jerga.

Sin requisa, un reciente estudio pone ahora esta afirmación en veto. Investigadores varias universidades estadounidenses han demostrado que LLaMa 3.1, el maniquí más nuevo de Meta, ha memorizado hasta el 42% de "Harry Potter y la piedra filosofal", primera entrega de la famosa clan de imaginación joven.

Esta conclusión no sólo podría afectar a cómo entrena sus modelos de IA la industria, sino que podría tener todavía profundas repercusiones legales.

¿Qué significa 'memorizar' un ejemplar?

El estudio utilizó una metodología rigurosa: los investigadores dividieron libros en fragmentos de 100 tokens y evaluaron cuántas veces el maniquí podía predecir correctamente los 50 tokens siguientes, dados los 50 anteriores, con una probabilidad superior al 50%. Este comienzo es estricto: implica que el maniquí asigna una probabilidad altísima (en promedio, 98.5%) a cada palabra que sigue.

La sorpresa fue mayúscula: LLaMa 3.1 70B acertó secuencias completas del primer ejemplar de Harry Potter en un 42% de los casos. Esto contrasta con su predecesor LLaMa 1, que sólo recordaba el 4,4% del mismo texto.

¿Cómo es posible que una IA recuerde tanto?

Los modelos como LLaMa 3.1 no funcionan como simples máquinas de predicción: están entrenados con cantidades colosales de datos. Así, LLaMa 3.1 fue expuesto a unos 15 billones de tokens durante su entrenamiento, más de diez veces que su interpretación antedicho. Esto multiplica las probabilidades de que repita fragmentos literales de su conjunto de entrenamiento.

Por otra parte, muchas obras protegidas están fácilmente disponibles en Internet a través de bibliotecas no autorizadas como LibGen. Recientes documentos judiciales indican que Meta habría usado estas fuentes deliberadamente, incluso luego de que ingenieros expresaran preocupaciones internas como:

"No parece correcto estar descargando torrents desde un equipo corporativo".

Meta entrenó a su chatbot usando libros con copyright sacados de una web de descargas. Y todo con el visto bueno de Zuckerberg

¿Es esto una anomalía o una tendencia?

Uno de los hallazgos más significativos es que esta memorización no es uniforme. LLaMa 3.1 recuerda con mucha más facilidad libros extremadamente populares (como El Hobbit, 1984 o el que nos ocupa) y mucho menos los títulos más oscuros.

Por ejemplo, el maniquí solo memorizó el 0,13% de 'Sandman Slim', una novelística de 2009 escrita por Richard Kadrey, quien es irónicamente uno de los participantes en la demanda colectiva de escritores contra Meta.

Esto plantea, claro, un problema procesal interesante: si los modelos memorizan textos populares, pero no los menos conocidos, ¿tienen todos los autores afectados un caso igual de sólido en una demanda conjunta?

La gran batalla procesal

La controversia procesal se centra en tres enfoques sobre cómo el entrenamiento de IA podría infringir derechos de autor:

  1. El acto de entrenar ya es una infracción porque implica hacer copias digitales de obras protegidas.
  2. El maniquí resultante es una obra derivada ilegal si incorpora partes sustanciales del contenido.
  3. La salida del maniquí (output) infringe cuando reproduce texto protegido.

El estudio aporta una evidencia elocuente a patrocinio del segundo punto: que el propio maniquí contiene partes sustanciales de obras protegidas. De hecho, un referencia nuevo de la Oficina de Derechos de Autor de EE. UU. respalda esta interpretación, al afirmar que los pesos de un maniquí podrían considerarse copias infractoras si reproducen "porciones relevantes de contenido protegido".

¿Y ahora, qué?

Con este descubrimiento, el argumento enarbolado por las tecnológicas de que la memorización era un 'comportamiento insignificante', y que los modelos son solo 'estudiantes' estadísticos, queda desacreditado frente a la evidencia empírica de copiado fiel.

En medio de esto, Meta enfrenta una crisis interna: ha perdido a la mayoría de los científicos que desarrollaron la primera LLaMa, ha retrasado el extensión de su nuevo maniquí 'Behemoth' de 2 billones de parámetros, y ha hecho una arriesgada inversión de 14.000 millones de dólares en Scale AI para sostener su dependencia de suministro de datos.

Vía | Understanding AI

Imagen | Marcos Merino mediante IA

En Genbeta | Acusan a Midjourney de plagiar y se filtra una nómina de miles de artistas de todas las épocas que, supuestamente, se usan para la IA 

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o 
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

cloud-syncearthbullhorn linkedin facebook pinterest youtube rss twitter instagram facebook-blank rss-blank linkedin-blank pinterest youtube twitter instagram