
ARTDEPARTMENT

Durante abriles, las grandes tecnológicas se han defendido de las acusaciones de la industria editorial sosteniendo que los LLM (modelos de jerga, o modelos de IA generativa enfocada al texto) no 'copian' obras con copyright (ni ninguna otra), sino que se limitan a formarse patrones y estructuras de jerga.
Sin requisa, un reciente estudio pone ahora esta afirmación en veto. Investigadores varias universidades estadounidenses han demostrado que LLaMa 3.1, el maniquí más nuevo de Meta, ha memorizado hasta el 42% de "Harry Potter y la piedra filosofal", primera entrega de la famosa clan de imaginación joven.
Esta conclusión no sólo podría afectar a cómo entrena sus modelos de IA la industria, sino que podría tener todavía profundas repercusiones legales.
El estudio utilizó una metodología rigurosa: los investigadores dividieron libros en fragmentos de 100 tokens y evaluaron cuántas veces el maniquí podía predecir correctamente los 50 tokens siguientes, dados los 50 anteriores, con una probabilidad superior al 50%. Este comienzo es estricto: implica que el maniquí asigna una probabilidad altísima (en promedio, 98.5%) a cada palabra que sigue.
La sorpresa fue mayúscula: LLaMa 3.1 70B acertó secuencias completas del primer ejemplar de Harry Potter en un 42% de los casos. Esto contrasta con su predecesor LLaMa 1, que sólo recordaba el 4,4% del mismo texto.
Los modelos como LLaMa 3.1 no funcionan como simples máquinas de predicción: están entrenados con cantidades colosales de datos. Así, LLaMa 3.1 fue expuesto a unos 15 billones de tokens durante su entrenamiento, más de diez veces que su interpretación antedicho. Esto multiplica las probabilidades de que repita fragmentos literales de su conjunto de entrenamiento.
Por otra parte, muchas obras protegidas están fácilmente disponibles en Internet a través de bibliotecas no autorizadas como LibGen. Recientes documentos judiciales indican que Meta habría usado estas fuentes deliberadamente, incluso luego de que ingenieros expresaran preocupaciones internas como:
"No parece correcto estar descargando torrents desde un equipo corporativo".

Uno de los hallazgos más significativos es que esta memorización no es uniforme. LLaMa 3.1 recuerda con mucha más facilidad libros extremadamente populares (como El Hobbit, 1984 o el que nos ocupa) y mucho menos los títulos más oscuros.
Por ejemplo, el maniquí solo memorizó el 0,13% de 'Sandman Slim', una novelística de 2009 escrita por Richard Kadrey, quien es irónicamente uno de los participantes en la demanda colectiva de escritores contra Meta.
Esto plantea, claro, un problema procesal interesante: si los modelos memorizan textos populares, pero no los menos conocidos, ¿tienen todos los autores afectados un caso igual de sólido en una demanda conjunta?
La controversia procesal se centra en tres enfoques sobre cómo el entrenamiento de IA podría infringir derechos de autor:
El estudio aporta una evidencia elocuente a patrocinio del segundo punto: que el propio maniquí contiene partes sustanciales de obras protegidas. De hecho, un referencia nuevo de la Oficina de Derechos de Autor de EE. UU. respalda esta interpretación, al afirmar que los pesos de un maniquí podrían considerarse copias infractoras si reproducen "porciones relevantes de contenido protegido".
Con este descubrimiento, el argumento enarbolado por las tecnológicas de que la memorización era un 'comportamiento insignificante', y que los modelos son solo 'estudiantes' estadísticos, queda desacreditado frente a la evidencia empírica de copiado fiel.
En medio de esto, Meta enfrenta una crisis interna: ha perdido a la mayoría de los científicos que desarrollaron la primera LLaMa, ha retrasado el extensión de su nuevo maniquí 'Behemoth' de 2 billones de parámetros, y ha hecho una arriesgada inversión de 14.000 millones de dólares en Scale AI para sostener su dependencia de suministro de datos.
Vía | Understanding AI
Imagen | Marcos Merino mediante IA
En Genbeta | Acusan a Midjourney de plagiar y se filtra una nómina de miles de artistas de todas las épocas que, supuestamente, se usan para la IA
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!