Meta descargó 81,7 TB de libros con copyright para su IA

Publicado el

febrero 7, 2025

Hace unos días veíamos que Meta entrenó a su chatbot usando libros con copyright sacados de una web de descargas y que fue con el visto bueno de Mark Zuckerberg. Documentos recientemente desclasificados en el caso Kadrey vs. Meta revelan que la empresa habría utilizado obras protegidas por derechos de autor... Y hoy se han descubierto nuevas informaciones más concretas al respecto.

El proceso justo Kadrey contra Meta acusa a la empresa de redes sociales de tener utilizado obras protegidas por los derechos de autor para entrenar sus modelos de inteligencia fabricado. Y ahora se ha podido enterarse que lo hacían desde BitTorrent.

Incluso, como recoge Xataka, Nikolay Bashlykov, uno de los responsables de padecer a término esta cosecha de datos, llegó a bromear con sus compañeros (en abril de 2023) que "descargar con torrents desde un portátil de la empresa no parece buena idea" recordando que la empresa debería tener cuidado con la IP desde la que descargaban los datos.

BitTorrent: ¿qué es y cómo funcionan los torrents?

La enorme cantidad de datos

El mes pasado, Meta admitió tener descargado mediante torrent un controvertido conjunto de datos de gran tamaño conocido como LibGen, que incluye decenas de millones de libros con derechos de autoría. Pero los detalles en torno a los torrents eran confusos hasta ayer, cuando los correos electrónicos sin redactar de Meta se hicieron públicos por primera vez.

La nueva evidencia mostró que Meta transfirió "al menos 81,7 terabytes de datos a través de múltiples bibliotecas paralelas a través del sitio Anna's Archive, incluidos al menos 35,7 terabytes de datos de Z-Library y LibGen", según la presentación sumarial de los autores.

GPT-4 ofrece abiertamente contenido protegido por copyright. Otras IA disimulan mucho mejor: las conclusiones de este estudio

Y "Meta igualmente había descargado previamente 80,6 terabytes de datos de LibGen". "La magnitud del esquema ilegal de descarga de torrents de Meta es asombrosa", afirmaron los autores en su presentación, insistiendo en que "actos de piratería de datos mucho más pequeños (casi nada el 0,008 por ciento de la cantidad de obras protegidas por derechos de autor que descargó ilegalmente Meta) han cubo ocasión a que los jueces remitan la conducta a la oficina del fiscal de Estados Unidos para una investigación penal", como recoge Arstechnica.

"Meta actuó como una sanguijuela"

Como recoge el documento, hecho sabido, sobre este caso justo, el representante corporativo de Meta admitió que la empresa no solo descargó el archivo creado ilegalmente conjunto de datos conocido como LibGen, sino que igualmente lo cargó vía torrent. Esta información se puede acertar en las páginas 4 y 5.

"En otras palabras, al descargar LibGen y los cientos/miles de programas pirateados con derechos de autor, obras que contiene para su uso en el entrenamiento de LLaMA, Meta actuó como una “sanguijuela”, como se le conoce a un descargador de este tipo", como describe el documento.

Junto a opinar que, como recoge Xataka, Meta ha presentado una moción para desestimar esas acusaciones indicando que no había evidencias de que ningún tomo fuera descargado por empleados de Meta a través de Torrent o que fueran distribuidos luego por Meta.

Qué es LibGen

Como ya habíamos gastado el pasado mes, en documentos presentados frente a el Tribunal de Distrito de Estados Unidos para el Distrito Ideal de California, el demandante reiteró el refrendo de Meta de fines del año pasado, revelando que Zuckerberg aprobó el uso de un conjunto de datos conocido como LibGen para el entrenamiento relacionado con LLaMA. LibGen es considerado un "agregador de enlaces" que ofrece una amplia abanico de publicaciones académicas con derechos de autor.

De acuerdo con Aibase, "a pesar de indisponer demandas y órdenes judiciales por violación de derechos de autor, el sitio continúa ofreciendo obras de importantes editoriales como Cengage Learning y McGraw Hill".

OpenAI transcribió más de un millón de horas de vídeos de YouTube para entrenar GPT-4 esquivando su política de uso, según NYT

Ya desde Genbeta explicamos que Library Genesis, conocida popularmente como 'LibGen', es un motor de búsqueda que facilita el golpe sin cargo a libros, artículos científicos y otros contenidos protegidos por derechos de autor. Aunque su golpe ha sido bloqueado en varios países y se ha enfrentado a múltiples demandas judiciales, LibGen sigue operando mediante dominios alternativos, a imagen y dependencia de Sci-Hub o Z-Library.

Ya en el año 2023 un corro de destacados escritores, encabezado por el escritor y novelista Michael Chabon (premio Pulitzer 2001) y por el dramaturgo David Henry Hwang, presentaron sendas demandas en los juzgados de San Francisco contra dos gigantes de la tecnología, OpenAI y Meta. ¿El motivo? Que consideran que sus libros han sido usados —sin autorización, claro está— para entrenar los modelos de idioma desarrollados por ambas compañías (ChatGPT y LLaMa 2, respectivamente).

Imagen | Genbeta

Vía | Xataka

En Genbeta | Qué fue de Alexandra Elbakyan, la 'Robin Hood' que puso patas en lo alto la ciencia con Sci-Hub, una Z-Library de 'papers'

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

Meta descargó 81,7 TB de libros con copyright para su IA

La enorme cantidad de datos

"Meta actuó como una sanguijuela"

Qué es LibGen

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes

Meta descargó 81,7 TB de libros con copyright para su IA

La enorme cantidad de datos

"Meta actuó como una sanguijuela"

Qué es LibGen

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Por favor, complete este formulario, a la brevedad no estaremos contactando con usted.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes