ARTDEPARTMENT
Internet está bajo ataque. No por ciberdelincuentes, sino por una avalancha de bots de IA que consumen encantado de facción a un ritmo sin precedentes. El objetivo de estos bots es el de rastrear y cosechar contenido masivo para proveer modelos de lengua y generadores de imágenes. Pero el precio lo están pagando, entre otros, pilares del conocimiento amplio como Wikimedia, así como miles de desarrolladores de software libertado.
Desde principios de 2024, la Fundación Wikimedia ha registrado un aumento del 50% en el consumo de su encantado de facción, (especialmente en su repositorio multimedia Wikimedia Commons). En algunos momentos, como tras la crimen del expresidente de EE.UU. Jimmy Carter, este exceso de tráfico derivó en la saturación de conexiones y tiempos de carga lentos para los lectores.
Por desgracia, no se negociación de una crisis de interés por parte de sus usuarios humanos: la mayoría del tráfico proviene de bots automatizados —muchos sin identificar— que extraen imágenes, textos y vídeos para entrenar modelos de IA.
En términos prácticos, esto significa que un número creciente de conexiones a sus servidores centrales (el 65%, a estas gloria) están siendo ocupadas por rastreadores que ignoran los límites establecidos, como el archivo 'robots.txt', que tradicionalmente ha servido para regular los accesos automatizados.
Wikimedia se cimiento en un maniquí de “conocimiento como servicio”. Su contenido es gratis y independientemente reutilizable, lo que ha sido esencia para el incremento de buscadores, asistentes de voz y ahora modelos de IA. Pero, como la propia fundación ha notorio:
"El contenido es gratuito, pero nuestra infraestructura no lo es".
La situación es similar —o incluso más crítica— en el mundo de los pequeños proyectos de software libertado, mantenidos por comunidades o desarrolladores individuales, están viendo cómo sus posibles se agotan por el tráfico generado por bots de IA, lo que genera que se disparen los gastos, o aceptablemente que los proyectos queden temporalmente offline.
Gergely Orosz, desarrollador y autor de 'The Software Engineer's Guidebook', vio cómo el uso de datos se multiplicaba por siete en uno de sus proyectos en cuestión de semanas, forzándolo a retribuir penalizaciones por el exceso de tráfico.
El desarrollador Xe Iaso, por su parte, construyó Anubis, una aparejo que actúa como proxy inverso, obligando a los visitantes de una web a resolver una 'prueba computacional' antiguamente de obtener al contenido. Solo los humanos pueden pasarla (y así obtener al contenido); los bots, no. Él mismo lamenta su limitada utilidad:
"Es inútil intentar cortar bots de IA. Mienten, cambian de identidad, usan IPs residenciales [esto es, no vinculadas a centros de datos] y vuelven una y otra vez".
Sin confiscación, esta aparejo se ha convertido en vírico entre los miembros de la comunidad de código amplio y ha inspirado a muchos otros a implementar soluciones similares.
Más allá de las medidas defensivas, algunos desarrolladores han optado por métodos más agresivos. Herramientas diseñadas por la comunidad (como Nepenthes) o por grandes compañías como Cloudflare (el caso de AI Labyrinth), atrapan a los bots en 'tarpits', o laberintos de contenido copiado o irrelevante (irónicamente todavía generado por IA), provocando que, con cada intento de scraping, desperdicien posibles en emplazamiento de obtener información relevante.
En el fondo de esta crisis hay una contradicción fundamental: la misma comprensión que permitió el auge de la IA está poniendo en aventura la viabilidad de los espacios que la hicieron posible. Las empresas que desarrollan IA se benefician del contenido amplio, pero no contribuyen al mantenimiento de su infraestructura. Esta externalización de costos amenaza la sostenibilidad del ecosistema amplio.
"La permiso de ataque no significa permiso de consecuencias", advierte Wikimedia en su comunicado
El consenso entre las plataformas afectadas es claro: se necesitan nuevas normas de convivencia, así como acuerdos entre empresas de IA y proveedores de contenido amplio que incluyan:
Si no se alcanzan estos consensos, el anciano aventura no es que la IA se quede sin datos, sino que los espacios abiertos que la nutren terminen cerrando sus puertas por agotamiento.
Vía | Wikimedia
Imagen | Marcos Merino mediante IA
Compartir este artículo
Consultoria Personalizada
¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!