Cloudflare quiere poner a buen recaudo el contenido 'humano'

Publicado el

marzo 21, 2025

Los gigantes tecnológicos como OpenAI, Google y Microsoft hacen uso de bots rastreadores diseñados para recoger contenidos de la WWW, con los que poder entrenar sus cada vez más complejos modelos de IA generadores de texto e imagen.

A diferencia de los tradicionales bots que indexan contenidos para buscadores (y que normalmente respetan las limitaciones impuestas por los webmasters sobre qué contenidos son analizables y cuáles no), estos rastreadores de IA actúan con una voracidad indiscriminada, extrayendo textos, imágenes, vídeos y código fuente sin pedir permiso.

Llegados a este punto, la lucha entre creadores y recolectores de datos parece haberse convertido en una carrera armamentista

Por un banda, los gigantes tecnológicos siguen perfeccionando sus técnicas de scraping para escamotear restricciones. Por otro, empresas como Cloudflare y legisladores internacionales están trazando nuevas líneas de defensa. Y, mientras, los nuevos datos de origen humano son cada vez menos.

Los creadores de contenidos están reaccionando

Así, mientras las grandes tecnológicas cosechan datos para construir modelos multimillonarios, los periodistas temen que sus artículos entrenen IAs que luego produzcan textos similares, restando valencia a su cultivo, y los artistas visuales denuncian el uso de sus obras en generadores de imágenes sin consentimiento.

Encima, el parada tráfico de bots impacta afecta al rendimiento de sitios web pequeños, encareciendo la infraestructura necesaria para mantenerse a flote.

OpenAI defiende que la IA coja todo lo que quiera de Internet. Y temen que en unos meses se les acabe el chollo

En respuesta, muchos creadores están optando por colocar sus contenidos detrás de muros de suscripción o eliminarlos por completo de la Red, contribuyendo así a una fragmentación del paso a la información.

En el ámbito constitucional, la Unión Europea ha transmitido un paso fundamental con la implementación de la nueva norma de IA de 2024, que exige consentimiento claro para el uso de contenidos en el entrenamiento de modelos.

En Estados Unidos ya se discute una regulación similar, mientras compañías como The New York Times o Getty Images ya han demandado judicialmente a OpenAI y Stability AI, respectivamente, por el uso no competente de sus contenidos.

Las potenciales consecuencias de la actvidades de estos rastreadores van desde la violación de derechos de autor hasta la explotación de trabajo creativo sin compensación

El contraataque de Cloudflare: un bullicio para desorientar a las IAs

Delante esta situación, la empresa de ciberseguridad Cloudflare (por último en boca de todos por su enfrentamiento con LaLiga) ha emprendedor una innovadora arma defensiva: el AI Labyrinth, una tecnología no bloquea directamente a los bots maliciosos —una logística que suele alertar a los atacantes, que buscan así nuevos medios de lograr—, sino que los engaña redirigiéndolos a un bullicio de páginas falsas generadas por IA.

Estas páginas, creadas con el motor Workers AI, simulan ser reales y están llenas de contenido científicamente válido (para no ayudar a difundir bulos) pero irrelevante y sin relación con el sitio web. Su objetivo: hacer que los crawlers pierdan tiempo y bienes procesando datos inútiles, disminuyendo su eficiencia para entrenar modelos de IA.

La evolución de la IA generativa ha estancado, según uno de los creadores de ChatGPT: 'más' ya no es necesariamente 'mejor'

Encima, al identificar bots que siguen enlaces invisibles ocultos en la estructura del sitio (que un humano no vería ni visitaría), el sistema los marca automáticamente como maliciosos, mejorando la cojín de datos de Cloudflare sobre 'actores hostiles'... y (toma ironía), permitirá entrenar modelos de IA dedicados a mejorar la detección futura de bots.

La efectividad del AI Labyrinth radica en que no interfiere con la experiencia de los usuarios humanos ni con el SEO del sitio. Las páginas generadas no se indexan en buscadores y los enlaces ocultos son invisibles para navegadores legítimos. Es, en esencia, una trampa invisible diseñada por una IA para cazar otras inteligencias artificiales.

Cloudflare ha integrado esta nueva función como parte de sus servicios CDN ('Content Delivery Network', que viene a ser una período intermedia entre el afortunado y el servidor web), pero lo más relevante es que ya está apto para todos los planes (incluido el de balde) y los webmasters pueden activarla con un solo clic en el panel de control de Cloudflare.

Imagen | Marcos Merino mediante IA

En Genbeta | OpenAI ha utilizado con descaro millones de datos de Internet para entrenar a su IA. Ahora acusa a DeepSeek de robarles a ellos

Source link

Compartir este artículo

[social_warfare]

Consultoria Personalizada

¡Si aun no tienes presencia en internet o
necesitas ayuda con tus proyectos, por favor, escribenos!

Enviar Consulta Gratis

Más para leer

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

En ARTDEPARTMENT nos especializamos en brindar soluciones para que tu negocio, empresa o proyecto sea visible en internet.

Cloudflare quiere poner a buen recaudo el contenido 'humano'

Los creadores de contenidos están reaccionando

El contraataque de Cloudflare: un bullicio para desorientar a las IAs

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes

Cloudflare quiere poner a buen recaudo el contenido 'humano'

Los creadores de contenidos están reaccionando

El contraataque de Cloudflare: un bullicio para desorientar a las IAs

Los grandes líderes tecnológicos ya no niegan que la burbuja de la IA pueda ser real. En vez de pincharla, piden ayuda

Gemini 3 Pro: La Nueva Era Agéntica de Google DeepMind

la mayor exposición de datos de la historia

Por favor, complete este formulario, a la brevedad no estaremos contactando con usted.

Diseño WEB

Hosting

Google Ads

WordPress

Posicionamiento SEO

Nuestras Redes