El final del acceso gratuito: los medios se rebelan contra los bots de IA

Durante años, el acceso abierto al contenido web fue una convención tácita: si estaba en línea y no había un muro de pago, era indexable, rastreable, legible por humanos y por máquinas. Un equilibrio funcional, heredado de los inicios optimistas de la red, sostenía la promesa del conocimiento compartido. Pero las reglas de ese pacto implícito cambiaron sin previo aviso. Lo que antes era apertura hoy se percibe como vulnerabilidad. Y la web, tal como la conocíamos, comienza a cerrarse… aunque no para cualquier forma de acceso.
Ya no son solo humanos quienes visitan los sitios. Los agentes automatizados, diseñados por empresas de inteligencia artificial, han multiplicado su presencia de forma silenciosa pero abrumadora. ClaudeBot, GPTBot, Perplexity AI: sus rastreos representan ya una proporción alarmante del tráfico global. Y lo hacen muchas veces sin consentimiento, sin trazabilidad y sin devolver valor alguno a las fuentes. Ante ello, los medios de comunicación —desde blogs técnicos hasta grandes cabeceras— han comenzado a trazar líneas rojas. Se acabó la gratuidad algorítmica.
Bots desobedientes: el colapso del sistema robots.txt
El protocolo robots.txt fue, durante décadas, el guardián invisible del acceso automatizado. Un archivo simple, alojado en la raíz de los sitios web, servía como «aviso» para que los bots respetaran ciertas normas: no entres aquí, no indexes aquello. Y durante mucho tiempo funcionó, porque la web operaba bajo un sistema de honor no escrito y los agentes más importantes (Googlebot, Bingbot) lo cumplían.
Pero la era de la IA generativa ha quebrado ese equilibrio. Según el informe de TollBit del segundo trimestre de 2025, más del 13 % de los bots de IA ignoran directamente las directrices de robots.txt. Esto equivale a decenas de millones de visitas no autorizadas al mes, incluso en sitios que explícitamente niegan el acceso.
Algunos casos resultan escandalosos: ClaudeBot llegó a realizar casi un millón de solicitudes en 24 horas a iFixit y 3,5 millones en cuatro horas a Freelancer.com. Se comporta menos como un visitante y más como una fuerza extractiva, sin pausa ni retorno. Lo más preocupante no es solo la magnitud, sino la opacidad: muchos bots ocultan su identidad, rotan sus direcciones IP o modifican su user-agent para esquivar bloqueos.
El user-agent es una cadena de texto que los navegadores y bots envían al servidor web cuando acceden a un sitio. Su función es identificar quién accede, desde qué dispositivo, sistema operativo o tipo de software. Por ejemplo, un navegador Chrome en Windows enviará un user-agent que indica eso mismo.
En el caso de los bots, el user-agent permite al sitio saber si la solicitud proviene de Googlebot, Bingbot, ClaudeBot, etc. Esto es lo que hace posible aplicar reglas específicas en el archivo robots.txt o configurar respuestas diferenciadas.
Modificar el user-agent —como hacen algunos bots de IA para evitar bloqueos— implica ocultar su verdadera identidad, y por tanto, violar la confianza mínima sobre la que se sostiene el tráfico web automatizado.
Lo que antes era una red de confianza se ha convertido en una arquitectura de evasión sistemática.
Muros de pago para máquinas: nace una economía del rastreo
Ya lo advertíamos hace unos meses en este mismo espacio: el modelo de pay per crawl marcaría un cambio profundo en la arquitectura económica de internet. Hoy, esa predicción se materializa con contundencia. Herramientas como TollBit y servicios de infraestructura como Cloudflare han transformado el bloqueo en un mercado. No se trata solo de impedir la entrada a los bots: ahora se les cobra por hacerlo.
El sistema funciona de manera similar a los muros de pago tradicionales, pero adaptado a agentes no humanos. Si un bot desea acceder a contenido protegido, es redirigido al Bot Paywall, donde debe identificarse y aceptar condiciones de licencia: pago por acceso, trazabilidad de uso y, en algunos casos, reparto de ingresos. Cloudflare ha llegado a implementar el código HTTP 402 (Payment Required), un antiguo estándar casi en desuso que hoy cobra vida ante esta nueva realidad.
Los números son reveladores: el tráfico redirigido al paywall de bots creció más de un 700 % entre finales de 2024 y comienzos de 2025. Solo en el primer trimestre del año, TollBit bloqueó o redirigió casi 100 millones de solicitudes de IA. No estamos ante un simple ajuste técnico, sino ante el surgimiento de una economía algorítmica explícita, donde el acceso automatizado deja de ser libre por defecto.
Más allá del entrenamiento: la era RAG intensifica el conflicto
Hasta hace poco, la mayoría del scraping servía para entrenar modelos de lenguaje: una absorción masiva y única de millones de páginas web. Pero el paradigma ha cambiado. Hoy, las IA utilizan RAG (Retrieval-Augmented Generation), un método que combina el conocimiento previamente entrenado con información en tiempo real. En otras palabras, ya no se trata solo de aprender de internet, sino de leerla constantemente para responder preguntas.
Esto genera una presión brutal sobre los servidores. Algunos bots alcanzan las 39 000 solicitudes por minuto, simulando virtualmente un ataque DDoS, aunque su intención sea simplemente «consultar fuentes». Según Fastly, el 80 % del tráfico de bots de IA ya procede de rastreadores diseñados para este acceso dinámico. Y lo más grave: Norteamérica concentra el 90 % de estas visitas, lo que no solo recarga su infraestructura, sino que acentúa el sesgo geográfico de los datos.
El uso de RAG plantea una paradoja: la IA exige contenido actualizado, pero no devuelve visitas. Por cada 200 000 solicitudes de un bot de OpenAI, los editores reciben apenas 200 visitas humanas, según datos de TollBit. Es decir, el modelo captura contexto sin generar tráfico, rompe la cadena de valor y se apropia de una parte de la web sin contribuir a su sostenimiento.
Redistribuir poder, no bloquear el futuro
Ante este panorama, algunos ven en el bloqueo masivo una forma de resistencia. Pero el verdadero debate no es binario. No se trata de impedir el desarrollo de la IA, sino de establecer condiciones justas para el uso de contenido. Tal como ocurrió en el inicio del streaming, cuando los creadores reclamaron licencias, compensaciones y derechos sobre su obra, los medios hoy exigen algo similar: un modelo trazable, compensado y transparente.
El caso del New York Times contra OpenAI es solo la punta del iceberg. Cada vez más medios exploran vías legales y técnicas para reclamar lo que les pertenece. Lo que antes era indexación hoy es apropiación. Lo que antes era exposición hoy es sustitución. Y eso tiene un precio.
La aparición de estándares como Really Simple Licensing (RSL) va en esa dirección: crear un marco común en el que los bots puedan identificar condiciones de uso, pagar por lo que consumen y devolver información sobre cómo emplean los datos. En lugar de una guerra de exclusiones, surge la posibilidad de un nuevo contrato social algorítmico.
Del scraping al consentimiento: una transición inevitable
Lo que está ocurriendo no es un accidente, sino una mutación estructural. La web fue diseñada para humanos curiosos y bots educados. Pero hoy, el lector típico ya no es humano: no tiene ojos ni conciencia, solo instancias de consulta. Frente a ello, los medios trazan un límite: el acceso no autorizado deja de ser tolerable cuando quien te lee no es un lector, sino un extractor.
La resistencia actual no es tecnofóbica. Es defensiva, sí, pero también propositiva. No busca frenar la IA, sino redistribuir las reglas de juego en un entorno donde el contenido se ha convertido en materia prima. La transformación en curso no es menor: marca el paso de una web gratuita por defecto a una web donde el consentimiento no es un gesto simbólico, sino un requisito operativo.
Quizá nunca volvamos a una internet plenamente abierta. Pero eso no significa que deba ser extractiva. El futuro no pasa por cerrar el acceso, sino por negociarlo en términos justos, explícitos y mutuos. La era del scraping sin consecuencias se acaba. Y con ella muere una idea ingenua de apertura. Lo que viene es una web contractual, con memoria, con trazabilidad… y con facturas por pagar.