La perplejidad dice que las acusaciones de Cloudflare de raspado de IA 'sigiloso' se basan en errores vergonzosos

Tabla de contenido

Takeaways de llave de ZDNET

Cloudflare afirma que la perplejidad ignora los deseos de los sitios web en su búsqueda de contenido.
Otras compañías de inteligencia artificial, como OpenAi, no limpian el contenido, dice Cloudflare
Cloudflare ahora ofrece servicios para bloquear agresivos rastreadores de IA.
La perplejidad niega las afirmaciones de Cloudflare.

Cloudflare, una compañía líder de la red de entrega de contenido (CDN), ha acusado a la perplejidad de la startup de IA de evadir las directivas de «no rastrear» de los sitios web al implementar sigilosamente rastreadores web para raspar contenido de sitios que han bloqueado explícitamente sus bots oficiales.

Si eso suena familiar, has escuchado estas acusaciones antes. El año pasado, Wired y Forbes acusaron a la perplejidad de hacer lo mismo con sus sitios.

- Advertisement -[wpcode id="699"]

Cómo la perplejidad supuestamente pasa por alto las directivas ‘sin rastreo’

Según Cloudflare, cuando el rastreador web de Perplexity encuentra un archivo robots.txt robots, que los sitios usan para bloquear su contenido de ser arrastrado, la perplejidad pretende ser un navegador web de Chrome ordinario en una Mac. Esto le permite evitar las barreras BOT.

Cloudflare comenzó a investigar cuándo recibió quejas de clientes que «habían rechazado la actividad de rastreo de perplejidad en sus archivos de robots. Los clientes dijeron que su contenido aún terminó en perplejidad, incluso después de haberlo bloqueado.

El CDN luego configuró los nuevos dominios de prueba, prohibiendo explícitamente todo el acceso automatizado en sus archivos robots.txt y a través de reglas de WAF específicas que bloquearon el rastreo de los rastreadores reconocidos de Perplexity. Cloudflare descubrió que la perplejidad usaría múltiples direcciones IP que no figuran en su rango IP oficial y girarían a través de estos IP para colarse en el contenido y los registros de los sitios.

Leer El GLM-5 de código abierto de z.ai logra una tasa de alucinaciones récord y aprovecha la nueva técnica de 'limo' de RL

«Además de las IP giratorias, observamos solicitudes provenientes de diferentes números de sistema autónomo (ASNS) para evadir los bloques de sitios web», dijo Cloudflare. «Esta actividad se observó a través de decenas de miles de dominios y millones de solicitudes por día».

- Advertisement -[wpcode id="699"]

El resultado? Cloudflare dijo que observaba que «la perplejidad no solo accedía a dicho contenido, sino que pudo proporcionar respuestas detalladas al respecto cuando los usuarios considera».

El plan de Cloudflare para detener la perplejidad

En el futuro, CloudFlare ha afirmado que su sistema de gestión de bot puede detectar y bloquear el agente de usuarios ocultos de Perplexity. Cualquier cliente de gestión de BOT que tenga una regla de bloque existente ya está protegida.

Si no desea bloquear dicho tráfico en los motivos de que podría ser de usuarios reales, puede configurar reglas para desafiar las solicitudes. Esto permite que los humanos reales continúen. Los clientes con reglas de desafío existentes ya están protegidos.

Finalmente, Cloudflare ha agregado coincidencias de firma para el rastreador sigiloso a su regla administrada, que bloquea la actividad de arrastre de IA. Esta regla está disponible para todos los clientes de CloudFlare, incluidos los usuarios gratuitos.

Cloudflare señaló que OpenAI obedece las restricciones Robots.txt y no intenta entrar en los sitios web. Dicho esto, Ziff Davis, la empresa matriz de ZDNet, presentó una demanda de abril de 2025 contra OpenAI, alegando que infringió los derechos de autor en la capacitación y la operación de sus sistemas de IA.

Cloudflare ha comenzado a ofrecer a sus clientes la opción de bloquear automáticamente todos los rastreadores de IA. Para complementar el movimiento para bloquear los rastreadores de IA, Cloudflare también ha lanzado su programa de pago por rastreo, lo que permite a los editores establecer tarifas para las compañías de IA que desean raspar su contenido.

- Advertisement -[wpcode id="699"]

Leer Mathgpt.ai, el tutor de 'a prueba de trucos' y asistente de enseñanza, se expande a más de 50 instituciones

Esto sigue a numerosas ofertas en las que las empresas de los medios permiten que las compañías de IA usen legalmente su contenido para capacitar a sus grandes modelos de idiomas (LLM). Los ejemplos incluyen The New York Times con Amazon, The Washington Post con OpenAI y Perplexity with Gannett Publishing.

Mientras tanto, la perplejidad parece continuar rompiendo las reglas en su búsqueda de contenido. ZDNET ha preguntado por perplejidad sobre las afirmaciones de Cloudflare, pero la compañía no ha respondido.

Perplejidad retrocede

Desde entonces, la perplejidad ha anunciado pública y en voz alta que Cloudflare lo tiene todo mal. En una publicación de blog, la perplejidad afirma:

Esta controversia revela que los sistemas de Cloudflare son fundamentalmente inadecuados para distinguir entre asistentes de IA legítimos y amenazas reales. Si no puede decirle a un asistente digital útil de un raspador malicioso, entonces probablemente no debería tomar decisiones sobre lo que constituye un tráfico web legítimo.

¡Esas son palabras de lucha! Además, la perplejidad afirma: «Los errores técnicos en el análisis de Cloudflare no solo son vergonzosos: están descalificando. Cuando atribuye mal a millones de solicitudes, publica diagramas técnicos completamente inexactos y demuestra un malentendido fundamental de cómo funcionan los asistentes de IA modernos, ha perdido cualquier reclamo a la experiencia en este espacio».

Esta pelea está en marcha. Estén atentos para lo que sigue en esta batalla entre un gigante de Internet y una potencia de IA.

¿Quieres más historias sobre AI? Verificar Tabla de clasificación de IAnuestro boletín semanal.