Reddit bloquea el archivo de Internet al rastrear sus datos, aquí está por qué

Tabla de contenido

Takeaways de llave de ZDNET

El archivo de Internet ahora solo puede rastrear la página de inicio de Reddit.
El objetivo de Reddit es impedir que las empresas de IA raspen los datos de los usuarios de Reddit.
Los editores (y otros) están demandando a las compañías de IA por infracción de derechos de autor.

Reddit está defendiendo su privacidad de las compañías de inteligencia artificial que están adoptando enfoques rotundos para raspar su contenido.

La plataforma de redes sociales, conocida como un recurso donde los usuarios pueden publicar de forma anónima y encontrar información sobre prácticamente cualquier tema, bloqueará la máquina Wayback de Internet Archive para indexar sus datos en línea, según un informe del lunes desde el borde. El movimiento es en respuesta al descubrimiento de que las empresas de IA, incapaces de raspar datos de Reddit directamente debido a las políticas prohibitivas de la plataforma, han estado recuperando sus datos del contenido indexado en el archivo de Internet y utilizándolo para entrenar modelos.

- Advertisement -[wpcode id="699"]

Wayback Machine ahora solo podrá raspar datos de la página de inicio de Reddit, de acuerdo con el Verge, mientras que el acceso a los perfiles de usuario, comentarios y páginas de detalles de POST se bloqueará.

Lanzado en 1996, Internet Archive es una organización sin fines de lucro que opera una enorme base de datos digitales de contenido web. El archivo se mantiene en parte por Wayback Machine, una pieza de software que se reúne en las páginas web y las conserva cuando aparecieron cuando se recopilaron, como las moscas digitales en el ámbar. Esto sirve como un recurso para los investigadores que estudian la evolución de la cultura en línea y la evidencia forense digital para la aplicación de la ley, entre otros usos.

Leer Usar el sucesor de Meta Ray-Ban me dejó con dos veredictos (y querrás escuchar ambos)

¿Qué significa el movimiento de Reddit?

Reddit ha marcado previamente las preocupaciones relacionadas con el raspado de su contenido con el archivo de Internet, según The Verge. Según los informes, la organización sin fines de lucro también fue notificada antes de que las restricciones de rastreo web comenzaran a entrar en vigencia ayer.

El archivo de Internet aún no ha hecho una declaración oficial sobre cómo planea responder a las nuevas restricciones de Reddit, y al momento de escribir, no ha respondido a la solicitud de comentarios de ZDNET. Sin embargo, el director de Wayback Machine, Mark Graham, ha dicho a múltiples publicaciones que el archivo de Internet «continuará teniendo discusiones continuas sobre este asunto» con Reddit.

- Advertisement -[wpcode id="699"]

Creciente tensión

La decisión informada de Reddit de bloquear Wayback Machine para raspar la mayor parte de su contenido llega durante un momento de tensión creciente entre las compañías de IA y los editores digitales, aunque Reddit es la primera compañía tecnológica en meterse en el debate. La compañía demandó a Anthrope en junio después de descubrir que la compañía de IA estaba raspando ilegalmente sus datos, pero también ha firmado anteriormente acuerdos de licencia con Google y OpenAI.

(Divulgación: Ziff Davis, la empresa matriz de Zdnet, presentó una demanda de abril de 2025 contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA).

Los desarrolladores de IA requieren acceso a los gigantescos tocadores de información para entrenar modelos de IA generativos, que están diseñados para identificar y replicar patrones matemáticos sutiles obtenidos de esos conjuntos de datos de entrenamiento.

Leer Deepseek presenta una nueva técnica para modelos de recompensa de IA más inteligentes y escalables

Muchas de esas compañías han raspado datos de capacitación de sitios web disponibles públicamente, incluidos los sitios de redes sociales y los medios de comunicación, reclamando la inmunidad legal bajo un concepto conocido en la ley de derechos de autor como uso justo. (Los tribunales todavía están desenredando la legitimidad de ese argumento, y probablemente lo harán por algún tiempo).

Muchas de las organizaciones cuyo contenido ha sido raspada copiosamente, junto con una cohorte de autores y otros artistas, han respondido con demandas.

Mientras tanto, otros han firmado acuerdos de licencia de contenido con los gustos de OpenAi, Anthrope y Google, que consienten el uso de los datos de sus organizaciones a cambio de una mayor visibilidad en las respuestas generadas por los chatbots u otros beneficios.