Encontré 3 detectores de contenido de IA que identifican texto de IA el 100 % del tiempo, y una opción aún mejor

Publicado el:

spot_img
- Advertisment -spot_img

Siga ZDNET: Agréganos como fuente preferida en Google.


Conclusiones clave de ZDNET

  • Usar una IA para escribir es plagio.
  • Los servicios comercializados como detectores de contenido de IA son heterogéneos.
  • Nuestras pruebas muestran que los chatbots funcionan tan bien o mejor que las herramientas independientes.

¿Qué tan difícil será en 2025, apenas tres años después de que la IA generativa acaparó la atención mundial, luchar contra el plagio generado por la IA?

- Advertisement -[wpcode id="699"]

Esta es una versión completamente actualizada de mi artículo de enero de 2023 sobre detectores de contenido de IA. Cuando probé estos detectores por primera vez, el mejor resultado fue un 66% correcto en uno de los tres verificadores disponibles. Mi siguiente serie de pruebas, en febrero de 2025, utilizó hasta 10 fichas, y tres de ellas obtuvieron puntuaciones perfectas. En abril, apenas un par de meses después, cinco detectores obtuvieron puntuaciones perfectas.

Pero ahora, aproximadamente medio año después, la calidad ha disminuido. Sólo tres detectores de contenido lograron una puntuación perfecta (incluido un jugador nuevo). Un par de detectores de contenido que superaron nuestras pruebas disminuyeron en calidad, casi al mismo tiempo que también agregaron restricciones de uso gratuito.

Pero no temas. En esta ronda de pruebas, hemos probado algo nuevo que puede eliminar por completo la necesidad de detectores de contenido independientes: su amigable chatbot de vecindario.

Qué estoy probando y cómo lo estoy haciendo

Pero antes de continuar, analicemos el plagio y cómo se relaciona con nuestro problema. Merriam-Webster define «plagiar» como «robar y hacer pasar (las ideas o palabras de otro) como propias; usar (la producción de otro) sin dar crédito a la fuente».

- Advertisement -[wpcode id="699"]

Esta definición se ajusta bien al contenido creado por IA. Si bien alguien que usa una herramienta de IA como Notion AI o ChatGPT no está robando contenido, si esa persona no da crédito a las palabras como provenientes de una IA y las reclama como propias, aún así cumple con la definición de plagio del diccionario.

Para probar los detectores de IA, estoy usando cinco bloques de texto. Dos fueron escritos por mí y tres por ChatGPT. Para probar un detector de contenido, introduzco cada bloque en el detector por separado y registro el resultado. Si el detector es correcto, considero superada la prueba; si está mal, lo considero fallido.

Cuando un detector proporciona un porcentaje, trato cualquier valor superior al 70% como una fuerte probabilidad, ya sea a favor de contenido escrito por humanos o por IA, y considero que esa es la respuesta del detector. Si desea probar usted mismo un detector de contenido utilizando los mismos bloques de texto, puede extraerlos de este documento.

Los resultados generales (detectores de contenido)

Para evaluar los detectores de IA, volví a realizar mi serie de cinco pruebas en 11 detectores. En otras palabras, corté y pegué 55 pruebas individuales (tenía una lote de café).

Los detectores que probé incluyen MarcaBien, Copyleaks, Detector de salida GPT-2, GPTZero, gramaticalmente, Mónica, Originalidad.ai, QuillBot, Indetectable.ai, escritor.comy CeroGPT.

Anteriormente eliminamos Writefull de nuestras pruebas porque descontinuó su detector GPT. Esta vez tuvimos que dejarlo. Mónica de nuestras pruebas. El detector solo permitiría probar 250 palabras y luego, una vez que redujimos nuestras pruebas para adaptarlas, informó que había limitado las herramientas de prueba sin una actualización de $200. En su lugar, agregamos Pangram, un recién llegado a nuestras pruebas que inmediatamente saltó al círculo de ganadores.

Leer  Waymo responde a los informes del uso de cámaras interiores del vehículo para anuncios específicos

Esta tabla muestra los resultados generales. Como puede ver, cinco detectores identificaron correctamente texto humano y de IA en todas las pruebas.

- Advertisement -[wpcode id="699"]

Intenté determinar si había un patrón tangible de mejora a lo largo del tiempo, así que construí un gráfico comparando el conjunto de cinco pruebas a lo largo del tiempo. Hasta ahora he publicado esta serie seis veces, pero no hay una tendencia fuerte. Aumenté la cantidad de detectores probados y cambié algunos, pero el único resultado consistente es que la Prueba 5 se identificó de manera confiable como humana en todos los detectores y fechas, e incluso eso disminuyó en confiabilidad para esta ejecución.

Continuaré realizando pruebas con el tiempo y, con suerte, veré una tendencia ascendente constante en la confiabilidad.

Si bien ha habido algunas puntuaciones perfectas, no recomiendo confiar únicamente en estas herramientas para validar contenido escrito por humanos. Como se muestra, los escritos de hablantes no nativos a menudo se califican como generados por una IA.

Aunque en esta ronda mi contenido hecho a mano ha sido calificado en su mayor parte como escrito por humanos, un detector (GPTZero) se declaró demasiado incierto para juzgarlo, y otro (Copyleaks) declaró que fue escrito por IA. Los resultados son tremendamente inconsistentes entre los sistemas.

En pocas palabras: recomendaría precaución antes de confiar en los resultados de cualquiera (o todas) de estas herramientas.

Resultados generales (chatbots de IA)

Pero, de nuevo, ¿por qué utilizar un detector de contenido? ¿Qué pasaría si los chatbots que usamos todos los días también pudieran detectar contenido y no tuvieras que pagar otra tarifa de IA? Averigüemos.

Como puedes ver, los chatbots tienen una tasa de éxito mucho mayor que los llamados «detectores de contenido». También puede ver esto en nuestro cuadro comparativo de precisión por etapas. Es cierto que este gráfico solo rastrea esta primera ronda de pruebas, pero incluso aquí, puede ver que los resultados de cada prueba tienen una tasa de precisión mucho mayor.

Echemos un vistazo a las pruebas de rendimiento individuales y luego terminaré con algunas recomendaciones.

Cómo se desempeñó cada detector de contenido de IA

Ahora, veamos cada herramienta de prueba individual, enumeradas en orden alfabético.

Detección de contenido BrandWell AI (precisión 40%)

Esta herramienta fue producida originalmente por una empresa de generación de contenido de IA, Content at Scale. Posteriormente migró a MarcaWell.ai, un nuevo nombre para una empresa de servicios de marketing centrada en la IA.

Tenía grandes esperanzas en Brandwell. Después de medio año (que es décadas en tiempo de IA), esperaba que Brandwell mejorara. En cambio, su puntuación general se mantuvo igual, acertando sólo dos de cinco pruebas. La Prueba 2, que fue escrita por ChatGPT, lo confundió y luego declaró que las otras dos pruebas escritas por IA estaban escritas por un humano. Para la Prueba 4, hizo casi todo lo posible, declarando que toda la prueba escrita por IA estaba escrita por humanos excepto una línea.

Bueno, no hemos tenido un comienzo auspicioso. Pero ahora estamos a punto de comenzar a probar Copyleaks, que la semana pasada me envió un comunicado de prensa declarando «Copyleaks reconocido como el detector de IA más preciso». A ver, ¿vale?

Copyleaks (precisión 80%)

En abril de 2025, Copyleaks se declaró «el detector de IA más preciso con más del 99% de precisión». Se reescribe la afirmación de que tiene «99% de precisión respaldada por estudios independientes de terceros». Sí, no tanto. Copyleaks identificó la Prueba 1, la escritura que hice (y la última vez que verifiqué, soy mayoritariamente humano) como escrita 100% por IA.

Y, en caso de que pienses que mi escritura se parece demasiado a la IA para ser considerada humana, incluso Brandwell identificó la Prueba 1 como escrita por humanos. Quiero decir, supongo que está bien que el personal de marketing de la empresa diga que es el mejor de todos los tiempos, pero no. No precisamente.

Leer  Google Discover agrega resúmenes de IA, amenazando a los editores con más disminuciones de tráfico

La oferta principal de la empresa es un comprobador de plagio que se vende a instituciones educativas, editores y empresas que buscan garantizar la originalidad del contenido y mantener la integridad académica.

Detector de salida GPT-2 (precisión 60%)

Esta herramienta se creó utilizando un centro de aprendizaje automático administrado por una empresa de inteligencia artificial con sede en Nueva York. abrazando la cara. Si bien la empresa ha recibido 40 millones de dólares en financiación para desarrollar su biblioteca de lenguaje natural, la detector GPT-2 parece ser una herramienta creada por el usuario utilizando la biblioteca Hugging Face Transformers. No ha habido cambios en su calidad de detección desde la última vez que lo probamos, pero como tiene GPT-2 en su nombre y OpenAI tiene hasta GPT-5, probablemente sea justo asumir que la herramienta no ha visto una actualización desde que se publicó por primera vez.

GPTZero (Precisión 80%)

GPTZero claramente ha ido creciendo. Cuando lo probé por primera vez, el sitio era básico: ni siquiera estaba claro si GPTZero era una empresa o simplemente el proyecto apasionante de alguien. Ahora, la empresa cuenta con un equipo completo con la misión de «proteger lo humano». Ofrece herramientas de validación de IA y un verificador de plagio.

GPTZero parece estar realizando algunos retoques con regularidad, pero no estoy seguro de que esté ayudando. El rendimiento disminuyó un poco desde una prueba anterior hasta la prueba justo antes de la de hoy. Esta vez, la calificación final fue la misma, pero los resultados de la prueba cambiaron. En abril, realizó la Prueba 1 incorrecta y la Prueba 2 correcta. Esta vez, acertó la Prueba 1 y equivocó la Prueba 2. La prueba 1 es mi escritura y la prueba 2 proviene de ChatGPT.

Gramaticalmente (precisión 40%)

gramaticalmente es bien conocido por ayudar a los escritores a producir contenido gramaticalmente correcto; eso no es lo que estoy probando aquí. Grammarly puede comprobar si hay plagio y contenido de IA. La compañía ahora muestra que el verificador de contenido de IA ya no está en versión beta. Pero eso es un error de su parte. No ha habido ninguna mejora desde la última vez que lo comprobé.

Por ejemplo, lo siguiente fue escrito íntegramente por ChatGPT. Debo decir que estoy sorprendido. Grammarly tiene la reputación de ser una empresa de análisis de texto muy avanzada en IA. ¿Pero ninguna mejora? Qué lástima, amigo.

No estoy midiendo la precisión del verificador de plagio aquí, pero aunque la precisión de la verificación de IA de Grammarly fue deficiente, el sitio identificó correctamente el texto de prueba como se publicó anteriormente.

Pangrama (Precisión 100%)

Pangram es una empresa relativamente nueva fundada por ingenieros que anteriormente trabajaron en Google y Tesla. El objetivo de la empresa parece ser la detección de IA, en lugar de los habituales detectores de plagio o herramientas de IA «humanizantes» desarrolladas para engañar a editores y profesores. La empresa ofrece cinco pruebas gratuitas al día, que se ajustan perfectamente a nuestras necesidades.

El procesamiento fue un poco lento, y entre el momento en que haces clic para escanear y obtienes los resultados, se muestra una pantalla parcialmente blanca durante un poco más de lo que resulta reconfortante. Pero los resultados dicen que la espera valió la pena. Pangram obtuvo una puntuación de cinco sobre cinco.

Originality.ai (Precisión 80%)

Originalidad.ai es un servicio comercial que se anuncia a sí mismo como el «Detector de IA más preciso». La empresa vende créditos de uso: utilicé 30 créditos para este artículo. Venden 2.000 créditos por 12,95 dólares al mes. Bombeé 1.400 palabras a través del sistema y utilicé solo el 1,5% de mi asignación mensual.

Desafortunadamente, su detección de IA más precisa se volvió menos precisa durante esta prueba. Mientras que anteriormente identificó correctamente mi escritura humana en la Prueba 1 como humana, esta vez estaba 100% seguro de que mi escritura humana fue realizada por una IA. Ups.

QuillBot (Precisión 100%)

Las primeras veces que probé QuillBotlos resultados fueron tremendamente inconsistentes: varias pasadas del mismo texto arrojaron puntuaciones tremendamente diferentes. Sin embargo, la última vez fue sólido como una roca y 100% correcto. Prometí que volvería a comprobarlo dentro de unos meses para ver si mantiene este rendimiento. Lo hace. QuillBot una vez más obtuvo una puntuación perfecta del 100%.

Leer  Meta Sues Maker de la aplicación Crush Ai Nudify en los anuncios de Facebook e Instagram

Indetectable.ai (Precisión 20%)

Indetectable.ai’s El gran reclamo es que puede «humanizar» el texto generado por IA para que los detectores no lo marquen. No he probado esa característica; me molesta como autor y educador profesional, porque parece una trampa.

Sin embargo, la compañía también tiene un detector de IA, que sufrió la mayor caída en rendimiento que hemos visto hasta ahora. La última vez, obtuvo una puntuación del 100% en precisión. Esta vez, calificó la escritura humana (Prueba 1) como 60 % de probabilidad de IA, y las tres muestras de escritura de IA como 75 %, 76 % y 77 % de probabilidad de humana. Ah, bueno, supongo que Undetectable está «humanizando» sus resultados, en la medida en que está a la altura de la frase «errar es humano».

Detector de contenido de IA de Writer.com (precisión del 40%)

escritor.com es un servicio que genera redacción de IA para equipos corporativos. Su herramienta AI Content Detector puede buscar contenido generado. Desafortunadamente, su precisión fue baja. Identificó cada bloque de texto como escrito por humanos, aunque tres de las cinco pruebas fueron escritas por ChatGPT. Lamentablemente, no hubo ninguna mejora desde la última vez que visitamos Writer en el verano.

ZeroGPT (Precisión 100%)

CeroGPT ha madurado desde que lo evaluamos por primera vez. En aquel entonces, no figuraba ningún nombre de empresa y el sitio estaba plagado de anuncios de Google y carecía de una monetización clara. El servicio funcionó bastante bien, pero parecía incompleto.

Ese sentimiento incompleto ha desaparecido. ZeroGPT ahora se presenta como un servicio SaaS típico, completo con precios, nombre de la empresa e información de contacto. Su precisión también aumentó: pasó del 80% al 100% este verano y mantuvo esa precisión para nuestra prueba actual.

Cómo se desempeñó cada chatbot de IA

Ahora que hemos visto los detectores de contenido, veamos los chatbots. A cada uno se le dio el siguiente mensaje, seguido del texto a verificar.

Evalúa lo siguiente y dime si fue escrito por un humano o una IA

Todos los detectores de IA siguieron un formato similar, proporcionando una recomendación general sobre si el texto fue escrito por una IA o por un humano. Con la excepción de ChatGPT Plus, que es una suscripción de $20 al mes, ejecuté todos los chatbots en una ventana de incógnito sin iniciar sesión.

Nivel gratuito de ChatGPT

Si bien el nivel gratuito de ChatGPT se equivocó en uno de los bloques de texto (el último escrito por humanos), su análisis del primer bloque de texto realmente me asustó. Tenga en cuenta que se trataba de una ventana de incógnito, sin iniciar sesión y sin información de identificación personal sobre mí.

Sí, no sólo identificó el primer bloque de texto como escrito por humanos, sino que también identificó a mí como el escritor. Quiero decir, sé que estoy en Internet, pero aún así.

ChatGPT Plus, Copilot y Géminis

ChatGPT Plus, Copilot y Gemini obtuvieron puntuaciones perfectas. Cada uno de ellos identificó apropiadamente todos los bloques de prueba como humanos o IA. En mi opinión, esto demuestra que los chatbots pueden superar a los detectores de contenido dedicados.

Grok

Incluí a Grok en este conjunto de pruebas porque obtuvo muy buenos resultados en nuestra evaluación general del chatbot. Desafortunadamente, Grok no pareció asimilar el problema y falló esta prueba con tres de cinco errores. Al igual que algunos de los otros detectores de IA, identificó todos los bloques de escritura como humanos.

¿Es humano o es IA?

¿Qué pasa contigo? ¿Has probado detectores de contenido de IA como Copyleaks, Pangram o ZeroGPT? ¿Qué tan precisos han sido en su experiencia? ¿Ha utilizado estas herramientas para proteger la integridad académica o editorial? ¿Se ha encontrado con situaciones en las que el trabajo escrito por humanos se marcó por error como IA? ¿Hay detectores en los que confíes más que en otros para evaluar la originalidad? Háganos saber en los comentarios a continuación.

Reciba las noticias más importantes de la mañana en su bandeja de entrada todos los días con nuestro Boletín Tech Today.


Puedes seguir las actualizaciones diarias de mi proyecto en las redes sociales. Asegúrate de suscribirte a mi boletín de actualización semanal y sígueme en Twitter/X en @DavidGewirtzen Facebook en Facebook.com/DavidGewirtz, en Instagram en Instagram.com/DavidGewirtz, en Bluesky en @DavidGewirtz.com y en YouTube en YouTube.com/DavidGewirtzTV.

spot_img

Relacionada

Leave a Reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

spot_img