AI no está ‘razonando’ en absoluto: cómo este equipo desacreditó la exageración de la industria

Publicado el:

spot_img
- Advertisment -spot_img

Sigue a ZDNET: Agréganos como fuente preferida en Google.


Takeaways de llave de ZDNET

  • No sabemos por completo cómo funciona la IA, por lo que le atribuimos poderes mágicos.
  • Las afirmaciones de que Gen Ai puede razonar es un «espejismo quebradizo».
  • Siempre debemos ser específicos sobre lo que está haciendo la IA y evitar la hipérbole.

Desde que los programas de inteligencia artificial comenzaron a impresionar al público en general, los académicos de IA han estado haciendo reclamos por el significado más profundo de la tecnología, incluso afirmando la posibilidad de una comprensión humana.

- Advertisement -[wpcode id="699"]

Los académicos se convierten en filosóficos porque incluso los científicos que crearon modelos de IA como el GPT-5 de OpenAI no entienden realmente cómo funcionan los programas, no del todo.

La ‘caja negra’ de AI y la máquina bomba

Los programas de IA como LLM son infamemente «cajas negras». Logran mucho que es impresionante, pero en su mayor parte, no podemos observar todo lo que están haciendo cuando toman una entrada, como un mensaje de su tipo, y producen una salida, como el documento de Término de la Universidad que solicitó o la sugerencia para su nueva novela.

En la violación, los científicos han aplicado términos coloquiales como el «razonamiento» para describir la forma en que funcionan los programas. En el proceso, han implicado o directamente afirmado que los programas pueden «pensar», «razón» y «conocer» de la manera que los humanos.

En los últimos dos años, la retórica ha superado a la ciencia, ya que los ejecutivos de IA han usado hipérbole para torcer lo que fueron simples logros de ingeniería.

- Advertisement -[wpcode id="699"]

Operai’s Comunicado de prensa en septiembre pasado Al anunciar su modelo de razonamiento O1 declaró que «similar a cómo un humano puede pensar durante mucho tiempo antes de responder a una pregunta difícil, O1 usa una cadena de pensamiento al intentar resolver un problema» para que «O1 aprenda a perfeccionar su cadena de pensamiento y refinar las estrategias que usa».

Leer  Por qué los modelos de idiomas grandes omiten las instrucciones y cómo abordar el problema

Fue un paso corto de esas afirmaciones antropomorfizantes a todo tipo de afirmaciones salvajes, como el CEO de Operai, Sam Altman, comentarioen junio, que «pasamos el horizonte del evento; el despegue ha comenzado. La humanidad está cerca de construir una superinteligencia digital».

(Divulgación: Ziff Davis, la empresa matriz de Zdnet, presentó una demanda de abril de 2025 contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA).

La reacción violenta de la investigación de IA

Sin embargo, hay un edificio de reacción de los científicos de IA que desacreditan los supuestos de la inteligencia humana a través del riguroso escrutinio técnico.

En un papel Publicado el mes pasado en el servidor ARXIV preimpresión Y aún no revisados ​​por sus compañeros, los autores, Chengshuai Zhao y sus colegas de la Universidad Estatal de Arizona, desarmaron las afirmaciones de razonamiento a través de un simple experimento. Lo que concluyeron es que «el razonamiento de la cadena de pensamiento es un espejismo frágil», y «no es un mecanismo para la inferencia lógica genuina, sino una forma sofisticada de coincidencia de patrones estructurados».

El término «cadena de pensamiento» (cot) se usa comúnmente para describir el flujo de salida detallado que ve cuando un modelo de razonamiento grande, como GPT-O1 o Deepseek V1, le muestra cómo funciona a través de un problema antes de dar la respuesta final.

Esa corriente de declaraciones no es tan profunda o significativa como parece, escriba Zhao y equipo. «Los éxitos empíricos del razonamiento de COT conducen a la percepción de que los modelos de idiomas grandes (LLM) participan en procesos inferenciales deliberados», escriben.

- Advertisement -[wpcode id="699"]

Pero, «un cuerpo en expansión de análisis revela que los LLM tienden a depender de la semántica y pistas a nivel de superficie en lugar de procedimientos lógicos», explican. «LLMS construye cadenas superficiales de lógica basadas en asociaciones de token aprendidas, a menudo fallando en las tareas que se desvían de la heurística de sentido común o plantillas familiares».

Leer  Gemini Code Assist, Asistente de codificación de IA de Google, obtiene habilidades 'agente'

El término «cadenas de tokens» es una forma común de referirse a una serie de elementos de entrada a un LLM, como palabras o caracteres.

Probar lo que realmente hacen

Para probar la hipótesis de que los LLM son simplemente una coincidencia de patrones, no realmente razonando, entrenaron a la LLM de código abierto de OpenAi, GPT-2, desde 2019, comenzando desde cero, un enfoque que llaman «alquimia de datos».

El modelo fue entrenado desde el principio para manipular las 26 letras del alfabeto inglés, «A, B, C, … etc.». Ese corpus simplificado permite que Zhao y el equipo prueben el LLM con un conjunto de tareas muy simples. Todas las tareas implican manipular secuencias de las letras, como, por ejemplo, cambiar cada letra un cierto número de lugares, de modo que «Apple» se convierte en «EAPPL».

Utilizando el número limitado de tokens y tareas limitadas, Zhao y Team varían las tareas a las que el modelo de idioma está expuesto en sus datos de capacitación versus qué tareas solo se ven cuando se prueba el modelo terminado, como «cambiar cada elemento por 13 lugares». Es una prueba de si el modelo de idioma puede razonar una forma de funcionar incluso cuando se enfrenta a nuevas tareas nunca antes vistas.

Descubrieron que cuando las tareas no estaban en los datos de capacitación, el modelo de lenguaje no logró lograr esas tareas correctamente utilizando una cadena de pensamiento. El modelo AI intentó usar tareas que estaban en sus datos de entrenamiento y su «razonamiento» sonidos Bien, pero la respuesta que generó fue incorrecta.

Como lo expresaron Zhao y el equipo, «LLMS intentan generalizar las rutas de razonamiento basadas en las más similares (…) vistas durante el entrenamiento, lo que lleva a las rutas de razonamiento correctas, pero respuestas incorrectas».

Leer  En qué se equivocó el MIT sobre los agentes de IA: los nuevos datos de G2 muestran que ya están impulsando el retorno de la inversión empresarial

Especificidad para contrarrestar el bombo

Los autores dibujan algunas lecciones.

Primero: «Proteja contra la excesiva dependencia y la falsa confianza», aconsejan, porque «la capacidad de los LLM para producir ‘tonterías fluidas’, plausibles pero lógicamente defectuosas cadenas de razonamiento, puede ser más engañosa y dañina que una respuesta incorrecta, ya que proyecta una aura de confiabilidad falsa».

Además, pruebe las tareas que no sean explícitamente que no sean contenidas en los datos de capacitación para que el modelo de IA se probe con el estrés.

Lo importante del enfoque de Zhao y el equipo es que atraviesa la hipérbole y nos lleva de vuelta a los conceptos básicos de comprender qué está haciendo exactamente la IA.

Cuando la investigación original sobre la cadena de pensamiento «,La provisión de la cadena de pensamiento provoca el razonamiento en modelos de idiomas grandes«, fue realizado por Jason Wei y sus colegas en el equipo de Google Brain de Google en 2022, investigación que desde entonces se ha citado más de 10,000 veces, los autores no hicieron afirmaciones sobre el razonamiento real.

Wei y el equipo notaron que pidieron a un LLM que enumere los pasos en un problema, como un problema de palabra aritmética («Si hay 10 cookies en el frasco, y Sally saca uno, ¿cuántos quedan en el frasco?») Tendió a conducir a soluciones más correctas, en promedio.

Tuvieron cuidado de no afirmar las habilidades humanas. «Aunque la cadena de pensamiento emula los procesos de pensamiento de los razonadores humanos, esto no responde si la red neuronal es realmente el» razonamiento «, que dejamos como una pregunta abierta», escribieron en ese momento.

Desde entonces, las afirmaciones de Altman y varios comunicados de prensa de los promotores de IA han enfatizado cada vez más la naturaleza humana del razonamiento utilizando una retórica informal y descuidada que no respeta la descripción puramente técnica de Wei y del equipo.

El trabajo de Zhao y el equipo es un recordatorio de que debemos ser específicos, no supersticiosos, sobre lo que la máquina realmente está haciendo y evitar afirmaciones hiperbólicas.

spot_img

Relacionada

Leave a Reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

spot_img