El mundo de la inteligencia artificial (IA) se ha preocupado recientemente por el avance de la IA generativa más allá de las simples pruebas que los modelos de IA pasan fácilmente. La famosa prueba de Turing ha sido «derrotada» en cierto sentido, y la controversia continúa sobre si los modelos más nuevos se están construyendo para jugar las pruebas de referencia que miden el rendimiento.
El problema, dicen los académicos de la unidad DeepMind de Google, no son las pruebas en sí mismas, pero la forma limitada de AI se desarrollan. Los datos utilizados para entrenar IA son demasiado restringidos y estáticos, y nunca impulsarán a AI a nuevas y mejores habilidades.
En un artículo publicado por Deepmind la semana pasada, parte de un próximo libro de MIT Press, los investigadores proponen que la IA debe poder tener «experiencias» de algún tipo, interactuando con el mundo para formular objetivos basados en señales del medio ambiente.
«Las nuevas capacidades increíbles surgirán una vez que se aproveche todo el potencial del aprendizaje experimental», escriba a los académicos de DeepMind David Silver y Richard Sutton en el periódico, Bienvenido a la era de la experiencia.
Los dos estudiosos son leyendas en el campo. Silver lideró más la investigación que resultó en Alphazero, el modelo de IA de Deepmind que venció a los humanos en los juegos de ajedrez y Go. Sutton es uno de los dos desarrolladores galardonados de un enfoque de IA llamado Aprendizaje de refuerzo que Silver y su equipo solían crear Alphazero.
El enfoque de los dos académicos defensores se basa en el aprendizaje de refuerzo y las lecciones de Alphazero. Se llama «transmisiones» y está destinado a remediar las deficiencias de los modelos de idiomas grandes (LLM) de hoy, que se desarrollan únicamente para responder preguntas humanas individuales.
Silver y Sutton sugieren que poco después de Alphazero y su predecesor, Alphago, estallaron en la escena, herramientas generativas de IA, como ChatGPT, subieron al escenario y «descartó» el aprendizaje de refuerzo. Ese movimiento tuvo beneficios y inconvenientes.
Gen AI fue un avance importante porque el uso de Alphazero del aprendizaje de refuerzo estaba restringido a aplicaciones limitadas. La tecnología no podría ir más allá de los juegos de «información completa», como el ajedrez, donde se conocen todas las reglas.
Los modelos de Gen AI, por otro lado, pueden manejar la entrada espontánea de los humanos que nunca antes se encontraron, sin reglas explícitas sobre cómo se supone que las cosas deben surgir.
Sin embargo, descartar el aprendizaje de refuerzo significaba: «Algo se perdió en esta transición: la capacidad de un agente para autodescubrir su propio conocimiento», escriben.
En cambio, observan que los LLM «(confían) en el prejuicio humano», o lo que el humano quiere en la etapa rápida. Ese enfoque es demasiado limitado. Sugieren que el juicio humano «impone» un techo impenetrable en el desempeño del agente: el agente no puede descubrir mejores estrategias subestimadas por el evaluador humano.
El juicio humano no solo es un impedimento, sino que la naturaleza corta y recortada de las interacciones rápidas nunca permite que el modelo de IA avance más allá de lo cuestionado y la respuesta.
«En la era de los datos humanos, la IA basada en el lenguaje se ha centrado en gran medida en episodios de interacción cortos: por ejemplo, un usuario hace una pregunta y (tal vez después de algunos pasos de pensamiento o acciones de uso de herramientas), el agente responde», escriben los investigadores.
«El agente apunta exclusivamente a los resultados dentro del episodio actual, como responder directamente a la pregunta de un usuario».
No hay memoria, no hay continuidad entre los fragmentos de interacción en la solicitud. «Por lo general, poca o ninguna información se traslada de un episodio a otro, lo que impide cualquier adaptación con el tiempo», escribe Silver y Sutton.
Sin embargo, en su era de experiencia propuesta, «los agentes habitarán corrientes de experiencia, en lugar de breves fragmentos de interacción».
Silver y Sutton dibujan una analogía entre las corrientes y los humanos que aprenden durante toda una vida de experiencia acumulada, y cómo actúan en función de los objetivos de largo alcance, no solo en la tarea inmediata.
«Los poderosos agentes deben tener su propia flujo de experiencia que progresa, como los humanos, a largo plazo», escriben.
Silver y Sutton argumentan que la «tecnología actual» es suficiente para comenzar a construir corrientes. De hecho, los pasos iniciales en el camino se pueden ver en desarrollos como agentes de IA de navegación web, incluida la investigación profunda de OpenAI.
«Recientemente, una nueva ola de agentes prototipos ha comenzado a interactuar con las computadoras de una manera aún más general, mediante el uso de la misma interfaz que los humanos usan para operar una computadora», escriben.
El agente del navegador marca «una transición de la comunicación exclusivamente privilegiada por humanos, a interacciones mucho más autónomas donde el agente puede actuar de forma independiente en el mundo».
A medida que los agentes de IA van más allá de la navegación web, necesitan una forma de interactuar y aprender del mundo, sugieren Silver y Sutton.
Proponen que los agentes de IA en las corrientes aprenderán a través del mismo principio de aprendizaje de refuerzo que Alphazero. La máquina recibe un modelo del mundo en el que interactúa, similar a un tablero de ajedrez y un conjunto de reglas.
Como el agente de IA explora y toma acciones, recibe comentarios como «recompensas». Estas recompensas entrenan al modelo AI sobre lo que es más o menos valioso entre las posibles acciones en una circunstancia dada.
El mundo está lleno de varias «señales» que proporcionan esas recompensas, si el agente puede buscarlas, sugieren Silver y Sutton.
«¿De dónde provienen las recompensas, si no de los datos humanos? Precisión, potencia, distancia, velocidad, eficiencia o consumo de energía.
Para comenzar el agente de IA desde una fundación, los desarrolladores de IA podrían usar una simulación de «modelo mundial». El modelo mundial permite que un modelo de IA haga predicciones, pruebe esas predicciones en el mundo real y luego use las señales de recompensa para hacer que el modelo sea más realista.
«A medida que el agente continúa interactuando con el mundo a lo largo de su flujo de experiencia, su modelo de dinámica se actualiza continuamente para corregir cualquier error en sus predicciones», escriben.
Silver y Sutton todavía esperan que los humanos tengan un papel en la definición de objetivos, para lo cual las señales y las recompensas sirven para dirigir al agente. Por ejemplo, un usuario podría especificar un objetivo amplio como ‘mejorar mi estado físico’, y la función de recompensa podría devolver una función de la frecuencia cardíaca del usuario, la duración del sueño y los pasos tomados. O el usuario podría especificar un objetivo de ‘ayudarme a aprender español’, y la función de recompensa podría devolver los resultados del examen de español del usuario.
La retroalimentación humana se convierte en «el objetivo de nivel superior» que todo lo demás sirve.
Los investigadores escriben que los agentes de IA con esas capacidades de largo alcance serían mejores como asistentes de IA. Podrían rastrear el sueño y la dieta de una persona durante meses o años, proporcionando consejos de salud que no se limitan a las tendencias recientes. Tales agentes también podrían ser asistentes educativos que rastrean a los estudiantes durante un largo plazo.
«Un agente científico podría buscar objetivos ambiciosos, como descubrir un nuevo material o reducir el dióxido de carbono», ofrecen. «Tal agente podría analizar las observaciones del mundo real durante un período prolongado, desarrollar y ejecutar simulaciones, y sugerir experimentos o intervenciones del mundo real».
Los investigadores sugieren que la llegada de modelos de IA «pensamiento» o «razonamiento», como Gemini, Deepseek’s R1 y OpenAi’s O1, pueden ser superados por los agentes de la experiencia. El problema con los agentes de razonamiento es que «imitan» el lenguaje humano cuando producen la producción detallada sobre los pasos a una respuesta, y el pensamiento humano puede estar limitado por sus supuestos integrados.
«Por ejemplo, si un agente hubiera sido entrenado para razonar usando pensamientos humanos y respuestas expertas de hace 5,000 años, puede haber razonado sobre un problema físico en términos de animismo», ofrecen. «Hace 1,000 años, puede haber razonado en términos teístas; hace 300 años, puede haber razonado en términos de mecánica newtoniana; y hace 50 años, en términos de mecánica cuántica».
Los investigadores escriben que tales agentes «desbloquearán capacidades sin precedentes,» conducir a «un futuro profundamente diferente de cualquier cosa que hemos visto antes».
Sin embargo, sugieren que también hay muchos, muchos riesgos. Estos riesgos no solo se centran en los agentes de IA que hacen que el trabajo humano sea obsoleto, aunque señalan que la pérdida de empleo es un riesgo. Los agentes que «pueden interactuar de manera autónoma con el mundo durante períodos prolongados de tiempo para lograr objetivos a largo plazo,» escriben, plantean la posibilidad de que los humanos tengan menos oportunidades para «intervenir y mediar las acciones del agente».
En el lado positivo, sugieren, un agente que puede adaptarse, a diferencia de los modelos de IA fijos de hoy en día, «podría reconocer cuándo su comportamiento desencadena la preocupación humana, la insatisfacción o la angustia y modificar adaptativamente su comportamiento para evitar estas consecuencias negativas».
Dejando de lado los detalles, Silver y Sutton confían en que la experiencia de las transmisiones generará mucha más información sobre el mundo que eclipsará todos los datos de Wikipedia y Reddit utilizados para capacitar a la IA de hoy. Los agentes basados en la corriente pueden incluso superar la inteligencia humana, aludiendo a la llegada de la inteligencia general artificial o la superinteligencia.
«Los datos experimentales eclipsarán la escala y la calidad de los datos generados por los humanos», escriben los investigadores. «Este cambio de paradigma, acompañado de avances algorítmicos en RL (aprendizaje de refuerzo), desbloqueará en muchos dominios nuevas capacidades que superan las que poseen cualquier humano».
Silver también exploró el tema en un podcast DeepMind este mes.