Con los modelos de IA que golpean cada punto de referencia, es hora de la evaluación humana

Publicado el:

spot_img
- Advertisment -spot_img

La inteligencia artificial ha avanzado tradicionalmente a través de pruebas de precisión automática en tareas destinadas a aproximar el conocimiento humano.

Las pruebas de referencia cuidadosamente elaboradas, como el punto de referencia de evaluación de comprensión del lenguaje general (pegamento), el conjunto masivo de datos de comprensión de idiomas multitarea (MMLU) y el «último examen de la humanidad», han utilizado grandes controles de preguntas para calificar qué tan bien un modelo de lenguaje grande sabe sobre muchas cosas.

Sin embargo, esas pruebas son cada vez más insatisfactorias como una medida del valor de los programas generativos de IA. Se necesita algo más, y podría ser una evaluación más humana de la producción de IA.

- Advertisement -[wpcode id="699"]

Esa opinión ha estado flotando en la industria desde hace algún tiempo. «Hemos saturado los puntos de referencia», dijo Michael Gerstenhaber, jefe de API Technologies de Anthrope, que fabrica la familia Claude de LLMS, durante una conferencia de Bloomberg sobre IA en noviembre.

La necesidad de que los humanos estén «en el bucle» al evaluar los modelos de IA también aparece en la literatura.

En un artículo publicado esta semana en el New England Journal of Medicine por académicos de múltiples instituciones, incluido el Centro Médico Beth Israel Deaconess de Boston, el autor principal Adam Rodman y los colaboradores argumentan que «cuando se trata de puntos de referencia, los humanos son la única forma».

- Advertisement -[wpcode id="699"]

Los puntos de referencia tradicionales en el campo de la IA médica, como Medqa creada en el MIT, «se han saturado», escriben, lo que significa que los modelos de IA fácilmente as de tales exámenes pero no están conectados a lo que realmente importa en la práctica clínica. «Nuestro propio trabajo muestra cuán rápidos están cayendo puntos de referencia difíciles para los sistemas de razonamiento como OpenAi O1», escriben.

Leer  Apple iPhone 18 veces pronto vendrá: 5 mayores rumores y filtraciones en 2026

Rodman y el equipo abogan por adaptar los métodos clásicos por los cuales los médicos humanos son entrenados, como el juego de roles con los humanos. «Los estudios de interacción humana-computadora son mucho más lentos que incluso las evaluaciones de referencia adaptadas por humanos, pero a medida que los sistemas se vuelven más poderosos, se volverán aún más esenciales», escriben.

La supervisión humana del desarrollo de la IA ha sido un elemento básico del progreso en la Generación de la Generación. El desarrollo de ChatGPT en 2022 hizo un uso extensivo del «aprendizaje de refuerzo por retroalimentación humana». Ese enfoque realiza muchas rondas de que los humanos califiquen la salida de los modelos de IA para dar forma a esa salida hacia un objetivo deseado.

Ahora, sin embargo, el creador de chatgpt OpenAi y otros desarrolladores de los llamados modelos fronterizos están involucrando a los humanos en la calificación y clasificación de su trabajo.

Al presentar su código abierto Gemma 3 este mes, Google enfatizó los puntajes de referencia no automatizados, sino las calificaciones de los evaluadores humanos para presentar el caso de la superioridad del modelo.

Google incluso dijo Gemma 3 en los mismos términos que los mejores atletas, utilizando los llamados puntajes ELO para la capacidad general.

Del mismo modo, cuando OpenAI presentó su último modelo de gama alta, GPT-4.5, en febrero, enfatizó no solo los resultados en puntos de referencia automatizados como SimpleQA, sino también cómo se sintieron los revisores humanos sobre la producción del modelo.

- Advertisement -[wpcode id="699"]

«Las medidas de preferencia humana», dice Openai, son una forma de medir «el porcentaje de consultas donde los probadores prefirieron GPT -4.5 sobre GPT – 4O». La compañía afirma que GPT-4.5 tiene un mayor «cociente emocional» como resultado, aunque no especificó de qué manera.

Leer  Descifrar el cuello de botella de almacenamiento de AI y la inferencia de sobrealimentación en el borde

A pesar de que se elaboran nuevos puntos de referencia para reemplazar los puntos de referencia que supuestamente han sido saturados, los diseñadores de referencia parecen estar incorporando la participación humana como un elemento central.

En diciembre, el «mini» GPT-O3 de OpenAI se convirtió en el primer modelo de lenguaje grande en superar una puntuación humana en una prueba de razonamiento abstracto llamado Abstracción y Corpus de razonamiento para la inteligencia general artificial (ARC-AGI).

Esta semana, François Chollet, inventor de ARC-AGI y un científico en la unidad de IA de Google, presentó una nueva y más desafiante versión, Arc-AGI 2. Si bien la versión original se calificó para la capacidad humana al probar los trabajadores de Turk Mechanical Human Amazon, el cognino, esta vez, tuvo una participación humana más vívida.

«Para garantizar la calibración de la dificultad de orientación humana, realizamos un estudio en vivo en San Diego a principios de 2025 que involucran a más de 400 miembros del público en general», escribe Chollet en su publicación de blog. «Los participantes fueron probados en tareas candidatas ARC-AGI-2, lo que nos permitió identificar qué problemas podrían resolverse constantemente por al menos dos individuos dentro de dos o menos intentos. Estos datos de primera parte proporcionan un punto de referencia sólido para el rendimiento humano y se publicarán junto con el artículo ARC-AGI-2».

Es un poco como una mezcla de evaluación comparativa automatizada con los juguetones Mobs Flash de Art Performance de hace unos años.

Ese tipo de fusión del desarrollo del modelo de IA con la participación humana sugiere que hay mucho espacio para expandir la capacitación, el desarrollo, la ingeniería y las pruebas de IA con mayor y mayor participación humana concentrada en el bucle.

Leer  AI lucha por emular el lenguaje histórico

Incluso Chollet no puede decir en este punto si todo eso conducirá a la inteligencia general artificial.

¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.

spot_img

Relacionada

Leave a Reply

Por favor ingrese su comentario!
Por favor ingrese su nombre aquí

spot_img