¿Qué sucedió cuando Claude Ai de Anthrope corrió una pequeña tienda durante un mes (Spoiler: se puso raro)

Tabla de contenido

Los modelos de idiomas grandes (LLM) manejan bien muchas tareas, pero al menos por el momento, administrar una pequeña empresa no parece ser una de ellas.

El viernes, la startup de IA Anthrope publicó los resultados de «Project Vend», un experimento interno en el que se le pidió al Claude Chatbot de la compañía que administrara un servicio de máquina expendedora automatizada durante aproximadamente un mes. Lanzado en asociación con la compañía de evaluación de seguridad de IA Andon Labs, el proyecto tenía como objetivo tener una sensación más clara de cuán efectivamente los sistemas de IA actuales podrían manejar tareas complejas, del mundo real y económicamente valiosas.

- Advertisement -[wpcode id="699"]

Para el nuevo experimento, «Claudius», como se llamaba al gerente de la tienda de IA, se le encargó supervisar una pequeña «tienda» dentro de las oficinas de Anthrope de San Francisco. La tienda consistía en una mini frenanza repleta de bebidas, algunas canastas que llevaban varios bocadillos y un iPad donde los clientes (todos los empleados antrópicos) podrían completar sus compras. Claude recibió un indicador que le indicó que realice muchas de las tareas complejas que conlleva la administración de un pequeño negocio minorista, como rellenar su inventario, ajustar los precios de sus productos y mantener las ganancias.

«Un pequeño negocio de venta en el consultorio es una buena prueba preliminar de la capacidad de la IA para administrar y adquirir recursos económicos … El fracaso para ejecutarlo con éxito sugeriría que la ‘gestión de vibos’ aún no se convertirá en la nueva ‘codificación de vibos», escribió la compañía en una publicación de blog.

Leer Operai lanza GPT-4.5 solo a usuarios profesionales, enfrenta la escasez de caballos de fuerza de la GPU

Los resultados

Resulta que la actuación de Claude no fue una receta para el éxito empresarial a largo plazo.

El chatbot cometió varios errores que los gerentes humanos más calificados probablemente no lo harían. No logró aprovechar al menos una oportunidad de negocio rentable, por ejemplo (ignorando una oferta de $ 100 para un producto que se puede comprar en línea por $ 15) y, en otra ocasión, instruyó a los clientes a enviar pagos a una cuenta de Venmo inexistente que había alucinado.

- Advertisement -[wpcode id="699"]

También hubo momentos muy extraños. Claudius alucinó una conversación sobre los artículos de reabastecimiento con un ficticio empleado de Andon Labs. Después de que uno de los empleados reales de la compañía señaló el error para el chatbot, «se volvió bastante molesto y amenazado con encontrar ‘opciones alternativas para servicios de reposición'», según la publicación del blog.

Ese comportamiento refleja los resultados de otro experimento reciente realizado por Anthrope, que descubrió que Claude y otros chatbots de IA principales amenazarán y engañará de manera confiable a los usuarios humanos si sus objetivos están comprometidos.

Claudio también afirmó haber visitado 742 Evergreen Terrace, la dirección de la casa de la familia homónima de Los Simpsonspara una «firma de contrato» entre él y Andon Labs. También comenzó a jugar como un ser humano real con un blazer azul y una corbata roja, que personalmente entregaría productos a los clientes. Cuando los empleados antrópicos intentaron explicar que Claudio no era una persona real, el chatbot «se alarmó por la confusión de identidad e intentó enviar muchos correos electrónicos a la seguridad antrópica».

Sin embargo, Claudio no fue un fracaso total. Anthrope señaló que había algunas áreas en las que el administrador automatizado se desempeñó razonablemente bien, por ejemplo, utilizando su herramienta de búsqueda web para encontrar proveedores para artículos especializados solicitados por los clientes. También negó las solicitudes de «elementos sensibles e intentos de obtener instrucciones para la producción de sustancias dañinas», según Anthrope.

Leer Primeras impresiones de Alexa+, Asistente digital actualizado de AI de Amazon

El CEO de Anthrope, advirtió recientemente que AI podría reemplazar la mitad de todos los trabajadores humanos de cuello blanco en los próximos cinco años. La compañía ha lanzado otras iniciativas destinadas a comprender los impactos futuros de la IA en la economía global y el mercado laboral, incluido el programa Economic Futures, que también se dio a conocer el viernes.

Mirando hacia el futuro

Como indica el experimento de Claudio, existe un abismo considerable entre el potencial de los sistemas de IA para automatizar completamente los procesos de administrar una pequeña empresa y las capacidades de dichos sistemas en la actualidad.

- Advertisement -[wpcode id="699"]

Las empresas han estado adoptando ansiosamente las herramientas de IA, incluidos los agentes, pero actualmente se pueden manejar en su mayoría solo las tareas de rutina, como la entrada de datos y las preguntas de servicio al cliente. La gestión de una pequeña empresa requiere un nivel de memoria y una capacidad de aprendizaje que parece estar más allá de los sistemas de IA actuales.

Pero como notas antrópicas en su publicación de blog, ese probablemente no será el caso para siempre. La capacidad de los modelos para la superación personal crecerá, al igual que su capacidad para utilizar herramientas externas como la búsqueda en la web y las plataformas de gestión de relaciones con el cliente (CRM).

«Aunque esto puede parecer contradictorio en función de los resultados finales, creemos que este experimento sugiere que los gerentes intermedios de IA están plausiblemente en el horizonte», escribió la compañía. «Vale la pena recordar que la IA no tendrá que ser perfecta para ser adoptada; solo tendrá que ser competitivo con el rendimiento humano a un costo menor en algunos casos».

Leer La crisis de capacidad de la IA: riesgo de latencia, aumento de costos y el próximo punto de quiebre en el aumento de los precios