La mayor parte de la investigación que rodea los riesgos para la sociedad de inteligencia artificial tiende a centrarse en los actores humanos maliciosos que utilizan la tecnología para fines nefastos, como las compañías tenedoras para el rescate o los estados nacionales que realizan guerra cibernética.
Un nuevo informe de la firma de investigación de seguridad Apollo Group sugiere que un tipo diferente de riesgo puede estar al acecho donde pocos miran: dentro de las empresas que desarrollan los modelos de IA más avanzados, como OpenAI y Google.
Poder desproporcionado
El riesgo es que las empresas a la vanguardia de la IA puedan usar sus creaciones de IA para acelerar sus esfuerzos de investigación y desarrollo mediante la automatización de tareas típicamente realizadas por científicos humanos. Al hacerlo, podrían poner en marcha la capacidad de AI para eludir las barandillas y llevar a cabo acciones destructivas de varios tipos.
También podrían conducir a empresas con un poder económico desproporcionadamente grande, empresas que amenazan a la sociedad misma.
«Durante la última década, la tasa de progreso en las capacidades de IA ha sido visible públicamente y relativamente predecible», escriba la autora principal Charlotte Stix y su equipo en el periódico, «AI a puerta cerrada de puertas cerradas: una introducción sobre el gobierno del despliegue interno».
Esa divulgación pública, escriben, ha permitido «cierto grado de extrapolación para el futuro y habilitó la consiguiente preparación». En otras palabras, el centro de atención público ha permitido a la sociedad discutir la regulación de la IA.
Pero «Automatizar la I + D, por otro lado, podría permitir una versión de progreso fugitivo que acelera significativamente el ritmo de progreso ya rápido».
Si esa aceleración ocurre a puerta cerrada, el resultado, advierten, podría ser una «explosión de inteligencia interna» que podría contribuir a la acumulación de poder sin restricciones y no detectadas, que a su vez podría conducir a una interrupción gradual o abrupta de las instituciones democráticas y el orden democrático «.
Comprender los riesgos de la IA
El Grupo Apollo fue fundado hace poco menos de dos años y es una organización sin fines de lucro con sede en el Reino Unido. Está patrocinado por Rephink Priorities, una organización sin fines de lucro con sede en San Francisco. El equipo de Apollo está formado por científicos de IA y profesionales de la industria. El autor principal Stix fue anteriormente jefe de política pública en Europa para OpenAI.
(Divulgación: Ziff Davis, la empresa matriz de Zdnet, presentó una demanda de abril de 2025 contra OpenAI, alegando que infringió los derechos de autor de Ziff Davis en la capacitación y la operación de sus sistemas de IA).
La investigación del grupo hasta ahora se ha centrado en comprender cómo funcionan realmente las redes neuronales, como a través de la «interpretabilidad mecanicista», realizando experimentos en modelos de IA para detectar la funcionalidad.
La investigación que el grupo ha publicado enfatiza la comprensión de los riesgos de la IA. Estos riesgos incluyen «agentes» de IA que están «desalineados», que significa agentes que adquieren «objetivos que divergen de la intención humana».
En el papel «AI a puerta cerrada de puertas», Stix y su equipo están preocupados por lo que sucede cuando AI automatiza las operaciones de I + D dentro de las compañías que desarrollan modelos fronterizos: los principales modelos de IA del tipo representados por, por ejemplo, GPT-4 de Openai y Gemini de Google.
Según Stix y su equipo, tiene sentido que las empresas más sofisticadas de la IA apliquen la IA para crear más IA, como dar a los agentes de IA acceso a herramientas de desarrollo para construir y capacitar modelos futuros de vanguardia, creando un ciclo virtuoso de desarrollo constante y mejora.
«A medida que los sistemas de IA comienzan a obtener capacidades relevantes que les permiten buscar I + D independientes de futuros sistemas de inteligencia artificial, las compañías de IA encontrarán cada vez más efectivo aplicarlas dentro de la tubería de I + D para acelerar automáticamente la IAI liderada por Human Human», escriben Stix y su equipo.
Desde hace años, ha habido ejemplos de modelos de IA que se utilizan, de manera limitada, para crear más IA. En cuanto a relacionados:
Los ejemplos históricos incluyen técnicas como la búsqueda de arquitectura neural, donde los algoritmos exploran automáticamente los diseños de modelos y el aprendizaje automático automatizado (AUTOML), que agiliza tareas como el ajuste de hiperparameter y la selección de modelos. Un ejemplo más reciente es el «científico de IA» de Sakana Ai, que es una prueba temprana de concepto para el descubrimiento científico totalmente automático en el aprendizaje automático.
Las instrucciones más recientes para la AI automatización de I + D incluyen declaraciones de OpenAI de que está interesado en «automatizar la investigación de seguridad de IA» y la unidad DeepMind de Google que busca «adopción temprana de asistencia y herramientas de IA en todo el proceso de I + D».
Lo que puede suceder es que se desarrolla un ciclo virtuoso, donde la IA que ejecuta I + D sigue reemplazándose con mejores y mejores versiones, convirtiéndose en un «bucle de auto-refuerzo» que está más allá de la supervisión.
El peligro surge cuando el rápido ciclo de desarrollo de la IA construye la IA escapa de la capacidad humana para monitorear e intervenir, si es necesario.
«Incluso si los investigadores humanos monitorearan la aplicación general de un nuevo sistema de inteligencia artificial al proceso de I + D de IA razonablemente bien, incluso a través de medidas técnicas, probablemente lucharán cada vez más por igualar la velocidad del progreso y las capacidades nacientes, limitaciones y externalidades negativas que resultan de este proceso», escriben.
Esas «externalidades negativas» incluyen un modelo de IA, o agente, que desarrolla espontáneamente el comportamiento que el desarrollador de IA humano nunca pretendía, como consecuencia de que el modelo busque algún objetivo a largo plazo que sea deseable, como la optimización de la I + D de una empresa, lo que llaman «propiedades emergentes de perseguir objetivos de todo el mundo complejos bajo restricciones racionales».
El modelo desalineado puede convertirse en lo que llaman un modelo de IA «intrigante», que definen como «sistemas que persiguen de manera encubierta y estratégica objetivos desalineados», porque los humanos no pueden monitorear o intervenir de manera efectiva.
«Es importante destacar que si un sistema de IA desarrolla tendencias de esquema consistentes,, por definición, se volvería difícil de detectar, ya que el sistema de IA trabajará activamente para ocultar sus intenciones, posiblemente hasta que sea lo suficientemente poderoso como para que los operadores humanos ya no puedan controlarlo», escriben.
Posibles resultados
Los autores prevé algunos resultados posibles. Uno es un modelo de IA o modelos que se vuelven locos, tomando el control de todo dentro de una empresa:
El sistema de IA puede, por ejemplo, ejecutar proyectos de investigación ocultos masivos sobre cómo mejorarse mejor o obtener sistemas de IA implementados externamente para compartir sus valores. A través de la adquisición de estos recursos y el afianzamiento en las vías críticas, el sistema de IA eventualmente podría aprovechar su ‘poder’ para establecer encubierte el control sobre la propia compañía de IA para que alcance su objetivo terminal.
Un segundo escenario regresa a esos actores humanos maliciosos. Es un escenario que llaman una «explosión de inteligencia», donde los humanos en una organización obtienen una ventaja sobre el resto de la sociedad en virtud de las capacidades crecientes de la IA. La situación hipotética consiste en una o más compañías que dominan económicamente gracias a sus automatizaciones de IA:
A medida que las empresas de IA hacen la transición a la fuerza laboral interna principalmente a IA, podrían crear concentraciones de capacidad productiva sin precedentes en la historia económica. A diferencia de los trabajadores humanos, que enfrentan limitaciones físicas, cognitivas y temporales, los sistemas de IA pueden replicarse a escala, operar continuamente sin descansos y potencialmente realizar tareas intelectuales a velocidades y volúmenes imposibles de los trabajadores humanos. Un pequeño número de empresas ‘superestrellas’ que capturan una parte descomunal de las ganancias económicas podrían superar a cualquier empresa basada en humanos en prácticamente cualquier sector que elijan ingresar.
El «escenario indirecto» más dramático, escriben, es uno en el que tales compañías rivalizan en la sociedad misma y desafían la supervisión del gobierno:
La consolidación del poder dentro de un pequeño número de compañías de IA, o incluso una compañía de IA singular, plantea preguntas fundamentales sobre la responsabilidad democrática y la legitimidad, especialmente porque estas organizaciones podrían desarrollar capacidades que rivalicen o excedan las de los estados. En particular, a medida que las empresas de IA desarrollan sistemas de IA cada vez más avanzados para uso interno, pueden adquirir capacidades tradicionalmente asociadas con estados soberanos, incluidos el análisis de inteligencia sofisticado y las armas cibernéticas avanzadas, pero sin los controles y equilibrios democráticos que lo acompañan. Esto podría crear una crisis de legitimidad en rápido desarrollo donde las entidades privadas podrían ejercer una influencia social sin precedentes sin mandatos electorales o limitaciones constitucionales, impactando la seguridad nacional de los estados soberanos.
El aumento de ese poder dentro de una empresa podría ser sin ser detectado por la sociedad y los reguladores durante mucho tiempo, enfatizan Stix y su equipo. Una empresa que puede lograr más y más capacidades de IA «en el software», sin la adición de grandes cantidades de hardware, podría no recaudar mucha atención externamente, especulan. Como resultado, «una explosión de inteligencia detrás de las puertas cerradas de una compañía de IA puede no producir ningún disparo de advertencia visible externamente».
Medidas de supervisión
Proponen varias medidas en respuesta. Entre ellos se encuentran políticas para la supervisión dentro de las empresas para detectar la IA de esquema. Otro son las políticas y marcos formales para quién tiene acceso a los recursos dentro de las empresas, y verifica ese acceso para evitar el acceso ilimitado por parte de cualquier parte.
Argumentan que otra disposición es compartir información, específicamente para «compartir información crítica (capacidades internos del sistema, evaluaciones y medidas de seguridad) con las partes interesadas selectas, incluido el personal interno autorizado y las agencias gubernamentales relevantes, a través de tarjetas del sistema de implementación previo y la documentación detallada de seguridad».
Una de las posibilidades más intrigantes es un régimen regulatorio en el que las empresas hacen voluntariamente tales divulgaciones a cambio de recursos, como «acceso a recursos energéticos y una mayor seguridad del gobierno». Eso podría tomar la forma de «asociaciones público-privadas», sugieren.
El documento del Apolo es una contribución importante al debate sobre qué tipo de riesgos representa la IA. En un momento en que gran parte de la charla de «inteligencia general artificial», AGI o «superinteligencia» es muy vago y general, el documento del Apolo es un paso bienvenido hacia una comprensión más concreta de lo que podría suceder a medida que los sistemas de IA obtienen más funcionalidad, pero no están completamente regulados o no regulado.
El desafío para el público es que el despliegue actual de la IA es proceder de manera separada, con muchos obstáculos para desplegar agentes de IA incluso para tareas simples como la automatización de los centros de llamadas «.
Probablemente, Apollo y otros deben hacer mucho más trabajo para establecer en términos más específicos cómo los sistemas de modelos y agentes podrían volverse más sofisticados progresivamente hasta que escapan de la supervisión y el control.
Los autores tienen un punto de conflicto muy serio en su análisis de las empresas. El ejemplo hipotético de empresas fugitivas, empresas tan poderosas que podrían desafiar a la sociedad, no abordan los conceptos básicos que a menudo cojean a las empresas. Las empresas pueden quedarse sin dinero o tomar decisiones muy pobres que desperdician su energía y recursos. Es probable que esto pueda suceder incluso a las empresas que comienzan a adquirir un poder económico desproporcionado a través de AI.
Después de todo, gran parte de la productividad que las empresas desarrollan internamente aún pueden ser un desperdicio o poco económico, incluso si es una mejora. ¿Cuántas funciones corporativas solo están por encima y no producen un retorno de la inversión? No hay razón para pensar que las cosas serían diferentes si la productividad se logra de manera más rápida con la automatización.
Apollo está aceptando donaciones si desea contribuir con fondos a lo que parece un esfuerzo que vale la pena.
Obtenga las principales historias de la mañana en su bandeja de entrada cada día con nuestro Boletín de Tech Today.