Hay muchas historias de cómo la inteligencia artificial se apoderó del mundo, pero uno de los desarrollos más importantes es el surgimiento en 2012 de Alexnet, una red neuronal que, por primera vez, demostró un gran salto en la capacidad de una computadora para reconocer imágenes.
El jueves, el Museo de Historia de la Computadora (CHM), en colaboración con Google, lanzó por primera vez el código fuente de Alexnet escrito por el estudiante graduado de la Universidad de Toronto Alex Krizhevsky, colocándolo en Github para que todos examinen y descarguen.
«CHM se enorgullece de presentar el código fuente a la versión 2012 de Alex Krizhevsky, Ilya Sutskever y Alexnet de Geoffery Hinton, que transformó el campo de la inteligencia artificial», escriba los organizadores del museo en el archivo Readme en Github.
La creación de Krizhevsky conduciría a una avalancha de innovación en los años siguientes, y toneladas de capital, basadas en la prueba de que con suficientes datos e informática, las redes neuronales podrían lograr avances previamente vistos como principalmente teóricos.
El código, que pesa un escaso 200 kb en la carpeta de origen, combina el código NVIDIA CUDA, la secuencia de comisiones de Python y un poco de C ++ para describir cómo hacer un análisis de la red neuronal convolucional y clasificar los archivos de imágenes.
La historiadora de software del museo, Hansen Hsu, pasó cinco años negociando con Google, que posee los derechos de la fuente, para lanzar el código, como describe en su ensayo sobre el legado de la IA y cómo llegó a ser Alexnet.
Krizhevsky era un estudiante graduado bajo el científico de AI ganador del Premio Nobel Geoffrey Hinton en ese momento. Un segundo estudiante de posgrado, Ilya Sutskever, quien luego cofundó Openai, instó a Krizhevsky a seguir el proyecto. Como HSU cita a Hinton, «Ilya pensó que deberíamos hacerlo, Alex lo hizo funcionar y obtuve el Premio Nobel».
Google posee la propiedad intelectual de Alexnet porque adquirió Hinton, Krizhevsky y la empresa de inicio de Sutskever, DNNResearch.
Hasta que Alexnet, Hinton y otros habían trabajado durante años para demostrar que las colecciones de «aprendizaje profundo» de las neuronas artificiales podían aprender patrones en los datos.
Como señala HSU, la IA se había convertido en un remanso porque no pudo demostrar resultados significativos. La red neuronal convolucional (CNN) había mostrado comienzos prometedores en la realización de tareas como reconocer dígitos escritos a mano, pero hasta entonces no había transformado ninguna industria.
Hinton y otros verdaderos creyentes siguieron trabajando, refinando el diseño de redes neuronales, incluidas las CNN, y descubriendo pequeños experimentos sobre chips de GPU de NVIDIA, cómo el aumento del número de capas de neuronas artificiales podría conducir teóricamente a mejores resultados.
Según HSU, SutsKever tenía la idea de que el trabajo teórico podría ampliarse a una red neuronal mucho más grande que se les da suficiente potencia y datos de entrenamiento.
Como Sutskever le dijo al cofundador y CEO de NVIDIA Jensen Huang durante una conversación en el fuego en 2023, sabía que hacer que las redes neuronales fueran grandes funcionarían, incluso si iba en contra de la sabiduría convencional.
«La gente no estaba buscando grandes redes neuronales» en 2012, dijo Sutskever a Huang. «La gente solo estaba entrenando en redes neuronales con 50, 100 neuronas», en lugar de los millones y miles de millones que luego se convirtieron en estándar. Sutskever sabía que estaban equivocados.
«No era solo una intuición; era, argumentaba, un argumento irrefutable, que fue así: si su red neuronal es profunda y grande, entonces podría configurarse para resolver una tarea difícil».
El trío encontró los datos de capacitación que necesitaban en Imagenet, que fue una nueva creación del profesor de la Universidad de Stanford, Fei Fei Li, en ese momento. Li se había reducido la sabiduría convencional al recluir a los trabajadores de Amazon Mechanical Turk para etiquetar a mano 14 millones de imágenes de todo tipo de objeto, un conjunto de datos mucho más grande que cualquier conjunto de datos de visión por computadora en ese momento.
«Parecía que este conjunto de datos increíblemente difícil, pero estaba claro que si tuviéramos que entrenar una gran red neuronal convolucional en este conjunto de datos, debe tener éxito si podemos tener el cómputo», dijo Sutskever a Huang en 2023.
La computación rápida que necesitaban resultó ser una computadora de escritorio de doble GPU en la que Krizhevsky trabajó en su habitación en la casa de sus padres.
Cuando el trabajo se presentó en la competencia anual de Imagenet en septiembre de 2012, Alexnet obtuvo casi 11 puntos mejor que el competidor más cercano, una tasa de error del 15.3%. Describieron el trabajo en un documento formal.
Yann Lecun, científico jefe de IA de Meta Platforms, que había estudiado anteriormente en Hinton y había sido pionero en la ingeniería de CNN en la década de 1990, proclamó Alexnet en ese momento para ser un punto de inflexión.
«Tenía razón», escribe Hsu. «Antes de Alexnet, casi ninguno de los principales documentos de visión por computadora usaba redes neuronales. Después de eso, casi todos lo harían».
Lo que el trío había hecho era cumplir con todo el trabajo teórico para hacer redes neuronales «profundas» con muchas más capas de neuronas, para demostrar que realmente podían aprender patrones.
«Alexnet fue solo el comienzo», escribe HSU. «En la próxima década, las redes neuronales avanzarían para sintetizar voces humanas creíbles, vencer a los jugadores campeones, modelar el lenguaje humano y generar obras de arte, culminando con el lanzamiento de ChatGPT en 2022 por OpenAi, una compañía cofundada por Sutskever».
Sutskever más tarde probaría una vez más que hacer que las redes neuronales sean más grandes podrían conducir a sorprendentes avances. La llegada de ChatGPT en el otoño de 2022, otra foto que se escuchó en todo el mundo, fue el resultado de todos los modelos GPT 1, 2 y 3 antes. Esos modelos fueron el resultado de la fe de Sutskever en escalar redes neuronales a un tamaño sin precedentes.
«Creí muy fuerte que más grande es mejor y que uno de los objetivos que tuvimos en Operai es descubrir cómo usar la escala correctamente», dijo a Huang en 2023.
Huang acreditó al trío durante su discurso de apertura en el Show de Electronics de Consumer en enero. «En 2012, Alex Krizhevsky, Ilya Sutskever y Geoff Hinton descubrieron a Cuda», dijo Huang, «lo usó para procesar Alexnet, y el resto es historia».
La versión de Alexnet en el formulario de código fuente tiene un momento interesante. Llega justo cuando el campo de IA y la economía del mundo entero están cautivados con otro modelo de código abierto, Deepseek AI’s R1.
¿Quieres más historias sobre AI? Regístrese para la innovaciónnuestro boletín semanal.