El progreso reciente en IA ha sido sorprendente. Apenas ha pasado una semana sin que un nuevo algoritmo, aplicación o implicación aparezca en los titulares. Pero OpenAI, la fuente de gran parte del revuelo, completó recientemente su algoritmo insignia, GPT-4, y según el CEO de OpenAI, Sam Altman, su sucesor, GPT-5, aún no ha comenzado a entrenar.
Es posible que el ritmo disminuya en los próximos meses, pero no apueste por ello. Un nuevo modelo de IA tan capaz como GPT-4, o más, puede lanzarse más temprano que tarde.
Esta semana, en una entrevista con Will Knight, el CEO de Google DeepMind, Demis Hassabis, dijo que su próximo gran modelo, Gemini, está actualmente en desarrollo, «un proceso que llevará varios meses». Hassabis dijo que Gemini será una combinación de los grandes éxitos de la IA, sobre todo AlphaGo de DeepMind, que empleó el aprendizaje por refuerzo para derrotar a un campeón en Go en 2016, años antes de que los expertos esperaran la hazaña.
“En un nivel alto, se puede pensar en Gemini como una combinación de algunas de las fortalezas de los sistemas tipo AlphaGo con las asombrosas capacidades de lenguaje de los modelos grandes”, dijo Hassabis. cableado. “También tenemos algunas innovaciones nuevas que van a ser bastante interesantes”. En total, el nuevo algoritmo debería ser mejor en la planificación y resolución de problemas, dijo.
La era de la fusión de IA
Muchas ganancias recientes en IA han sido gracias a algoritmos cada vez más grandes que consumen más y más datos. A medida que los ingenieros aumentaron la cantidad de conexiones internas, o parámetros, y comenzaron a entrenarlos en conjuntos de datos a escala de Internet, la calidad y la capacidad del modelo aumentaron como un reloj. Siempre que un equipo tuviera el dinero para comprar chips y acceder a los datos, el progreso era casi automático porque la estructura de los algoritmos, llamados transformadores, no tenía que cambiar mucho.
Luego, en abril, Altman dijo que la era de los grandes modelos de IA había terminado. Los costos de capacitación y el poder de cómputo se habían disparado, mientras que las ganancias del escalamiento se habían nivelado. “Los mejoraremos de otras maneras”, dijo, pero no dio más detalles sobre cuáles serían esas otras formas.
GPT-4, y ahora Gemini, ofrecen pistas.
El mes pasado, en la conferencia de desarrolladores I/O de Google, el CEO Sundar Pichai anunció que se estaba trabajando en Gemini. Dijo que la compañía lo estaba construyendo «desde cero» para que fuera multimodal, es decir, capacitado y capaz de fusionar múltiples tipos de datos, como imágenes y texto, y diseñado para integraciones de API (piense en complementos). Ahora agregue el aprendizaje por refuerzo y tal vez, como especula Knight, otras especialidades de DeepMind en robótica y neurociencia, y el próximo paso en IA comienza a parecerse un poco a una colcha de alta tecnología.
Pero Gemini no será el primer algoritmo multimodal. Tampoco será el primero en utilizar el aprendizaje por refuerzo o complementos de soporte. OpenAI ha integrado todo esto en GPT-4 con un efecto impresionante.
Si Gemini llega tan lejos, y no más, puede coincidir con GPT-4. Lo interesante es quién está trabajando en el algoritmo. A principios de este año, DeepMind unió fuerzas con Google Brain. Este último inventó los primeros transformadores en 2017; el primero diseñó AlphaGo y sus sucesores. La combinación de la experiencia de aprendizaje por refuerzo de DeepMind en grandes modelos de lenguaje puede generar nuevas habilidades.
Además, Géminis puede establecer una marca de agua alta en IA sin un salto de tamaño.
Se cree que GPT-4 tiene alrededor de un billón de parámetros y, según rumores recientes, podría ser un modelo de «mezcla de expertos» compuesto por ocho modelos más pequeños, cada uno de los cuales es un especialista afinado aproximadamente del tamaño de GPT-3. . Ni el tamaño ni la arquitectura han sido confirmados por OpenAI, quien, por primera vez, no dio a conocer las especificaciones de su último modelo.
De manera similar, DeepMind ha mostrado interés en hacer modelos más pequeños que superen su categoría de peso (Chinchilla), y Google ha experimentado con una mezcla de expertos (GLaM).
Gemini puede ser un poco más grande o más pequeño que GPT-4, pero probablemente no mucho.
Aún así, es posible que nunca sepamos exactamente qué hace funcionar a Gemini, ya que las empresas cada vez más competitivas mantienen en secreto los detalles de sus modelos. Con ese fin, será más importante probar la capacidad y el control de los modelos avanzados a medida que se construyen, un trabajo que Hassabis sugirió que también es fundamental para la seguridad. También dijo que Google podría abrir modelos como Gemini a investigadores externos para su evaluación.
“Me encantaría ver a la academia tener acceso temprano a estos modelos de frontera”, dijo.
Queda por ver si Gemini iguala o supera el GPT-4. A medida que las arquitecturas se vuelven más complicadas, las ganancias pueden ser menos automáticas. Aún así, parece que una fusión de datos y enfoques (texto con imágenes y otras entradas, grandes modelos de lenguaje con modelos de aprendizaje por refuerzo, la combinación de modelos más pequeños en un todo más grande) puede ser lo que Altman tenía en mente cuando dijo que lo haríamos. hacer que la IA sea mejor en otras formas que no sean el tamaño sin procesar.
¿Cuándo podemos esperar a Géminis?
Hassabis fue vago en una línea de tiempo exacta. Si se refería a que el entrenamiento no estaría completo durante «varios meses», podría pasar un tiempo antes de que se lance Gemini. Un modelo entrenado ya no es el punto final. OpenAI pasó meses probando y ajustando rigurosamente GPT-4 antes de su lanzamiento final. Google puede ser aún más cauteloso.
Pero Google DeepMind está bajo presión para ofrecer un producto que establezca el estándar en IA, por lo que no sería sorprendente ver a Gemini a finales de este año o principios del próximo. Si ese es el caso, y si Gemini está a la altura de su facturación, ambos grandes signos de interrogación, Google podría, al menos por el momento, recuperar el centro de atención de OpenAI.
Crédito de la imagen: Hossein Nasr / Unsplash