OpenAI puede ser sinónimo de aprendizaje automático ahora y Google está haciendo todo lo posible para levantarse del piso, pero pronto ambos pueden enfrentar una nueva amenaza: la rápida multiplicación de proyectos de código abierto que impulsan el estado del arte y dejan el bolsillo profundo pero corporaciones difíciles de manejar en su polvo. Esta amenaza similar a la de los zerg puede no ser existencial, pero sin duda mantendrá a los jugadores dominantes a la defensiva.
La noción no es nueva ni mucho menos: en la comunidad de IA de rápido movimiento, se espera ver este tipo de interrupción semanalmente, pero la situación se puso en perspectiva mediante un documento ampliamente compartido que supuestamente se originó dentro de Google. “No tenemos foso, y OpenAI tampoco”, dice el memorándum.
No agobiaré al lector con un extenso resumen de esta pieza interesante y perfectamente legible, pero la esencia es que, si bien GPT-4 y otros modelos patentados han obtenido la mayor parte de la atención y, de hecho, los ingresos, la ventaja inicial que han obtenido con financiamiento e infraestructura se ve más escaso cada día.
Si bien el ritmo de los lanzamientos de OpenAI puede parecer vertiginoso según los estándares de los principales lanzamientos de software ordinarios, GPT-3, ChatGPT y GPT-4 ciertamente se pisaron los talones si se comparan con las versiones de iOS o Photoshop. Pero todavía están ocurriendo en la escala de meses y años.
Lo que el memorándum señala es que en marzo, un modelo de lenguaje base filtrado de Meta, llamado LLaMA, se filtró en forma bastante aproximada. Dentro semanas, las personas que jugaban con computadoras portátiles y servidores de un centavo por minuto habían agregado funciones básicas como ajuste de instrucciones, múltiples modalidades y aprendizaje de refuerzo a partir de comentarios humanos. OpenAI y Google probablemente también estaban hurgando en el código, pero no replicaron, no pudieron, el nivel de colaboración y experimentación que se producía en subreddits y Discords.
¿Podría ser realmente que el titánico problema de computación que parecía representar un obstáculo insuperable, un foso, para los retadores ya sea una reliquia de una era diferente de desarrollo de IA?
Sam Altman ya señaló que deberíamos esperar rendimientos decrecientes cuando lanzamos parámetros al problema. Más grande no siempre es mejor, claro, pero pocos habrían adivinado que lo más pequeño era en cambio.
GPT-4 es un Walmart, y en realidad a nadie le gusta Walmart
El paradigma empresarial que persiguen OpenAI y otros en este momento es un descendiente directo del modelo SaaS. Tiene algún software o servicio de gran valor y ofrece acceso cuidadosamente controlado a través de una API o algo similar. Es un enfoque sencillo y probado que tiene mucho sentido cuando ha invertido cientos de millones en desarrollar un único producto monolítico pero versátil como un gran modelo de lenguaje.
Si GPT-4 se generaliza bien para responder preguntas sobre precedentes en derecho contractual, genial; no importa que una gran parte de su «intelecto» esté dedicado a ser capaz de repetir el estilo de cada autor que alguna vez publicó un trabajo en el idioma inglés. GPT-4 es como un Walmart. nadie en realidad quiere para ir allí, por lo que la empresa se asegura de que no haya otra opción.
Pero los clientes comienzan a preguntarse, ¿por qué estoy caminando por 50 pasillos de chatarra para comprar algunas manzanas? ¿Por qué estoy contratando los servicios del modelo de IA más grande y de uso más general jamás creado si todo lo que quiero hacer es ejercer algo de inteligencia para comparar el lenguaje de este contrato con un par de cientos de otros? A riesgo de torturar la metáfora (por no hablar del lector), si GPT-4 es el Walmart al que vas por manzanas, ¿qué sucede cuando se abre un puesto de frutas en el estacionamiento?
No pasó mucho tiempo en el mundo de la IA para ejecutar un modelo de lenguaje grande, en forma muy truncada, por supuesto, en (adecuadamente) una Raspberry Pi. Para una empresa como OpenAI, su jinete Microsoft, Google o cualquier otra persona en el mundo de la IA como servicio, en realidad supera toda la premisa de su negocio: que estos sistemas son tan difíciles de construir y ejecutar que tienen que hacer para ti. De hecho, parece que estas empresas eligieron y diseñaron una versión de IA que se ajusta a su modelo comercial existente, ¡no al revés!
Érase una vez que tenía que descargar el cálculo involucrado en el procesamiento de textos a una computadora central: su terminal era solo una pantalla. Por supuesto, esa era una era diferente, y hace mucho tiempo que pudimos adaptar toda la aplicación en una computadora personal. Ese proceso ha ocurrido muchas veces desde que nuestros dispositivos aumentaron repetida y exponencialmente su capacidad de cómputo. En estos días, cuando se debe hacer algo en una supercomputadora, todos entienden que es solo una cuestión de tiempo y optimización.
Para Google y OpenAI, el momento llegó mucho antes de lo esperado. Y no fueron ellos quienes hicieron la optimización, y es posible que nunca lo hagan a este ritmo.
Ahora, eso no significa que simplemente no tengan suerte. Google no llegó a donde está por ser el mejor, al menos no por mucho tiempo. Ser un Walmart tiene sus beneficios. Las empresas no quieren tener que encontrar la solución a medida que realice la tarea que desean un 30 % más rápido si pueden obtener un precio decente de su proveedor actual y no agitar demasiado el barco. ¡Nunca subestimes el valor de la inercia en los negocios!
Claro, las personas están iterando en LLaMA tan rápido que se están quedando sin camélidos para nombrarlos. Por cierto, me gustaría agradecer a los desarrolladores por una excusa para ver cientos de imágenes de lindas vicuñas leonadas en lugar de trabajar. Pero pocos departamentos de TI de la empresa van a improvisar una implementación del derivado de código abierto de Stability en progreso de un modelo Meta filtrado casi legal sobre la API simple y efectiva de OpenAI. ¡Tienen un negocio que administrar!
Pero al mismo tiempo, dejé de usar Photoshop hace años para la edición y creación de imágenes porque las opciones de código abierto como Gimp y Paint.net se han vuelto increíblemente buenas. En este punto, el argumento va en la otra dirección. ¿Cuánto paga por Photoshop? De ninguna manera, ¡tenemos un negocio que administrar!
Lo que claramente preocupa a los autores anónimos de Google es que la distancia entre la primera situación y la segunda va a ser mucho más corta de lo que nadie pensaba, y no parece haber nada que nadie pueda hacer al respecto.
Excepto, el memorando argumenta: acéptalo. Abre, publica, colabora, comparte, compromete. Como concluyen:
Google debería establecerse como líder en la comunidad de código abierto, tomando la iniciativa cooperando con, en lugar de ignorar, la conversación más amplia. Esto probablemente signifique tomar algunos pasos incómodos, como publicar los pesos del modelo para variantes pequeñas de ULM. Esto necesariamente significa renunciar a cierto control sobre nuestros modelos. Pero este compromiso es inevitable. No podemos esperar tanto impulsar la innovación como controlarla.