¿Los modelos de lenguaje grande son incorrectos para la codificación?

El auge de los modelos de lenguaje extenso (LLM, por sus siglas en inglés) como GPT-4, con su capacidad para generar texto seguro y con gran fluidez, ha sido notable, como he escrito. Lamentablemente, también lo ha hecho la exageración: los investigadores de Microsoft describieron sin aliento que el modelo OpenAI GPT-4 financiado por Microsoft exhibe «chispas de inteligencia artificial general». Lo siento, Microsoft. No, no lo hace.

A menos, por supuesto, que Microsoft se refiriera a la tendencia a alucinar (generar texto incorrecto que con seguridad es incorrecto), lo cual es demasiado humano. Los GPT también son malos para jugar juegos como el ajedrez y el go, bastante dudosos para las matemáticas y pueden escribir código con errores y fallas sutiles. Únete al club, ¿verdad?

Nada de esto significa que los LLM/GPT sean exagerados. De nada. En cambio, significa que necesitamos algo de perspectiva y mucha menos exageración en la conversación sobre inteligencia artificial generativa (GenAI).

Como se detalla en un artículo de IEEE Spectrum, algunos expertos, como Ilya Sutskever de OpenAI, creen que agregar aprendizaje reforzado con retroalimentación humana puede eliminar las alucinaciones LLM. Pero otros, como Yann LeCun de Meta y Geoff Hinton (recientemente retirado de Google), argumentan que existe una falla más fundamental en los grandes modelos de lenguaje. Ambos creen que los grandes modelos lingüísticos carecen de conocimientos no lingüísticos, lo cual es fundamental para comprender la realidad subyacente que describe el lenguaje.

En una entrevista, el CEO de Diffblue, Mathew Lodge, argumenta que hay una mejor manera: “Los modelos de aprendizaje por refuerzo pequeños, rápidos y económicos superan fácilmente a los LLM masivos de cien mil millones de parámetros en todo tipo de tareas, desde jugar juegos hasta escribir código. ”

¿Estamos buscando oro de IA en los lugares equivocados?

¿Vamos a jugar un juego?

Como se relaciona con Lodge, la IA generativa definitivamente tiene su lugar, pero es posible que estemos tratando de forzarla en áreas donde el aprendizaje por refuerzo es mucho mejor. Tomemos los juegos, por ejemplo.

Levy Rozman, un maestro internacional de ajedrez, publicó un video en el que juega contra ChatGPT. El modelo realiza una serie de movimientos absurdos e ilegales, incluyendo la captura de sus propias piezas. El mejor software de ajedrez de código abierto (Stockfish, que no usa redes neuronales en absoluto) hizo que ChatGPT renunciara en menos de 10 movimientos después de que el LLM no pudo encontrar un movimiento legal para jugar. Es una excelente demostración de que los LLM están muy por debajo de la exageración de la IA general, y este no es un ejemplo aislado.

Google AlphaGo es actualmente la mejor IA para jugar y está impulsada por el aprendizaje por refuerzo. El aprendizaje por refuerzo funciona generando (inteligentemente) diferentes soluciones a un problema, probándolas, usando los resultados para mejorar la siguiente sugerencia y luego repitiendo ese proceso miles de veces para encontrar el mejor resultado.

En el caso de AlphaGo, la IA prueba diferentes movimientos y genera una predicción de si es un buen movimiento y si es probable que gane el juego desde esa posición. Utiliza esa retroalimentación para «seguir» secuencias de movimientos prometedores y generar otros movimientos posibles. El efecto es realizar una búsqueda de posibles movimientos.

El proceso se llama búsqueda probabilística. No puede probar todos los movimientos (hay demasiados), pero puede dedicar tiempo a buscar áreas del espacio de movimiento donde es probable que se encuentren los mejores movimientos. Es increíblemente efectivo para jugar. AlphaGo ha vencido a grandes maestros de go en el pasado. AlphaGo no es infalible, pero actualmente funciona mejor que los mejores LLM de la actualidad.

Probabilidad versus precisión

Cuando se enfrentan a la evidencia de que los LLM tienen un rendimiento significativamente inferior al de otros tipos de IA, los defensores argumentan que los LLM «mejorarán». De acuerdo con Lodge, sin embargo, «si vamos a estar de acuerdo con este argumento, debemos entender por qué mejorarán en este tipo de tareas”. Aquí es donde las cosas se ponen difíciles, continúa, porque nadie puede predecir qué producirá GPT-4 para un aviso específico. El modelo no es explicable por los humanos. Es por eso que, argumenta, «la ‘ingeniería rápida’ no existe». También es una lucha para los investigadores de IA demostrar que existen «propiedades emergentes» de los LLM, y mucho menos predecirlas, enfatiza.

Podría decirse que el mejor argumento es la inducción. GPT-4 es mejor en algunas tareas de lenguaje que GPT-3 porque es más grande. Por lo tanto, incluso los modelos más grandes serán mejores. ¿Bien? Bien…

“El único problema es que GPT-4 continúa luchando con las mismas tareas que OpenAI señaló que eran un desafío para GPT-3”, argumenta Lodge. Las matemáticas son una de ellas; GPT-4 es mejor que GPT-3 para realizar sumas, pero todavía tiene problemas con la multiplicación y otras operaciones matemáticas.

Hacer modelos de lenguaje más grandes no resuelve mágicamente estos problemas difíciles, e incluso OpenAI dice que los modelos más grandes no son la respuesta. La razón se reduce a la naturaleza fundamental de los LLM, como se señaló en un foro de OpenAI: “Los modelos de lenguaje grandes son de naturaleza probabilística y funcionan generando resultados probables basados en patrones que han observado en los datos de entrenamiento. En el caso de problemas matemáticos y físicos, puede haber solo una respuesta correcta, y la probabilidad de generar esa respuesta puede ser muy baja”.

Por el contrario, la IA impulsada por el aprendizaje por refuerzo es mucho mejor para producir resultados precisos porque es un proceso de IA que busca objetivos. El aprendizaje por refuerzo itera deliberadamente hacia el objetivo deseado y tiene como objetivo producir la mejor respuesta que pueda encontrar, la más cercana al objetivo. Los LLM, señala Lodge, “no están diseñados para iterar o buscar objetivos. Están diseñados para dar una respuesta ‘suficientemente buena’ de una o varias veces”.

Una respuesta «única» es la primera que produce el modelo, que se obtiene al predecir una secuencia de palabras a partir de la indicación. En un enfoque de «pocas tomas», el modelo recibe muestras o sugerencias adicionales para ayudarlo a hacer una mejor predicción. Los LLM también suelen incorporar cierta aleatoriedad (es decir, son «estocásticos») para aumentar la probabilidad de una mejor respuesta, por lo que darán diferentes respuestas a las mismas preguntas.

No es que el mundo LLM descuide el aprendizaje por refuerzo. GPT-4 incorpora «aprendizaje de refuerzo con retroalimentación humana» (RLHF). Esto significa que el modelo central es posteriormente entrenado por operadores humanos para preferir algunas respuestas sobre otras, pero fundamentalmente eso no cambia las respuestas que genera el modelo en primer lugar. Por ejemplo, dice Lodge, un LLM podría generar las siguientes alternativas para completar la oración «A Wayne Gretzky le gusta el hielo…».

A Wayne Gretzky le gusta el helado.
A Wayne Gretzky le gusta el hockey sobre hielo.
A Wayne Gretzky le gusta pescar en el hielo.

A Wayne Gretzky le gusta patinar sobre hielo.
A Wayne Gretzky le gusta el vino helado.

El operador humano clasifica las respuestas y probablemente pensará que a un legendario jugador canadiense de hockey sobre hielo le gustará más el hockey sobre hielo y el patinaje sobre hielo, a pesar del amplio atractivo del helado. La clasificación humana y muchas más respuestas escritas por humanos se utilizan para entrenar el modelo. Tenga en cuenta que GPT-4 no pretende conocer las preferencias de Wayne Gretzky con precisión, solo la finalización más probable dada la indicación.

Al final, los LLM no están diseñados para ser muy precisos o consistentes. Existe un equilibrio entre la precisión y el comportamiento determinista a cambio de la generalidad. Todo lo cual significa, para Lodge, que el aprendizaje por refuerzo supera a la IA generativa en la aplicación de la IA a escala.

Aplicación del aprendizaje por refuerzo al software

¿Qué pasa con el desarrollo de software? Como he escrito, GenAI ya está teniendo su momento con los desarrolladores que han descubierto una productividad mejorada utilizando herramientas como GitHub Copilot o Amazon CodeWhisperer. Eso no es especulativo, ya está sucediendo. Estas herramientas predicen qué código podría aparecer a continuación en función del código anterior y posterior al punto de inserción en el entorno de desarrollo integrado.

De hecho, como David Ramel de Revista Visual Studio sugiere, la última versión de Copilot ya genera el 61% del código Java. Para aquellos preocupados de que esto eliminará los trabajos de los desarrolladores de software, tenga en cuenta que tales herramientas requieren una supervisión humana diligente para verificar las terminaciones y editarlas para que el código se compile y se ejecute correctamente. Autocompletar ha sido un elemento básico de IDE desde los primeros días de los IDE, y Copilot y otros generadores de código lo están haciendo mucho más útil. Pero la codificación autónoma a gran escala, que sería necesaria para de hecho escribe el 61% del código Java, no lo es.

El aprendizaje por refuerzo, sin embargo, puede realizar una codificación autónoma precisa a gran escala, dice Lodge. Por supuesto, tiene un gran interés en decirlo: en 2019, su empresa, Diffblue, lanzó su herramienta comercial de redacción de pruebas unitarias basada en el aprendizaje por refuerzo, Cover. Cover escribe conjuntos completos de pruebas unitarias sin intervención humana, lo que hace posible automatizar tareas complejas y propensas a errores a escala.

¿Logia es parcial? Absolutamente. Pero también tiene mucha experiencia para respaldar su creencia de que el aprendizaje por refuerzo puede superar a GenAI en el desarrollo de software. En la actualidad, Diffblue utiliza el aprendizaje por refuerzo para buscar en el espacio de todos los métodos de prueba posibles, escribir el código de prueba automáticamente para cada método y seleccionar la mejor prueba entre las escritas. La función de recompensa para el aprendizaje por refuerzo se basa en varios criterios, incluida la cobertura de la prueba y la estética, que incluyen un estilo de codificación que parece escrito por un ser humano. La herramienta crea pruebas para cada método en un promedio de un segundo.

Si el objetivo es automatizar la escritura de 10.000 pruebas unitarias para un programa que nadie entiende, entonces el aprendizaje por refuerzo es la única solución real, sostiene Lodge. “Los LLM no pueden competir; no hay forma de que los humanos los supervisen de manera efectiva y corrijan su código a esa escala, y hacer modelos más grandes y complicados no soluciona eso”.

La conclusión: lo más poderoso de los LLM es que son procesadores de lenguaje generales. Pueden hacer tareas de lenguaje para las que no han sido entrenados explícitamente. Esto significa que pueden ser excelentes en la generación de contenido (redacción) y muchas otras cosas. «Pero eso no convierte a los LLM en un sustituto de los modelos de IA, a menudo basados en el aprendizaje por refuerzo», enfatiza Lodge, «que son más precisos, más consistentes y funcionan a escala».