Saltar al contenido

Los LLM no son tan inteligentes como crees

26 de junio de 2023

Un artículo reciente del MIT afirmó que GPT-4 obtuvo una puntuación del 100 % en el plan de estudios del MIT, pero una investigación más profunda reveló preguntas incompletas y métodos de evaluación sesgados, lo que resultó en una precisión significativamente menor, lo que anuló el artículo. Con el tiempo, varios investigadores se subieron al carro de la publicación de artículos sobre LLM, especialmente aquellos como ChatGPT que aprobaron el examen médico de EE. UU., el examen de la barra, etc. Sin embargo, cuando se les pide a los mismos chatbots basados ​​en LLM que resuelvan problemas matemáticos simples o que deletreen palabras como piruleta al revés, fallan terriblemente. Todos los LLM como GPT-3.5, GPT-4, LLaMA, PaLM 2 han demostrado ser terribles en estas tareas fáciles.

Pero ¿por qué sucede esto?

La mayoría de los artículos publicados en los últimos tiempos están llenos de pelusa. Pero finalmente, tenemos «Fe y destino: límites de los transformadores en la composicionalidad», un artículo del Instituto Allen para la IA que analiza las limitaciones de estos modelos basados ​​en transformadores. Escrito por investigadores de la Universidad de Washington, la Universidad del Sur de California y la Universidad de Chicago, el documento discutió los límites fundamentales de los modelos de lenguaje de transformador al centrarse en problemas de composición que requieren un razonamiento de varios pasos. El estudio investiga tres tareas de composición representativas: multiplicación de formato largo, acertijos de cuadrícula lógica (p. ej., el acertijo de Einstein) y un problema clásico de programación dinámica.

Según el artículo de investigación de Microsoft, ‘Sparks of AGI: Early experiments with GPT-4’, estos modelos de lenguaje representan una versión temprana de la inteligencia artificial general (AGI). Pero la comunidad científica parece estar dividida sobre las verdaderas capacidades de los LLM, pero este documento arrojará algo de luz sobre cómo funcionan realmente.

Recomendado:  La oficina de inteligencia artificial del Pentágono quiere hacer coincidir los proyectos de software con el mejor entorno en la nube

Volviéndome más tonto por el día

Para obtener una mejor comprensión de cómo los LLM se comparan con los procesos de pensamiento humano, los investigadores utilizaron una estructura gráfica. En este enfoque, las habilidades humanas de resolución de problemas se pueden considerar como una estructura gráfica, donde cada vértice representa una solución parcial y los bordes significan operadores que modifican estas soluciones. Este marco conceptual luego se extrapola, proporcionando una base para comprender las habilidades de razonamiento de los transformadores.

Luego, los investigadores pusieron a prueba LLM populares como ChatGPT, GPT 3 y GPT 4 en tareas de composición de varios pasos. Descubrieron que, si bien aprovechan los intentos cero, los pocos intentos y el ajuste fino, los modelos de transformadores muestran una caída en el rendimiento a medida que aumenta la complejidad de la tarea. Si bien el ajuste fino con datos específicos de la tarea mejora el rendimiento dentro del dominio entrenado, no se puede generalizar a ejemplos no vistos. Incluso el entrenamiento explícito con scratchpads no permite que los modelos aprendan las operaciones de los componentes de manera efectiva.

La naturaleza autorregresiva de los transformadores presenta un desafío fundamental para comprender las tareas de manera integral. Estos hallazgos subrayan la necesidad apremiante de avances en la arquitectura de transformadores y los métodos de capacitación.

De acuerdo a Yan Le Cunel científico de datos jefe de Meta, «Los LLM autorregresivos son como procesos que se alejan exponencialmente de las respuestas correctas».

Cuando genera una respuesta utilizando estos modelos, existe la probabilidad de que cada palabra generada no sea una respuesta correcta y, a medida que se generan más palabras, la probabilidad de que toda la respuesta sea correcta disminuye exponencialmente porque los errores se acumulan.

Recomendado:  Eduardo “Wado” De Pedro: “Voy a hacer lo que la compañera Cristina diga”

El aprendizaje de refuerzo a partir de la retroalimentación humana (RLHF) puede disminuir la probabilidad de errores, pero no cambia el hecho de que la producción de tokens sigue siendo autorregresiva y está sujeta a la divergencia exponencial. Sin embargo, cree que no es posible eliminar por completo el problema porque el proceso sigue siendo autorregresivo, lo que significa que cada token se genera en función de tokens anteriores.

Los transformadores sobresalen en el razonamiento de un solo paso, pero luchan por extender sus capacidades a escenarios más complejos. Sin embargo, los científicos detrás del artículo también mencionaron algunos métodos de capacitación que podrían ayudar a los LLM a superar este límite aparentemente inquebrantable.

El camino a seguir

Los investigadores han probado diferentes enfoques para mejorar el rendimiento de los transformadores en tareas de composición, como ajustar los modelos o enseñarles pasos de razonamiento explícito. Sin embargo, estos enfoques no han logrado una precisión del 100 %, especialmente en entornos fuera del dominio donde los modelos encuentran nuevos tipos de problemas.

Los transformadores a veces producen respuestas parcialmente correctas incluso cuando la respuesta general es incorrecta, ya que los modelos pueden aprender patrones específicos dentro de la distribución de tareas. Esto les permite hacer conjeturas sin comprender los requisitos de la tarea. El concepto de ganancia de información relativa ayuda a predecir estos patrones que es probable que aprendan los transformadores.

El problema principal es que los transformadores tienden a reducir el razonamiento de varios pasos a la coincidencia de subgráficos linealizados, confiando en la coincidencia de patrones en lugar del razonamiento integral, lo que hace que apeste en tareas que exigen planificación e introducen múltiples pasos para un razonamiento correcto. Por lo tanto, se puede decir que los transformadores a menudo memorizan operaciones específicas durante el entrenamiento, lo que lleva a resultados correctos a pesar de los cálculos incorrectos.

Recomendado:  La API de Chat GPT es una llamada de atención para usar estas 5 métricas de rendimiento clave

¿Se deben reemplazar los LLM?

Aunque los Transformers se desempeñan bien en tareas de razonamiento de un solo paso, enfrentan dificultades cuando se trata de combinar múltiples pasos de manera efectiva. Los modelos también tienen dificultades para generalizar su conocimiento, incluida la generalización de fácil a difícil y la generalización sobre integración matemática, pero aún se logra el dominio total y la generalización precisa.

Los transformadores, si bien son modelos de lenguaje poderosos, exhiben limitaciones en su capacidad para realizar razonamientos compositivos complejos. Su dependencia de los patrones, la memorización y las operaciones de un solo paso impide su eficacia para abordar tareas desafiantes.

El artículo de investigación destaca la importancia de promover la arquitectura de transformadores y los métodos de capacitación para abordar estas limitaciones y permitir futuros avances en el razonamiento composicional. La exploración adicional en este dominio es la clave para desbloquear todo el potencial de AGI.