El creador de ChatGPT, OpenAI LP, está trabajando en el desarrollo de una herramienta que, según dice, eventualmente lo ayudará a comprender qué partes de un gran modelo de lenguaje son responsables de su comportamiento.
La herramienta está lejos de ser un artículo terminado, pero la compañía ha abierto el código y lo ha puesto a disposición en GitHub para que otros lo exploren y refinen.
En una publicación de blog hoy, OpenAI explicó que a veces se dice que los LLM son similares a una «caja negra». Es difícil entender por qué un modelo de inteligencia artificial generativa responde de la forma en que lo hace a ciertos tipos de indicaciones. El objetivo de su «investigación de interpretabilidad» es tratar de arrojar más luz sobre por qué los LLM se comportan como lo hacen.
“Los modelos de lenguaje se han vuelto más capaces y más ampliamente implementados, pero nuestra comprensión de cómo funcionan internamente aún es muy limitada”, explicaron los investigadores de OpenAI. “Por ejemplo, podría ser difícil detectar a partir de sus resultados si utilizan heurísticas sesgadas o se involucran en el engaño”.
Irónicamente, la nueva herramienta de OpenAI se basa en un LLM en sí mismo para tratar de descubrir las diversas funciones de los componentes de otros LLM menos sofisticados. En el caso de su investigación, OpenAI intentó utilizar GPT-4, su último y más avanzado LLM, para tratar de comprender uno de sus predecesores, GPT-2.
Para entender cómo, es importante entender primero cómo funcionan los LLM. Están modelados aproximadamente en el cerebro humano, compuestos por múltiples «neuronas» que observan un patrón específico en el texto para influir en la respuesta del modelo a un mensaje específico. Entonces, si se le pregunta a un modelo sobre qué superhéroes tienen los mejores superpoderes, una neurona orientada hacia los superhéroes de Marvel puede aumentar la probabilidad de que el LLM nombre personajes del universo de cómics y películas de Marvel.
Los investigadores de OpenAI dijeron que es posible explotar esta arquitectura basada en neuronas para descomponer GPT-2 en sus componentes individuales. La herramienta funciona mediante la ejecución de secuencias de texto y busca ejemplos en los que una neurona específica se activa con frecuencia. Luego muestra estas neuronas altamente activas a GPT-4 y le pide que genere una explicación.
Específicamente, la herramienta le pedirá a GPT-4 que prediga cómo podría comportarse la neurona. Luego comparará estas predicciones con el comportamiento real de esa neurona para ver qué tan precisas son. OpenAI dijo que la metodología le permite explicar el comportamiento de cada neurona dentro de GPT-2 y también calificar esa explicación en función de su comportamiento real cuando se le solicite.
GPT-2 está compuesto por 307.200 neuronas en total, y los investigadores de OpenAI dijeron que pudieron generar explicaciones para todas ellas. Estas explicaciones luego se compilaron en una base de datos que se ha hecho de código abierto junto con la herramienta real.
La idea es que la investigación pueda algún día ayudar a mejorar el rendimiento de los LLM al reducir los aspectos negativos como el «sesgo» o la «toxicidad», dijeron los investigadores de OpenAI. Sin embargo, el equipo detrás de esto admitió que pasará algún tiempo antes de que la herramienta sea realmente útil para este propósito.
Como demuestran los resultados, pudo explicar el comportamiento de solo unas 1000 neuronas de GPT-2 con un alto grado de confianza. Para las 306.000 neuronas restantes, queda mucho trabajo por hacer para comprender y predecir su comportamiento con mayor precisión.
OpenAI también dijo que hay mucho margen de mejora en su investigación. Por ejemplo, aunque se centró en explicaciones breves en lenguaje natural, admitió que algunas neuronas pueden tener un comportamiento mucho más complejo que es imposible describir de manera tan sucinta. “Por ejemplo, las neuronas podrían ser altamente polisemánticas (representando muchos conceptos distintos) o podrían representar conceptos únicos que los humanos no entienden o no tienen palabras”, dijeron los investigadores.
A largo plazo, OpenAI dijo que uno de sus objetivos es ir más allá de las simples neuronas para tratar de encontrar y explicar circuitos neuronales completos responsables de implementar comportamientos más complejos, incluidas las neuronas y las «cabezas de atención» que trabajan con ellas. Además, a los investigadores también les gustaría explicar los mecanismos que hacen que cada neurona se comporte de cierta manera.
“Explicamos el comportamiento de las neuronas sin intentar explicar los mecanismos que producen ese comportamiento”, escribieron los investigadores. “Esto significa que incluso las explicaciones con puntaje alto podrían funcionar muy mal en textos fuera de distribución, ya que simplemente describen una correlación”.
Aunque queda un largo camino por recorrer, OpenAI dijo que está entusiasmado con el progreso que ha logrado en el uso de LLM para formar, probar e iterar hipótesis generales, tal como lo haría un investigador de interpretabilidad humana.
Foto: Andrew Neel/Pexels
Su voto de apoyo es importante para nosotros y nos ayuda a mantener el contenido GRATIS.
Un clic a continuación respalda nuestra misión de proporcionar contenido gratuito, profundo y relevante.
Únete a nuestra comunidad en YouTube
Únase a la comunidad que incluye más de 15,000 expertos de #CubeAlumni, incluido el CEO de Amazon.com, Andy Jassy, el fundador y CEO de Dell Technologies, Michael Dell, el CEO de Intel, Pat Gelsinger, y muchas más luminarias y expertos.
“TheCUBE es un socio importante para la industria. Ustedes realmente son parte de nuestros eventos y realmente apreciamos que hayan venido y sé que la gente también aprecia el contenido que crean” – Andy Jassy
GRACIAS