Cómo funcionan ChatGPT y otros LLM, y hacia dónde podrían ir a continuación

Chatbots impulsados por IA como como ChatGPT y Google Bard sin duda están teniendo un momento: la próxima generación de herramientas de software conversacional promete hacer todo, desde hacerse cargo de nuestras búsquedas web hasta producir un suministro interminable de literatura creativa para recordar todo el conocimiento del mundo para que no tengamos que hacerlo.

ChatGPT, Google Bard y otros bots como ellos son ejemplos de grandes modelos de lenguaje, o LLM, y vale la pena investigar cómo funcionan. Significa que podrá hacer un mejor uso de ellos y apreciar mejor en qué son buenos (y en qué no se les debe confiar).

Al igual que muchos sistemas de inteligencia artificial, como los diseñados para reconocer tu voz o generar imágenes de gatos, los LLM se entrenan con grandes cantidades de datos. Las compañías detrás de ellos han sido bastante circunspectas cuando se trata de revelar de dónde provienen exactamente esos datos, pero hay ciertas pistas que podemos observar.

Por ejemplo, el documento de investigación que presenta el modelo LaMDA (Language Model for Dialogue Applications), en el que se basa Bard, menciona Wikipedia, «foros públicos» y «documentos de código de sitios relacionados con la programación, como sitios de preguntas y respuestas, tutoriales, etc.». Mientras tanto, Reddit quiere comenzar a cobrar por el acceso a sus 18 años de conversaciones de texto, y StackOverflow acaba de anunciar planes para comenzar a cobrar también. La implicación aquí es que los LLM han estado haciendo un uso extensivo de ambos sitios hasta este punto como fuentes, completamente gratis y a expensas de las personas que construyeron y usaron esos recursos. Está claro que mucho de lo que está disponible públicamente en la web ha sido extraído y analizado por LLM.

Los LLM utilizan una combinación de aprendizaje automático y aportes humanos.

OpenAI a través de David Nield

Todos estos datos de texto, vengan de donde vengan, se procesan a través de una red neuronal, un tipo de motor de IA de uso común compuesto por múltiples nodos y capas. Estas redes ajustan continuamente la forma en que interpretan y dan sentido a los datos en función de una serie de factores, incluidos los resultados de pruebas y errores anteriores. La mayoría de los LLM utilizan una arquitectura de red neuronal específica llamada transformador, que tiene algunos trucos particularmente adecuados para el procesamiento del lenguaje. (Ese GPT después de Chat significa Transformador preentrenado generativo).

Específicamente, un transformador puede leer grandes cantidades de texto, detectar patrones en cómo las palabras y frases se relacionan entre sí y luego hacer predicciones sobre qué palabras deben aparecer a continuación. Es posible que haya escuchado que se comparan los LLM con motores de autocorrección supercargados, y eso en realidad no está demasiado lejos de la realidad: ChatGPT y Bard realmente no «saben» nada, pero son muy buenos para descubrir qué palabra sigue a otra, lo que comienza a parecen pensamiento y creatividad reales cuando llegan a una etapa lo suficientemente avanzada.

Una de las innovaciones clave de estos transformadores es el mecanismo de autoatención. Es difícil de explicar en un párrafo, pero en esencia significa que las palabras en una oración no se consideran de forma aislada, sino también en relación entre sí en una variedad de formas sofisticadas. Permite un mayor nivel de comprensión de lo que sería posible de otro modo.

Hay cierta aleatoriedad y variación integradas en el código, por lo que no obtendrá la misma respuesta de un robot conversacional de transformadores cada vez. Esta idea de autocorrección también explica cómo pueden aparecer errores. En un nivel fundamental, ChatGPT y Google Bard no saben qué es correcto y qué no. Están buscando respuestas que parezcan plausibles y naturales, y que coincidan con los datos en los que han sido entrenados.