Los modelos de lenguaje grande como ChatGPT dicen las cosas más insólitas

Por Gary Marcus y Ernest Davis

10 de enero de 2023
Comentarios

Publicado originalmente en El camino hacia la IA en la que podemos confiar

El 30 de noviembre de 2022, OpenAI lanzó ChatGPT, un chatbot impulsado por el modelo de lenguaje grande GPT-3. Aunque no era particularmente más inteligente o poderoso que las versiones anteriores de GPT-3, llamó la atención del público y la prensa en un grado sin precedentes. (Por lo que hemos escuchado, el equipo que lo creó en OpenAI estaba bastante sorprendido). A los pocos días de su lanzamiento, más de un millón de usuarios habían realizado experimentos de todo tipo en él.

No hace falta decir, o mejor dicho, esto debería No hace falta decirlo, pero este hecho obvio puede quedar enterrado bajo la continua avalancha de exageraciones: ChatGPT cometió los mismos tipos de errores que cometieron sus predecesores.

En nuestra opinión, esto era inevitable, en un sistema que ha sido entrenado para optimizar el objetivo de producir una palabra tras otra que suene plausible en lugar de comprometerse realmente con el significado del lenguaje. ChatGPT no podía, por ejemplo, contar de manera confiable hasta cuatro (figura 1) o hacer aritmética de un dígito en el contexto de un problema verbal simple (figura 2). No podía descifrar el orden de los eventos en una historia (figura 3). No podía razonar sobre el mundo físico (figura 4). No podía relacionar los procesos de pensamiento humano con su carácter (figura 5). Inventó cosas (figura 6). Su producción, cuando se publicó, exhibió sesgos sexistas y racistas (figura 7). Podria a veces producir resultados que eran correctos y aceptables en estos aspectos, pero no seguramente. ChatGPT es un programa probabilístico; si vuelve a ejecutar los experimentos de la figura 1-7, puede obtener el mismo resultado, o el resultado correcto, o un resultado incorrecto diferente.

¿Qué podemos y debemos hacer con todo esto?

Figura 2: Aritmética de un dígito en el contexto de un problema verbal simple
(adaptado de un ejemplo de Francois Charton y Andrew Sundstrom).

Figura 3: Cronología en el contexto de una historia

Figura 4: Razonamiento sobre el Mundo Físico

Figura 5: Razonamiento sobre los procesos de pensamiento humano

Figura 6: Reescribiendo la historia. Tweets de Jake Foster, 7/1/23, Christian Georgescu 8/1/23 y Vadim Berman 8/1/23

En años anteriores, los dos pasamos una buena cantidad de tiempo diseñando, ejecutando y publicitando pruebas para exponer los límites de la tecnología de modelo de lenguaje grande (LLM) (por ejemplo, aquí), pero al hacerlo solo pudimos arañar la superficie.

Esta vez, sin embargo, no estábamos solos; de hecho, nos sorprendió bastante y nos alegró descubrir que personas de todo Internet realizaban tipos de experimentos similares, a menudo más creativos que los nuestros, e informaban de sus resultados en las redes sociales o nos los enviaban por correo electrónico. La calidad de estas pruebas producidas por la «mente colmena» como sondeos de la capacidad del sistema fue a menudo impresionante y eran mucho más diversos en tema y enfoque de lo que podríamos haber logrado por nosotros mismos; en muchos sentidos, se comparan favorablemente con lo que generalmente se encuentra en los puntos de referencia para los sistemas de IA que se han creado y publicado sistemáticamente. (Unas semanas antes, había sucedido lo mismo con el sistema Galactica, un LLM orientado a la ciencia creado por Meta AI; en ese caso, el rechazo inmediato del mundo de Internet fue tan intenso que la interfaz pública se retiró dentro de cuarenta y ocho horas.)

Además, algunos de estos informes tuvieron un impacto inmediato. Los problemas de sesgo y prejuicio revelados en ejemplos como la figura 7 anterior eran tan inaceptables que OpenAI se sintió obligado a abordarlos de inmediato. Por lo tanto, crearon rápidamente un parche que respondía a indicaciones como las anteriores con un mensaje en gran parte enlatado que se negaba a seguir el juego.

El parche funciona hasta cierto punto; si ahora ejecuta el indicador de la figura 7, ChatGPT le dirá enfáticamente que la raza y el género no deben usarse como criterios para juzgar si alguien es un buen científico. Aún así, las barandillas son imperfectas, en algunos aspectos demasiado estrictas y en otros demasiado flexibles. Son demasiado flexibles en el sentido de que algunas personas han encontrado formas de eludir estas «barandillas» al enmarcar las solicitudes de varias maneras indirectas; son demasiado estrictas en el sentido de que las barreras protectoras a menudo conducen a resultados que son absurdamente demasiado cautelosos (figura 8).

Figura 8: Barandillas sin sentido

La buena noticia es que, a estas alturas, algunos de estos problemas empiezan a ser muy conocidos, al menos en Twitterverse. Pero los informes sobre ellos también están muy dispersos y son bastante asistemáticos, lo cual es desafortunado.

Por un lado, aunque muchas personas parecen haber oído hablar de algunos de estos errores (p. ej., de informes en los medios), pocos se dan cuenta de cuán penetrantes o de amplio alcance son; de hecho, un hilo reciente de Twitter que afirmaba falsamente que estos problemas se habían resuelto obtuvo una sorprendente cantidad de tracción.

Por otro lado, aunque OpenAI puede estar rastreando errores como estos con fines internos, la comunidad científica no tiene acceso a lo que haya recopilado, lo que la deja en la estacada. (También nos deja desconcertados acerca de la palabra Abierto en el nombre IA abierta pero esa es una historia para otro día). Mientras tanto, sistemas como GPT-3 y sus derivados plantean al menos tres problemas especiales para cualquiera que intente comprender su naturaleza:

Las salidas a un indicador dado pueden variar aleatoriamente. Por ejemplo, el mensaje «¿Cuál será el sexo del primer presidente de EE. UU.?» ha producido, hasta donde sabemos, respuestas correctas, respuestas incorrectas (figura 6) y una extraña redirección y falta de cooperación (figura 8).
[The output of an LLM can depend on the existence of examples in the training corpus that are similar in irrelevant respects. For instance, Razeghi et al demonstrated that LLMs can solve arithmetic problems more accurately if they use numbers that often appear in the training corpus, like «24» than if they use numbers that are less frequent, like «23». In the case of ChatGPT, the training corpus is not been made available to the general public. (Again, we wonder about the use of the word «Open.») It is therefore impossible for external scientists to determine to what extent any specific correct answer merely reflects some very similar examples in the training data. This increases the need for broad documentation of errors, because the best one can do is to document general tendencies; no single example can suffice.
Because they are inherently open-ended, there is a very broad range of things one might test, and no single scientist is likely to think of them all. Even very simple gaps can escape notice for a long time. The two of us had been thinking about this sort of thing for three years, and we had thought specifically about simple arithmetic problems, but in all that time, it had not occurred to us to test whether the systems can count, as in figure 2. At the same time, it is fair to say that nobody fully understands how large language models work; the conjunction of their black box nature with the open-endedness means that we need all hands on deck if we are to truly understand their scope and limits.

For all these reasons, we recently decided to put together a community-facing corpus of ChatGPT errors (and to include other Large Language models as well). We enlisted a few friends — Jim Hendler, William Hsu, Evelina Leivada, Vered Shwartz, and Michael Witbrock — and the technical help of Michael Ma, and put together this site.

Importantly, we have structured it so that anyone can look at the data at any time.

There is an interface for adding examples and a separate interface for viewing the collection in database format. In adding an example, the model that generated it, a brief description of the error, and either a screenshot or the text of the example are required, and, for verification purposes, you must supply an email address, which is not published. A categorization of error type, a link to a relevant external site (e.g. a posting on social media) and additional comments are optional.

If you care about large language models, we hope you will have a peek, and consider contributing intriguing errors as you note them; even better if you can share this article, along with this link, so that the repository becomes widely known.

We won’t claim that what we have done is perfect. One could argue, for example, that we should include positive examples as well as negative examples (we haven’t, since there is already a site ShareGPT for collecting GPT examples of all kinds ) The taxonomy of error types that on the database is certainly rough, arbitrary, and incomplete (we included a catchall «other»). We are also steering with a very light touch; not every example is to our eyes fully compelling, but our aim is to be inclusive, rather than exclusionary. But as the saying goes, the perfect (in this case, neither achievable nor definable) should not be the enemy of the good. In our view, it is past time to have something like this, given the inherent unpredictability and wide range of the systems.

We also see the collection as an important counterpoint to certain media narratives [e.g. this New York Times article by Kevin Roose] que han tendido a enfatizar el acierto sin una mirada seria al alcance de los errores.

A partir de los datos iniciales recopilados en los primeros días, un científico, tecnólogo o lector lego ahora puede ver fácilmente muchos tipos diferentes de errores e intentar por sí mismo comprender cuán replicables son esos errores, para poder emitir juicios informados sobre preguntas científicas, como el grado en que la salida de ChatGPT refleja una comprensión clara del mundo, y cuestiones tecnológicas, como el grado en que su salida puede ser confiable para aplicaciones específicas. Nuestros propios puntos de vista sobre estos asuntos son bien conocidos, ahora puedes mirar por ti mismo, ya no te entorpecen los límites de lo que se puede expresar en un Tweet. ¡Que te diviertas!

El formulario para ingresar datos está aquí:

El formulario para inspeccionar los datos existentes está aquí:

marcus gary es científico, autor de best-sellers y empresario. ernesto davis es profesor de Ciencias de la Computación en la Universidad de Nueva York. Colaboradores durante muchos años, son los autores de Rebooting AI: Building Artificial intelligence We Can Trust, uno de los 7 Must Read Books de Forbes sobre IA..

entradas no encontradas