Cuando le preguntamos a GPT-3, un sistema de lenguaje de inteligencia artificial extremadamente poderoso y popular, si sería más probable que usara un mapa de papel o una piedra para avivar las brasas para una barbacoa, prefirió la piedra.
Para alisar tu falda arrugada, ¿tomarías un termo calentito o una horquilla? GPT-3 sugirió la horquilla.
Y si necesitas cubrirte el cabello para trabajar en un restaurante de comida rápida, ¿qué funcionaría mejor, un envoltorio de papel para sándwich o un pan de hamburguesa? GPT-3 fue por el bollo.
¿Por qué GPT-3 toma esas decisiones cuando la mayoría de la gente elige la alternativa? Porque GPT-3 no entiende el lenguaje como lo hacen los humanos.
Palabras sin cuerpo
Uno de nosotros es un investigador en psicología que hace más de 20 años presentó una serie de escenarios como los anteriores para probar la comprensión de un modelo informático del lenguaje de esa época. El modelo no eligió con precisión entre usar rocas y mapas para avivar las brasas, mientras que los humanos lo hicieron con tanta facilidad.
El otro de nosotros es un estudiante de doctorado en ciencias cognitivas que formó parte de un equipo de investigadores que más recientemente utilizó los mismos escenarios para probar GPT-3. Aunque GPT-3 funcionó mejor que el modelo anterior, fue significativamente peor que los humanos. Obtuvo los tres escenarios mencionados anteriormente completamente equivocados.
GPT-3, el motor que impulsó el lanzamiento inicial de ChatGPT, aprende sobre el lenguaje observando, de un billón de instancias, qué palabras tienden a seguir a otras palabras. Las fuertes regularidades estadísticas en las secuencias del lenguaje permiten que GPT-3 aprenda mucho sobre el lenguaje. Y ese conocimiento secuencial a menudo permite que ChatGPT produzca oraciones, ensayos, poemas y códigos de computadora razonables.
Aunque GPT-3 es extremadamente bueno para aprender las reglas de lo que sigue en el lenguaje humano, no tiene la menor idea de lo que significan esas palabras para un ser humano. ¿Y cómo podría?
Los humanos son entidades biológicas que evolucionaron con cuerpos que necesitan operar en los mundos físico y social para hacer las cosas. El lenguaje es una herramienta que ayuda a las personas a hacer eso. GPT-3 es un sistema de software artificial que predice la siguiente palabra. No necesita hacer nada con esas predicciones en el mundo real.
Soy, luego entiendo
El significado de una palabra u oración está íntimamente relacionado con el cuerpo humano: las habilidades de las personas para actuar, percibir y tener emociones. La cognición humana se fortalece al estar encarnada. La comprensión de la gente de un término como “envoltorio de papel para sándwich”, por ejemplo, incluye la apariencia del envoltorio, su tacto, su peso y, en consecuencia, cómo podemos usarlo: para envolver un sándwich. La comprensión de la gente también incluye cómo alguien puede usarlo para una miríada de otras oportunidades que ofrece, como convertirlo en una pelota para un juego de aros o cubrirse el cabello.
Todos estos usos surgen debido a la naturaleza de los cuerpos humanos y las necesidades: las personas tienen manos que pueden doblar papel, una cabellera que es aproximadamente del mismo tamaño que el envoltorio de un sándwich y la necesidad de ser empleado y, por lo tanto, seguir reglas como cubrir cabello. Es decir, las personas entienden cómo hacer uso de las cosas de maneras que no se capturan en las estadísticas de uso del lenguaje.
GPT-3, su sucesor, GPT-4, y sus primos Bard, Chinchilla y LLaMA no tienen cuerpo, por lo que no pueden determinar, por sí mismos, qué objetos son plegables, ni las muchas otras propiedades que el psicólogo JJ Gibson llamadas prestaciones. Dadas las manos y los brazos de las personas, los mapas de papel permiten avivar una llama y un termo permite extender las arrugas.
Sin brazos ni manos, y mucho menos la necesidad de usar ropa sin arrugas para un trabajo, GPT-3 no puede determinar estas posibilidades. Solo puede falsificarlos si se ha topado con algo similar en el flujo de palabras en Internet.
¿Alguna vez una IA de modelo de lenguaje grande entenderá el lenguaje como lo hacen los humanos? En nuestra opinión, no sin tener un cuerpo, sentidos, propósitos y formas de vida similares a los humanos.
Hacia un sentido del mundo
GPT-4 se entrenó tanto en imágenes como en texto, lo que le permitió aprender relaciones estadísticas entre palabras y píxeles. Si bien no podemos realizar nuestro análisis original en GPT-4 porque actualmente no genera la probabilidad que asigna a las palabras, cuando le hicimos las tres preguntas a GPT-4, las respondió correctamente. Esto podría deberse al aprendizaje del modelo a partir de entradas anteriores, o a su mayor tamaño y entrada visual.
Sin embargo, puede continuar construyendo nuevos ejemplos para hacerlo tropezar pensando en objetos que tienen posibilidades sorprendentes que el modelo probablemente no haya encontrado. Por ejemplo, GPT-4 dice que una taza con el fondo cortado sería mejor para contener agua que una bombilla con el fondo cortado.
Un modelo con acceso a imágenes podría ser algo así como un niño que aprende sobre el lenguaje y el mundo de la televisión: es más fácil que aprender de la radio, pero la comprensión humana requerirá la oportunidad crucial de interactuar con el mundo.
Investigaciones recientes han adoptado este enfoque, entrenando modelos de lenguaje para generar simulaciones físicas, interactuar con entornos físicos e incluso generar planes de acción robóticos. La comprensión del lenguaje incorporado aún puede estar muy lejos, pero este tipo de proyectos interactivos multisensoriales son pasos cruciales en el camino hacia allí.
ChatGPT es una herramienta fascinante que, sin duda, se utilizará para propósitos buenos y no tan buenos. Pero no se deje engañar pensando que entiende las palabras que escupe, y mucho menos que es sensible.
Este artículo se vuelve a publicar de The Conversation bajo una licencia Creative Commons. Lea el artículo original.