La inteligencia artificial aún no puede formar conceptos

Por Bennie Mols
Encargado por el personal del CACM

27 de abril de 2023
Comentarios

«Si el objetivo es crear un sistema de IA que tenga capacidades de abstracción similares a las humanas, entonces no tiene sentido tener que entrenarlo con decenas de miles de ejemplos», dijo Mitchell. «La esencia de la abstracción y la analogía es el aprendizaje de pocas tomas».

Crédito: Gabriella Marks

La traducción automática, el reconocimiento automático de voz y la generación automática de texto demuestran el enorme progreso que ha logrado la inteligencia artificial (IA) en el procesamiento del lenguaje humano. Por otro lado, la IA ha progresado sorprendentemente poco en la formación de conceptos y abstracciones. Esa es el área de investigación de Melanie Mitchell, profesora de complejidad en el Instituto Santa Fe y autora del libro Inteligencia artificial: una guía para seres humanos pensantes.

Mitchell argumenta que formar conceptos es absolutamente crucial para desbloquear todo el potencial de la IA. «Un concepto es una unidad fundamental de comprensión», dijo Mitchell durante una entrevista en la reunión anual de la Asociación Estadounidense para el Avance de la Ciencia (AAAS) de 2023 en Washington, DC «Las redes neuronales pueden mirar una imagen y decir si contiene un perro , un gato o un automóvil, pero no tienen una comprensión profunda de ninguna de esas categorías.

«Tomemos el concepto de un puente. Los humanos podemos extender la noción de un puente a niveles abstractos. Podemos hablar de un puente entre personas o cerrar la brecha de género. Podemos entender instantáneamente lo que significan estas expresiones porque tenemos un rico modelo mental de lo que puede ser un puente».

Mitchell comenzó a trabajar en conceptos y abstracción en 1984, como doctorado. alumno de Douglas Hofstadter. Inspirado en el famoso libro de Hofstadter Gödel, Escher, Bach: Una trenza dorada esencial, Mitchell decidió contactarlo, y ese fue el comienzo de su cooperación. Juntos crearon un sistema de inteligencia artificial llamado Copycat, que puede resolver problemas simples de analogía de cadenas de letras. Por ejemplo, dadas las cadenas de letras ABC y PQR, ¿qué cadena sigue después de AABBCC? Copycat luego pudo encontrar la respuesta PPQQRR mediante el uso de un modelo mental que incluía elementos simbólicos, subsimbólicos y probabilísticos.

Copycat tenía enormes limitaciones: su arquitectura era ad hoc, no estaba claro qué tan general era la arquitectura y no estaba claro cómo formar nuevos conceptos más allá de lo que se proporcionaba en su repertorio conceptual anterior. En las aproximadamente tres décadas que han pasado desde que se lanzó Copycat, se han realizado varios esfuerzos para crear sistemas de IA que formen abstracciones y conceptos, pero el problema sigue sin resolverse.

En los últimos años, algunos científicos han demostrado que los sistemas de aprendizaje profundo pueden funcionar mejor que el humano promedio (consulte, por ejemplo, https://arxiv.org/abs/2012.01944) en Matrices progresivas de Raven, una prueba no verbal ampliamente utilizada de humanos en general. inteligencia y razonamiento abstracto (por ejemplo, dado un conjunto de diseños geométricos visuales, el sujeto tiene que identificar una pieza que falta al final). Sin embargo, Mitchell descubrió que los sistemas de aprendizaje profundo no lograron esto aprendiendo conceptos similares a los humanos, sino encontrando atajos. Además, necesitaban un gran corpus de ejemplos de entrenamiento.

¿Qué pasa con los modelos de lenguaje grande, como GPT? ¿No tienen la capacidad de formar conceptos y abstracciones similares a los humanos? «Curiosamente, pueden hacer analogías hasta cierto punto», dijo Mitchell. «Probé algunos problemas de cadenas de letras en GPT-3 y, en algunos casos, pudo resolverlos. Aprendió, por ejemplo, el concepto de sucesión. No es perfecto, no es sólido, pero aún me sorprende que pueda hacer esto. Por lo tanto, no estoy de acuerdo con que estos sistemas sean solo ‘loros estocásticos’, como los han llamado algunos científicos. He visto evidencia de GPT construyendo modelos internos simples de situaciones».

Recientemente, Mitchell se interesó mucho en el Abstraction and Reasoning Corpus (ARC), un punto de referencia creado en 2019 por el investigador de Google, François Chollet, para medir la inteligencia en los sistemas de IA. El ARC consiste en un conjunto de tareas de razonamiento visual en forma de acertijos basados en cuadrículas que son más difíciles que las matrices progresivas de Raven. En el punto de referencia, solo se proporcionan algunos ejemplos para cada tarea de analogía visual, por lo que las técnicas tradicionales de aprendizaje automático, que requieren una gran cantidad de datos, no funcionan.

«En la competencia ARC más reciente, el mejor programa de computadora solo acertó un 20%», dijo Mitchell, «y ese programa básicamente usó búsqueda de fuerza bruta. Cuando hablo de estos problemas, la gente suele responder: ‘Bueno, tipo GPT de los modelos podrán hacer esto muy pronto». Estoy bastante convencido de que no lo harán. En cierto sentido, estoy de acuerdo con los científicos que dicen que las grandes redes neuronales pueden hacer todo, porque nuestros cerebros también son grandes redes neuronales, pero creo que tenemos que crear redes neuronales que de alguna manera se ocupen de entidades similares a símbolos, y aún no sabemos cómo hacerlo».

Mitchell cree que necesitamos más conocimientos de la neurociencia y la ciencia cognitiva sobre cómo el cerebro maneja los símbolos. «Los bebés y los niños pueden hacer tantas cosas que nuestros sistemas de IA no pueden hacer. Tenemos una descripción del cerebro en términos de neuronas, tenemos una descripción en términos de conceptos, pero no tenemos una descripción intermedia. Lo mismo es cierto para grandes modelos de lenguaje. Una de mis direcciones de investigación futuras es descubrir cómo estos modelos hacen lo que hacen y desarrollar herramientas para probarlos».

Aunque los sistemas de IA siguen siendo malos para formar conceptos, y aunque Mitchell está convencida de la importancia de construir modelos basados en conceptos básicos sobre objetos, espacio y geometría, números y numerosidad, agentes y acciones, está desconcertada por el poder de los modelos actuales. modelos estadísticos.

«Antes de que Deep Blue venciera a Kasparov, la gente creía honestamente que jugar al ajedrez requiere inteligencia general; ahora sabemos que no. Los modelos de lenguaje grandes demuestran que la comprensión del lenguaje no es necesaria para generar texto similar al humano. Estos ejemplos muestran que no entendemos nuestro propia inteligencia muy bien. Lo bueno es que construir sistemas de inteligencia artificial refina nuestra comprensión de lo que es la inteligencia».

Bennie Mols es un escritor de ciencia y tecnología con sede en Ámsterdam, Países Bajos.

entradas no encontradas