En muchos sentidos, estamos viviendo un momento maravilloso para la IA, con cada semana trayendo alguna hazaña impresionante en otra tarea de conocimiento tácito que estábamos seguros estaría fuera del alcance de las computadoras durante bastante tiempo. De particular interés reciente son los grandes sistemas aprendidos basados en arquitecturas de transformadores que se entrenan con miles de millones de parámetros sobre corpus multimodales masivos a escala web. Los ejemplos destacados incluyen modelos de lenguaje grande como GPT3 y PALM que responden a indicaciones de texto de forma libre, y modelos de lenguaje/imagen como DALL-E e Imagen que pueden asignar indicaciones de texto a imágenes fotorrealistas (e incluso aquellas con reclamos de comportamientos generales como GATO ) .
La aparición de estos grandes modelos aprendidos también está cambiando la naturaleza de la investigación en IA de manera fundamental. Precisamente el otro día, algunos investigadores estaban jugando con DALL-E y pensaron que parece haber desarrolló un lenguaje secreto propio que, si podemos dominar, podría permitirnos interactuar mejor con él. Otros investigadores encontraron que las respuestas de GPT3 a las preguntas de razonamiento se pueden mejorar al agregando ciertos encantamientos aparentemente mágicos al indicador, siendo el más destacado «Pensemos paso a paso». Es casi como si los grandes modelos aprendidos como GPT3 y DALL-E fueran organismos alienígenas cuyo comportamiento estamos tratando de descifrar.
Este es ciertamente un extraño giro de los acontecimientos para la IA. Desde sus inicios, la IA ha existido en la tierra de nadie entre la ingeniería (que tiene como objetivo diseñar sistemas para funciones específicas) y la «Ciencia» (que tiene como objetivo descubrir las regularidades en los fenómenos que ocurren naturalmente). La parte científica de la IA provino de sus pretensiones originales de proporcionar información sobre la naturaleza de la inteligencia (humana), mientras que la parte de ingeniería provino de un enfoque en la función inteligente (hacer que las computadoras demuestren un comportamiento inteligente) en lugar de información sobre la inteligencia natural.
Esta situación está cambiando rápidamente, especialmente porque la IA se está convirtiendo en sinónimo de grandes modelos aprendidos. Algunos de estos sistemas están llegando a un punto en el que no solo no sabemos cómo los modelos que entrenamos pueden mostrar capacidades específicas, sino que estamos muy a oscuras incluso sobre qué capacidades podrían tener (la supuesta capacidad de PALM de «explicar chistes «es un ejemplo de ello). A menudo, incluso sus creadores se ven sorprendidos por las cosas que estos sistemas parecen capaces de hacer. De hecho, probar estos sistemas para tener una idea del alcance de sus «comportamientos emergentes» se ha convertido últimamente en una tendencia en la investigación de IA.
Dado este estado de cosas, es cada vez más claro que al menos una parte de la IA se está alejando firmemente de sus raíces de «ingeniería». Cada vez es más difícil considerar grandes sistemas aprendidos como «diseñados» en el sentido tradicional de la palabra, con un propósito específico en mente. Después de todo, no vamos por ahí diciendo que estamos «diseñando» a nuestros hijos (a pesar del trabajo fundamental y la gestación). Además, las disciplinas de ingeniería normalmente no dedican su tiempo a celebrar las propiedades emergentes de los artefactos diseñados (¡nunca se ve a un ingeniero civil saltando de alegría porque el puente que diseñaron para resistir un huracán de categoría cinco también levita en sábados alternos!) .
Cada vez más, el estudio de estos grandes sistemas entrenados (pero no diseñados) parece destinado a convertirse en una especie de ciencia natural, aunque sea un sucedáneo: observar las capacidades que parecen tener, hacer algunos estudios de ablación aquí y allá e intentar desarrollar al menos una comprensión cualitativa de las mejores prácticas para obtener un buen rendimiento de ellas.
Modulo el hecho de que estos van a ser estudios de artefactos in vitro en lugar de in vivo, son similares a los grandes objetivos de la biología, que es «descifrar» mientras se contenta con sobrevivir sin pruebas ni garantías. De hecho, el aprendizaje automático está repleto de esfuerzos de investigación centrados más en por qué el sistema está haciendo lo que está haciendo (una especie de «estudios FMRI» de grandes sistemas aprendidos, por así decirlo), en lugar de demostrar que diseñamos el sistema para hacerlo. El conocimiento que obtenemos de tales estudios podría permitirnos intervenir para modular un poco el comportamiento del sistema (como lo hace la medicina). La parte in vitro, por supuesto, permite intervenciones mucho más específicas que las configuraciones in vivo.
El giro de la IA hacia las ciencias naturales también tiene implicaciones para la informática en general, dado el enorme impacto que la IA parece tener en casi todas las áreas de la informática. El sufijo «ciencia» de la informática a veces ha sido cuestionado y caricaturizado; quizás ya no, ya que la IA se convierte en una ciencia natural sucedánea que estudia grandes artefactos aprendidos. Por supuesto, podría haber una resistencia metodológica significativa y reservas a este cambio. Después de todo, CS se ha acostumbrado durante mucho tiempo al santo grial de «corregir por construcción», y a partir de ahí es un gran cambio acostumbrarse a vivir con sistemas que, en el mejor de los casos, están incentivados («entrenados como perros») para ser correctos: algo así como nosotros los humanos! De hecho, en una conferencia de 2003, la laureada de Turing, Leslie Lamport, hizo sonar las alarmas sobre la posibilidad misma de que el futuro de la informática pertenezca a la biología en lugar de a la lógica, diciendo que nos llevará a vivir en un mundo de homeopatía y curación por la fe. ¡Pensar que su angustia era principalmente por los complejos sistemas de software que todavía estaban codificados por humanos, en lugar de por estos grandes modelos aprendidos aún más misteriosos!
A medida que pasamos de ser un campo enfocado principalmente en artefactos diseñados intencionalmente y «corregir por garantías de construcción» a uno que intenta explorar/comprender algún artefacto existente (no diseñado), quizás valga la pena pensar en voz alta los cambios metodológicos que traerá. Después de todo, a diferencia de la biología que (en su mayoría) estudia organismos que existen en la naturaleza, la IA estudiará artefactos que creamos (aunque no «diseñamos»), y ciertamente habrá preguntas éticas sobre qué organismos mal entendidos deberíamos estar dispuestos. para crear y desplegar. Por un lado, es poco probable que los grandes modelos aprendidos respalden garantías comprobables relevantes para la capacidad, ya sea con respecto a la precisión, la transparencia o la equidad. Esto plantea preguntas críticas sobre las mejores prácticas para implementar estos sistemas. Si bien los humanos tampoco pueden proporcionar pruebas contundentes sobre la corrección de sus decisiones y comportamiento, sí contamos con sistemas legales para mantenernos en línea con las sanciones: multas, censura o incluso tiempo en la cárcel. ¿Cuál sería el equivalente para grandes sistemas aprendidos?
Sin duda, la estética de la investigación informática también cambiará. Un querido colega mío solía jactarse de que califica los artículos, incluido el suyo, según la proporción entre teoremas y definiciones. A medida que nuestros objetivos se asemejen más a los de las ciencias naturales como la biología, sin duda necesitaremos desarrollar una nueva estética metodológica (¡ya que la proporción de cero teoremas por cero definiciones no será tan discriminatoria!). Ya hay indicios de que los análisis de complejidad computacional han pasado a un segundo plano en la investigación de IA!
Subbarao Kambhampati es profesor en la Escuela de Informática e IA de la Universidad Estatal de Arizona y ex presidente de la Asociación para el Avance de la Inteligencia Artificial. Estudia problemas fundamentales en la planificación y la toma de decisiones, motivado en particular por los desafíos de los sistemas de IA conscientes de los humanos. Se le puede seguir en Twitter @rao2z.
entradas no encontradas