Cuando mi hijo aún era un niño pequeño y su madre tenía que hacer un viaje prolongado fuera del país, él «hablaba» con ella por teléfono casi a diario. Citas de miedo porque todavía balbuceaba más que hablaba. Pero, lo impresionante (y adorable) fue que su imitación de la sintaxis de nosotros hablando por teléfono fue impecable, repleta de pausas significativas, gestos expansivos con las manos y caminar mientras hablamos por teléfono, etc.
Los sistemas de generación de lenguaje natural en Inteligencia Artificial están pasando actualmente por una fase bastante fértil de imitación ellos mismos, solo que no se limitan a un par de padres desventurados, sino a todo el mundo. Los llamados modelos de lenguaje grande (LLM), como el GPT-3, aprenden a imitar la generación del lenguaje al entrenarse en el corpus masivo (unos tres mil millones de páginas) de texto rastreado desde la Web. Esta publicación trata sobre los impactos de modelos de lenguaje tan masivos, pero primero comenzaremos con un poco de información sobre cómo funcionan.
Los LLM aprenden a completar un fragmento de texto en el corpus de capacitación una palabra a la vez. Suponga que hay una oración en los datos de entrenamiento que dice «El veloz zorro marrón saltó la valla». El LLM puede entrenarse para completar la oración parcial «El zorro marrón rápido …» Si el modelo actual muestra la finalización «corrió» en lugar de «saltó», entonces el componente de aprendizaje toma este error y lo propaga de nuevo para ajustar el modelo. parámetros. Desde el punto de vista del sistema, «saltado» y «corrido» se ven como vectores (o una secuencia de números), y la diferencia entre estos vectores es el error. Si bien los parámetros de sintonización recuerdan la imagen de las perillas de sintonización de un DJ en un mezclador de audio grande, vale la pena señalar que los LLM tienen una enorme cantidad de parámetros sintonizables. GPT-3, por ejemplo, tiene 175 mil millones de parámetros sintonizables, y ajusta minuciosamente estos parámetros utilizando instalaciones de cómputo masivas (se estima que con una unidad GPU normal lista para usar, tomará 355 años entrenar a GPT-3, y el el costo más bajo probablemente será de alrededor de $ 5 millones).
Los modelos entrenados / afinados resultantes han demostrado habilidades bastante impresionantes para tomar cualquier mensaje de texto y proporcionar terminaciones / elaboraciones plausibles. Por ejemplo, este enlace muestra Finalización de GPT-3 según el primer párrafo de esta columna. Concedido que lo que parece razonable resulta ser, en una inspección cercana, una desviación tangencialmente conectada al indicador. Sin embargo, para ser justos, incluso hace tres años, nadie creía realmente que tendríamos sistemas de inteligencia artificial capaces de fluir con una gramática perfecta, con texto que es «plausible» al menos en el nivel que asociamos con la fortuna que habla rápido. cajeros y hombres dios.
No es sorprendente que la prensa popular haya tenido un día de campo maravillándose y promocionando las habilidades de los LLM. Algunas columnas publicadas supuestamente escritas por GPT-3 (sin duda con una ayuda de filtrado significativa de editores humanos). A otros les preocupaba la inminente automatización de todos los trabajos de redacción.
Si bien GPT-3 de OpenAI es quizás el más famoso de estos LLM, casi todas las empresas de Big Tech los están desarrollando y, según se informa, varias ya los están utilizando en aplicaciones orientadas al cliente. Google anunció que sus LLM basados en BERT se utilizan en el motor de búsqueda de múltiples formas. También ha lanzado los LLM Meena y Lambda capacitados específicamente en datos de conversación masivos, para servir como backends de chatbots de próxima generación. Como era de esperar, también existe una prisa por desarrollar LLM adaptados a otros idiomas además del inglés. China anunció recientemente un LLM llamado Wu Dao que tiene, con 1,75 billones, ¡10 veces más parámetros ajustables que GPT-3! Las implementaciones de código abierto se están acercando lentamente a las comerciales en términos de capacidad de parámetros.
Está bastante claro a partir del diseño de «terminación de una palabra a la vez» que los LLM se centran en encontrar terminaciones plausibles para la indicación (y cualquier palabra de terminación generada previamente). No hay un meta-razonamiento implícito sobre la semántica global de la finalización (más allá de eso, la finalización tiene una plausibilidad suficientemente alta dados los datos de entrenamiento masivos). Específicamente, no hay garantía de exactitud o factibilidad de ningún tipo.
Sin embargo, como especie, los humanos somos particularmente vulnerables a confundir sintaxis con semántica, ya sea acento con logro, belleza con talento o confianza con contenido. Por lo tanto, los LLM que pueden producir texto perfectamente gramatical y razonablemente plausible (no muy diferente de un adivino que habla suavemente) ¡están resultando ser una prueba de Rorschach bastante efectiva para nosotros! Algunos ven en ellos el futuro optimista de la singularidad y la inteligencia artificial que alcanza la inteligencia humana general, mientras que otros están aterrorizados por sus posibles usos indebidos, ya sean intencionados o no. Las opiniones opuestas sobre las formas correctas de implementar LLM se desarrollaron en un escenario bastante público el año pasado entre Google y su grupo de IA y ética.
Al principio, parecería un poco extraño que haya tanta preocupación por los LLM, en contraste con las otras hazañas impresionantes de la IA, como Deep Blue o Alpha Go. Estos últimos son ejemplos de inteligencia profunda pero estrecha. Casi se ha demostrado que son buenos en sus tareas específicas, pero nada más. Ya estamos acostumbrados a ellos. Por el contrario, los LLM entran en la categoría de inteligencia amplia pero superficial. Si bien pueden hablar con inteligencia superficial sobre casi cualquier tema, no pueden ofrecer garantías sobre el contenido de lo que generan. La competencia lingüística amplia pero superficial que muestran los LLM es a la vez aterradora y estimulante, porque sabemos que muchos de nosotros nos dejamos llevar por ella fácilmente.
Sin duda, la mayoría de las aplicaciones de LLM que implican ponerlas a disposición como herramientas para apoyar nuestra propia escritura, en un entorno de trabajo cooperativo asistido por computadora, pueden ser muy útiles, especialmente para las personas que no son particularmente competentes en el idioma. Tenía un doctorado inteligente. estudiante de China a principios de la década de 2000 que mejoraría sus oraciones mal redactadas al publicarlas como consultas de búsqueda en Google y mirar los resultados para revisarlo él mismo. ¡Imagínese cuánto más efectivo sería con las herramientas basadas en LLM! De hecho, incluso algunos periodistas, que justificadamente podrían tener una postura antagónica a este tipo de tecnologías, han alabado las herramientas de escritura basadas en LLM.
También se ha demostrado que los LLM son bastante buenos para aprender rápidamente a traducir de un formato a otro; por ejemplo, desde especificaciones de texto hasta fragmentos de código, dando así el mismo soporte a la redacción de código que ya se sabe que brindan para la redacción de palabras. Esta capacidad de traducción probablemente nos permitirá interactuar con nuestras computadoras en lenguaje natural, en lugar de sintaxis de línea de comandos arcana. De hecho, la aparente generalidad de los LLM incluso ha tentado a algunos investigadores a comenzar a cambiarles el nombre con el controvertido término «modelos de base».
Los escenarios preocupantes son aquellos en los que los sistemas se implementan en aplicaciones orientadas al usuario final, ya sea texto generado por máquina, explicaciones o elaboraciones de consultas de búsqueda. Aquí, los humanos pueden quedar en una posición vulnerable por la inteligencia lingüística amplia y superficial que muestran los LLM. En un caso reciente, un chatbot médico respaldado por GPT-3 supuestamente aconsejó a un paciente de prueba que se suicidara. En otro estudio, el 72% de las personas que leyeron una noticia falsa generada por LLM pensó que era creíble. Incluso las personas supuestamente conocedoras de la informática no eran más inmunes, ya que una publicación de blog falsa producida por GPT-3 subió a la cima de las noticias sobre piratas informáticos el año pasado. Para su crédito, el equipo de políticas de Open AI hizo una seria debida diligencia sobre los impactos potenciales antes de lanzar su LLM por etapas. Sin embargo, dada la naturaleza en gran parte abierta y democrática de la investigación de la IA, y la falta de fosos efectivos en el desarrollo de los modelos, ninguna empresa puede controlar los usos y usos indebidos de los LLM, ahora que la caja de Pandora está abierta.
Una de las grandes preocupaciones sobre el texto generado por LLM ha sido que a menudo puede estar plagado de prejuicios y estereotipos sociales. Hubo un ejemplo temprano bastante notorio de GPT-3 completando incluso indicaciones inocuas que involucran a hombres musulmanes con violencia. No debería sorprendernos que estos LLM proporcionen terminaciones sesgadas / tóxicas, dado que, de hecho, están entrenados de manera efectiva en nuestro subconsciente colectivo junguiano en bruto tal como se carga en la Web, plagado de sesgos y prejuicios.
Si bien el «sesgo» recibió mucha atención, la realidad es que GPT-3 no puede respaldar la precisión de sus declaraciones sesgadas ni de sus declaraciones imparciales / educadas. Todo el significado / precisión, más allá de la terminación plausible en el contexto de los datos de entrenamiento, está en el ojo del espectador. El texto generado por los LLM es similar a nuestros pensamientos subconscientes (Sistema 1), antes de que sean filtrados por las normas y limitaciones de la civilización consciente (Sistema 2). El control de los sistemas de IA basados en datos con limitaciones de conocimiento explícitas, como las normas y costumbres sociales, sigue siendo un problema de investigación bastante abierto. Algunos avances recientes involucraron hacer que el GPT-3 se completara con más cortesía tomando «conocimiento explícito» sobre las costumbres y normas sociales, y convirtiéndolos en datos de capacitación adicionales cuidadosamente seleccionados (¿codificados a mano?). Estos métodos quijotescos son frágiles, consumen mucho tiempo y ciertamente no hacen nada para mejorar la precisión del contenido, incluso si hacen que el texto generado sea más educado. Necesitamos métodos más efectivos para infundir conocimiento explícito sobre las costumbres y normas sociales en los LLM.
Siempre que usemos LLM como herramientas para la asistencia de escritura en escenarios de trabajo cooperativo asistido por computadora, pueden ser bastante efectivos. Después de todo, se ha demostrado que los modelos de lenguaje mucho más primitivos (como ver un documento como solo una bolsa de palabras) son útiles, y los LLM de la generación actual capturan mucho más de la estructura del lenguaje humano. Sin embargo, se necesita mucha precaución cuando se colocan en aplicaciones orientadas al usuario final. Pero dadas las presiones comerciales, esto no se puede garantizar. En un mundo con fácil acceso a LLM, los humanos podemos estar jugando un CAPTCHA perpetuo tratando de separar el texto humano del texto de la máquina o, peor aún, preparándonos para competir por la atención de nuestras ideas y tratamientos (¿más profundos?) En medio del ruido. de resúmenes de texto sintácticamente agradables y explicaciones producidas por LLM.
Por el lado de la investigación, la gran pregunta abierta es cuándo y si los avances en los LLM pueden hacer que vayan más allá de la imitación de la sintaxis. En el caso de la imitación de mi hijo de nosotros hablando por teléfono, a medida que pasaba el tiempo, su subconsciente aparentemente mejoró aún más en la sintaxis, mientras que su yo consciente ciertamente mejoró en domar la manguera de fuego de su balbuceo y doblarlo a lo que quería. Ir a través. Queda por ver si los LLM pueden evolucionar de esta manera. Ya hay una prisa en la comunidad académica por iniciar centros de investigación para investigar esta misma cuestión.
Subbarao Kambhampati es profesor de informática en la Universidad Estatal de Arizona y ex presidente de la Asociación para el Avance de la Inteligencia Artificial, que estudia problemas fundamentales en la planificación y la toma de decisiones, motivados en particular por los desafíos de los sistemas de inteligencia artificial con conciencia humana. Se le puede seguir en Twitter @ rao2z.
entradas no encontradas