Saltar al contenido

TechScape: siete acrónimos principales de IA explicados | Tecnología

3 de marzo de 2023

Me tomé seis semanas libres para criar a un bebé y todos decidieron que era el momento de declarar inminente la revolución de la IA. Es difícil no tomárselo como algo personal.

El tictac de los nuevos desarrollos, cada uno más impresionante que el anterior, y cada uno llegando a la escena más rápido que el anterior, alcanzó su apogeo la semana pasada con el anuncio casi simultáneo de Bard de Google y Bing Chat de Microsoft. Desde entonces, ha habido todas las permutaciones posibles del discurso, desde afirmaciones milenarias de un inminente eschaton de IA hasta el rechazo de todo el campo como autocompletado glorificado.

No estoy aquí para resolver ese debate. En cambio, si 2023 es el año en que la IA cambia todo, entonces a principios de ese año es el momento de profundizar un poco más en lo que es, cómo funciona y por qué es lo que es. Y la mejor manera de hacerlo es comenzar a hablar sobre todos esos pequeños términos que quedan fuera de la cobertura general porque son «demasiado tecnológicos».

Qué significan realmente los acrónimos y la jerga clave de la IA

Neural red

Las redes neuronales son la tecnología fundamental en el corazón del auge de la IA. Piense en ellos como el equivalente de la máquina de vapor en la primera Revolución Industrial: una tecnología de propósito general que puede llegar a innumerables industrias y casos de uso diferentes y transformarlos.

Concebidas por primera vez en la década de 1940, las redes neuronales comenzaron como un esfuerzo por modelar cerebros de animales, que están compuestos por millones de neuronas simples, cada una conectada a unas cuantas más. Cada neurona individual es extremadamente simple, pero la cantidad engendra calidad, y suficientes juntas pueden aprender a realizar tareas complejas. Y lo mismo ocurre con las redes neuronales artificiales, aunque esas neuronas son ideas puramente algorítmicas en lugar de conexiones físicas.

Recomendado:  Los ingenieros utilizan la impresión 3D para incorporar sensores de alta precisión directamente en la estructura del material. -- Ciencia diaria

Al igual que la máquina de vapor, se necesitaron décadas para comprender el verdadero poder de la invención. Una red neuronal solo funciona con enormes cantidades de datos y potencia informática, por lo que han sido curiosidades durante la mayor parte de los últimos 70 años. Eso cambió con el cambio de milenio, y la era de la IA comenzó a aparecer lentamente.

LLM

Un «modelo de lenguaje grande», o LLM, es uno de los dos principales enfoques de IA que han llevado a la última ráfaga de progreso en el sector. Describe redes neuronales que se entrenan utilizando grandes colecciones de datos de texto, como la serie GPT de OpenAI, PaLM de Google o LLaMa de Meta. Por ejemplo, PaLM utiliza «documentos web de alta calidad, libros, Wikipedia, conversaciones y código de GitHub» para desarrollar una comprensión del lenguaje.

La pregunta que un LLM está tratando de responder es simple: dada una breve sección de texto, ¿qué sigue? Pero realizar bien esa tarea es increíblemente poderoso. Por un lado, es recursivo. Una vez que haya predicho lo que viene a continuación, tiene una nueva sección de texto un poco más larga, que puede retroalimentar al LLM y repetir la pregunta, generando oraciones completas, párrafos, artículos o libros.

La pregunta también es de propósito general. Predecir lo que viene a continuación para una pequeña porción de texto real en inglés es diferente de predecir lo que sigue para una pequeña porción de código, una pregunta, un poema, un par de oraciones traducidas o un acertijo lógico, pero el mismo enfoque parece funcionar bastante bien para todas esas tareas. Cuanto más grande sea el modelo de lenguaje, mejor será el resultado: GPT-3 es 1500 veces más grande que GPT-1, y no parece que estemos cerca de descubrir el límite.

Recomendado:  Por qué deberías estudiar Inteligencia Artificial

Un ejemplo de arte generado por IA, creado a través de Stable Diffusion.

Retratos generados por IA de estilo renacentista hechos a través de Stable Diffusion. Compuesto: Dedicación de dominio público universal

GAN

Lo que los LLM han hecho por el texto, las «redes antagónicas generativas» lo han hecho por las imágenes, las películas, la música y más. Estrictamente hablando, una GAN son dos redes neuronales: una construida para etiquetar, categorizar y calificar, y la otra construida para crear desde cero. Al emparejarlos, puede crear una IA que puede generar contenido a pedido.

Digamos que quieres una IA que pueda hacer fotos. Primero, haces el arduo trabajo de crear la IA de etiquetado, una que puede ver una imagen y decirte lo que contiene, mostrándole millones de imágenes que ya han sido etiquetadas, hasta que aprende a reconocer y describir «un perro». , “un pájaro”, o “una fotografía de una naranja cortada por la mitad, mostrando que su interior es el de una manzana”. Luego, tomas ese programa y lo usas para entrenar una segunda IA ​​para engañarlo. Esa segunda IA ​​“gana” si puede crear una imagen a la que la primera IA le dará la etiqueta deseada.

Una vez que haya entrenado esa segunda IA, tendrá lo que se propuso construir: una IA a la que puede etiquetar y obtener una imagen que cree que coincide con la etiqueta. O una canción. O un vídeo. O un modelo 3D.

Calcular

Entrenar un nuevo modelo de IA puede ser costoso. La creación final de GPT-3 requirió alrededor de $10 millones de tiempo de cómputo, según los trabajos de investigación de OpenAI, y no se dijo cuántos esfuerzos fallidos se necesitaron antes de que la ejecución final saliera como se esperaba. Ese obstáculo, el acceso a la «computación» o poder de cómputo, significa que las grandes herramientas de propósito general como los LLM tienden a ser competencia de empresas masivas. Ya en 2018, OpenAI advertía que la cantidad de cómputo utilizada en las ejecuciones de entrenamiento de IA se duplicaba cada tres meses y medio. Un año después, por ese motivo, la empresa anunció que dejaría de ser un modelo sin fines de lucro debido a la necesidad de “invertir miles de millones de dólares en los próximos años en computación en la nube a gran escala”.

El Reino Unido es líder mundial en investigación de IA, gracias al “triángulo dorado” de Oxford, Cambridge y Londres. Pero los académicos a menudo tienen acceso limitado a la cantidad de cómputo que necesitan para trabajar en la vanguardia, lo que ha llevado a que las ganancias comerciales sean capturadas por los gigantes corporativos estadounidenses y chinos con miles de millones para invertir. Eso ha llevado a pedir un «BritGPT» propiedad del gobierno, construido con fondos públicos para proporcionar la computación que les falta a los investigadores del Reino Unido.

omitir la promoción del boletín anterior

después de la promoción del boletín

El bot ChatGPT visto en un iPhone.

El bot ChatGPT visto en un iPhone. Fotografía: Koshiro K/Alamy

Caja negra

Las redes neuronales a menudo se describen como una «caja negra»: cuanto más competentes se vuelven, más difícil es averiguar cómo hacen lo que hacen. GPT-3 contiene 175 mil millones de «parámetros», cada uno de los cuales describe cuán fuerte o débilmente una neurona afecta a otra. Pero es casi imposible decir qué hace un parámetro determinado para el LLM en su conjunto.

Incluso la estructura general de las redes neuronales es un misterio. A veces, podemos vislumbrar el orden. La «T» en GPT significa «Transformador», una forma de conectar la red neuronal para permitirle imitar la memoria a corto plazo, lo que obviamente tiene sentido para algo que implica leer una oración palabra por palabra. Pero otros aspectos del diseño de redes neuronales son más de prueba y error: por ejemplo, parece que obligar a una red neuronal a «apretar» su pensamiento a través de un cuello de botella de unas pocas neuronas puede mejorar la calidad de la salida. ¿Por qué? Realmente no lo sabemos. Simplemente… lo hace.

Sintonia FINA

No todo requiere entrenar un modelo de IA desde cero. Puede pensar en los $ 10 millones gastados en GPT-3 como el costo de enseñar a una IA a leer y escribir en inglés perfecto. Pero si todo lo que quiere hacer es desarrollar una IA que pueda, por ejemplo, escribir buenos artículos científicos, no necesita comenzar de cero cuando ya existen IA que pueden leer inglés: en su lugar, puede «afinar» esas IA en los datos específicos de los que desea que aprendan, enseñándoles habilidades hiperespecíficas por una fracción del costo. Pero existe un riesgo al hacerlo: ese ajuste fino inevitablemente se basa en el entrenamiento inicial, que puede no haber estado bajo su control.

Alineación

En un nivel, la «alineación» de la IA es una pregunta simple: ¿realmente hemos entrenado a la IA para que haga lo que queremos que haga? Si queremos una IA que pueda predecir qué presos son propensos a reincidir, pero la IA utiliza la discriminación racial como parte central de su decisión, podríamos describirla como «no alineada» con nuestros deseos.

A veces, la IA puede estar desalineada debido a datos de entrenamiento incorrectos, que incorporan sesgos e imprecisiones. Si una IA está entrenada para detectar reincidentes en función de un conjunto de datos de prisioneros, por ejemplo, nunca sabrá quiénes no son enviados a prisión; si está capacitado para hablar inglés con un conjunto de datos que incluye todo Twitter, podría comenzar a emitir creencias idiosincrásicas sobre los vínculos entre Bill Gates, 5G y las vacunas contra el covid.

Otras veces, la IA puede estar desalineada porque le hemos hecho la pregunta equivocada. Un LLM está diseñado para predecir qué texto viene a continuación, pero a veces eso no es así. en realidad lo que queremos: a veces preferimos tener respuestas «verdaderas» que «probables». A veces preferimos tener respuestas que no repitan insultos raciales, ni amenacen al usuario, ni proporcionen instrucciones para construir bombas. Pero esa no es la pregunta que le hicimos a la IA.

Y a veces la alineación se usa para significar algo más existencial. Supongamos que le pide a una IA que optimice la planta de su fábrica para maximizar la producción por hora, y decide que lo más importante que debe hacer es asegurarse de que nadie interrumpa la producción durante los próximos mil millones de años, por lo que oculta en sus planes tecnología que mataría a todas las formas de vida orgánica. en el planeta, eso también sería una IA no alineada.

Si desea leer la versión completa del boletín, suscríbase para recibir TechScape en su bandeja de entrada todos los martes.