Saltar al contenido

ChatGPT hará que la web sea tóxica para sus sucesores

19 de junio de 2023
Fuente de la imagen: 123RF (con modificaciones)

Este artículo es parte de nuestra cobertura de lo último en investigación de IA.

La inteligencia artificial generativa ha permitido a todos ser más creativos. Los modelos de lenguaje extenso (LLM) como ChatGPT pueden generar ensayos y artículos con una calidad impresionante. Los modelos de difusión como Stable Diffusion y DALL-E crean imágenes asombrosas.

Pero, ¿qué sucede cuando Internet se inunda con contenido generado por IA? Ese contenido eventualmente se recopilará y utilizará para entrenar las próximas iteraciones de modelos generativos. Según un estudio realizado por investigadores de la Universidad de Oxford, la Universidad de Cambridge, el Imperial College de Londres y la Universidad de Toronto, los modelos de aprendizaje automático entrenados con contenido generado por la IA generativa sufrirán defectos irreversibles que se agravarán gradualmente de generación en generación.

La única forma de mantener la calidad y la integridad de los modelos futuros es asegurarse de que estén capacitados en contenido generado por humanos. Pero con LLM como ChatGPT y GPT-4 que permiten la creación de contenido a escala, el acceso a datos creados por humanos pronto podría convertirse en un lujo que pocos pueden permitirse.

Colapso del modelo

En su artículo, los investigadores investigan qué sucede cuando el texto producido por, digamos, GPT-4 forma la mayor parte del conjunto de datos de entrenamiento del modelo que lo sigue.

modelos de ml entrenados en datos generados por ml
Modelos de aprendizaje automático entrenados recursivamente en datos generados por otros modelos (fuente: arXiv)

«¿Qué sucede con las versiones GPT GPT-{n} a medida que aumenta la generación n?» escriben los investigadores. “Descubrimos que aprender de los datos producidos por otros modelos provoca colapso del modelo – un proceso degenerativo por el cual, con el tiempo, los modelos olvidan la verdadera distribución de datos subyacente, incluso en ausencia de un cambio en la distribución a lo largo del tiempo”.

Los modelos de aprendizaje automático son motores estadísticos que intentan aprender distribuciones de datos. Esto es cierto para todo tipo de modelos de ML, desde clasificadores de imágenes hasta modelos de regresión y modelos más complejos que generan texto e imágenes.

Recomendado:  Los centros de excelencia de IA aceleran la adopción de la industria de la IA

Cuanto más se aproximen los parámetros del modelo a la distribución subyacente, más precisos serán para predecir eventos del mundo real.

Sin embargo, incluso los modelos más complejos son solo aproximaciones del mundo real. Por lo tanto, tienden a sobreestimar los eventos más probables y subestimar los menos probables, aunque por un pequeño margen. Cuando se usan recursivamente para volver a entrenarse, estos errores se acumularán y el modelo colapsará. Eventualmente, los modelos posteriores en la secuencia se alejarán de la distribución original de los datos naturales que se usaron para entrenarlos.

colapso del modelo IA generativa
El entrenamiento recursivo de modelos en datos de IA generativa provoca el colapso del modelo (fuente: arXiv)

El colapso del modelo está relacionado con olvido catastrófico, un problema que ocurre con los modelos que se entrenan continuamente con datos nuevos. El olvido catastrófico hace que los modelos de ML olviden gradualmente la información que se usó para entrenarlos antes en sus ciclos de vida. El colapso del modelo no borra los datos aprendidos previamente, pero hace que el modelo los interprete de forma errónea.

El colapso del modelo también está relacionado con envenenamiento de datos, un proceso en el que los actores maliciosos intentan manipular el comportamiento de un modelo modificando intencionalmente los datos utilizados para entrenarlo. El colapso del modelo puede considerarse una forma de envenenamiento de datos. Sin embargo, en lugar de actores intencionales, es el modelo y el proceso de entrenamiento los que contaminan los datos de entrenamiento.

Colapso del modelo en IA generativa

En su estudio, los investigadores simularon los efectos del entrenamiento de modelos generativos en sus propios datos. Probaron tres tipos de modelos: un modelo de mezcla gaussiana (GMM), un codificador automático variacional (VAE) y un modelo de lenguaje grande (LLM).

Recomendado:  La IA aplicada enseña escritura a mano | octubre 2022

La tarea de los GMM es separar dos gaussianas generadas artificialmente. El modelo se entrenó primero en un conjunto de datos generado a partir de una función fija. Luego se usó para generar nuevos datos y volver a entrenar el siguiente modelo. En 50 generaciones, la distribución de los datos había cambiado por completo. En la generación 2000, había perdido toda su varianza.

Modelo colapso modelo de mezcla gaussiana
Colapso del modelo en el modelo de mezcla gaussiana (GMM) entre generaciones.

El VAE se utilizó para generar dígitos escritos a mano. El modelo inicial fue entrenado en datos reales. Las próximas generaciones fueron entrenadas en datos generados por modelos anteriores. Las imágenes se vuelven gradualmente borrosas y a los 10el generación, se volvieron incomprensibles.

codificador automático variacional de colapso del modelo
Colapso del modelo en el codificador automático variacional (VAE) entre generaciones.

Luego, los investigadores probaron su hipótesis en OPT-125m, una versión pequeña del LLM de código abierto de Meta. Evaluaron un escenario común en el que un modelo previamente entrenado se ajusta con datos recientes. Sin embargo, los datos de ajuste fino son producidos por otro modelo preentrenado ajustado.

Probaron dos variantes diferentes del escenario. En uno, solo los datos generados por LLM se utilizan para el ajuste fino. En el segundo, una pequeña parte de los datos originales generados por humanos también se agrega a la combinación de entrenamiento.

“Ambos regímenes de entrenamiento conducen a un rendimiento degradado en nuestros modelos, sin embargo, encontramos que es posible aprender con datos generados y que los modelos pueden aprender con éxito (algo de) la tarea subyacente”, escriben los investigadores.

Sin embargo, sus hallazgos también muestran que, a lo largo de las generaciones, los modelos generaron muestras que el modelo original produciría con mayores probabilidades.

“Al mismo tiempo, descubrimos que los datos generados tienen colas mucho más largas, lo que sugiere que el modelo original nunca produciría algunos de los datos: estos son los errores que se acumulan debido a la aprendizaje con datos generacionales”, escriben los investigadores.

colapso del modelo modelo de lenguaje grande
Colapso del modelo en modelos de lenguaje grande (LLM) entre generaciones.

¿Qué pasará con las futuras generaciones de ChatGPT?

La era digital ha causado todo tipo de artefactos de contaminación de datos. Los algoritmos de los motores de búsqueda influyeron en gran medida en la forma en que las personas escriben contenido en línea. Los malos actores recurrieron a todo tipo de técnicas para asegurarse de que su contenido ocupaba un lugar destacado en las páginas de resultados de los motores de búsqueda. Hemos visto el mismo efecto con los algoritmos de recomendación de contenido de las redes sociales, con malos actores que usan títulos controvertidos y clickbait para generar participación y promocionar su contenido.

Recomendado:  Ministerios de Vivienda y Transportes dejan en suspenso contratos por casi mil millones de soles con empresas chinas

Sin embargo, si bien los problemas anteriores podrían mitigarse al realizar cambios en los algoritmos de clasificación, los efectos causados ​​por los LLM son mucho más difíciles de detectar y contrarrestar.

“Nuestra evaluación sugiere una ‘ventaja de ser el primero en actuar’ cuando se trata de modelos de capacitación como los LLM”, escriben los investigadores. Esto significa que las plataformas y las empresas que tienen acceso a texto genuino generado por humanos tendrán una ventaja en la creación de modelos de alta calidad. Después de eso, la web puede verse inundada por contenido generado por IA.

Los investigadores sugieren tomar medidas para preservar el acceso a los datos originales a lo largo del tiempo. Sin embargo, no está claro cómo rastrear y filtrar el contenido generado por LLM a escala. Esto puede convertirse en el foco de una nueva ola de innovaciones y competencia entre empresas tecnológicas en los próximos meses y años.