ChatGPT necesita ir a la universidad. ¿Pagará OpenAI?

A pesar de toda la inteligencia que nos gusta atribuir a ChatGPT, el chatbot fue esencialmente educado en el hogar. Su creador, OpenAI, lo entrenó en la vasta e imperfecta gloria de la Internet pública, una de las razones por las que ChatGPT comete tantos errores vergonzosos. Un abogado que recientemente usó el chatbot para escribir su informe judicial se dio cuenta de que había cometido un error cuando citó seis casos inexistentes.

¿Cómo puede ChatGPT ser más preciso? Envíelo a la universidad capacitándolo con datos de mejor calidad.

Eso plantea la tentadora posibilidad de una nueva fuente de ingresos para los editores y cualquier otra empresa que posea texto valioso y preciso que podría usarse para entrenar modelos lingüísticos. Será costoso para OpenAI, pero podría reforzar el dominio de la empresa de Sam Altman, junto con Google, Meta Platforms Inc. y el puñado de otras grandes empresas que fabrican los llamados modelos básicos. Es posible que se conviertan en los pocos que pueden permitirse pagar la educación superior de AI.

OpenAI ha mantenido en secreto sus datos de entrenamiento para GPT-4. Pero para las versiones anteriores, utilizó un corpus en línea de miles de libros autoeditados, muchos de ellos sesgados hacia el romance y la ficción de vampiros. Los académicos han descubierto que muchos libros populares que se abrieron paso en línea, como la serie de Harry Potter, probablemente también aparezcan en GPT-4, lo que ha llevado a hablar en el mundo de la publicación de libros sobre si sus prodigiosos archivos podrían servir como el próximo campo de entrenamiento. — si las empresas de IA están dispuestas a pagar.

¿Qué mejores profesores para ChatGPT que libros y revistas académicas, con su experiencia concentrada en negocios, medicina, economía y más?

Durante meses, el rumor en el campo de la IA ha sido que una gran parte de los datos de entrenamiento de GPT-4 provienen de Reddit. Luego, el mes pasado, el popular foro de Internet dijo que comenzaría a cobrar a las empresas por acceder a su tesoro de conversaciones. Eso hizo que algunos editores de libros se preguntaran si podrían hacer lo mismo con su trabajo anterior, según Dan Conway, director ejecutivo de la Asociación de Editores del Reino Unido. “Esta es una conversación muy viva”, dice. “Parte de la conversación que debe suceder es cómo funcionan las licencias de contenido”.

Esto no es solo una ilusión, porque es posible que OpenAI tenga que comenzar a mirar más allá del Internet público para enseñar la próxima iteración de ChatGPT. Los conjuntos de datos en línea en los que se entrenó siempre han contenido datos bastante confiables. Pero ahora que ChatGPT es una sensación pública, esos conjuntos de datos se enfrentan al spam con datos basura destinados a sesgar los resultados de un chatbot, de la misma manera que el spam SEO sesga los resultados de Google. Es posible que OpenAI deba mirar más allá y comenzar a pagar su próxima ronda de capacitación.

La empresa no es el único comprador potencial. Otros que quieren crear sus propios modelos de lenguaje ahora también quieren más datos. Los bancos de inversión en particular, que quieren ayudar a sus clientes a realizar investigaciones de inversión más inteligentes, han estado construyendo chatbots sofisticados y capacitándolos con datos de compañías en las industrias de seguros, transporte, telecomunicaciones y comercio minorista, según Brad Schneider, director ejecutivo de Nomad, una mercado en línea de datos.

Prácticamente nadie fuera de las grandes empresas tecnológicas como OpenAI y Google está construyendo los modelos de lenguaje subyacentes desde cero, pero muchas empresas están comprando el acceso a esos modelos, como GPT-4, y luego los modifican con datos especializados para sus propios fines. (Divulgación: Bloomberg ha anunciado su propio modelo de lenguaje para finanzas, que probablemente competirá con GPT-4 de OpenAI).

Schneider dice que hace tres meses, prácticamente nadie compraba datos para entrenar modelos de lenguaje de esta manera. Ahora esas transacciones representan alrededor del 15% del volumen total en su plataforma, con precios que van desde decenas de miles hasta millones de dólares. Las empresas con datos únicos que tienen una gran demanda, como los datos que pueden ayudar a una herramienta de inteligencia artificial a programar software, tienden a estar en una posición de venta más sólida, agrega Schneider.

En cierto sentido, todo esto apunta a un próspero mercado de datos. En uno o dos años, podríamos ver una variedad de compañías de seguros, bancos y compañías médicas comprando y vendiendo datos para crear alternativas especializadas a ChatGPT.

Pero este mercado también podría moverse en una dirección más oscura, una dominada por las empresas tecnológicas establecidas. Eso dependerá de si OpenAI y Google construyen modelos de lenguaje que puedan hacer cualquier cosa por cualquier persona: una especie de versión de ChatGPT con una navaja suiza con experiencia en una variedad de temas. Los bots de propósito general, en otras palabras, podrían suplantar a los bots de nicho, y si los precios de los datos suben demasiado, eso también haría que esos bots de nicho fueran más difíciles de construir.

Las empresas tecnológicas más grandes “siempre podrán gastar más en computación [and data] de lo que podemos”, dice Keith Peiris, cofundador y director ejecutivo de Tome, una herramienta de inteligencia artificial para generar historias. “Lo más probable es que ganen por el capital, no necesariamente por la innovación”.

Esa ha sido la historia de Big Tech durante años, y es poco probable que cambie ahora.

Más de la opinión de Bloomberg:

• La era del mimetismo de AI hará llorar a los mimos humanos: Parmy Olson

• ¿Dejarías que Elon Musk implantara un dispositivo en tu cerebro?: Tyler Cowen

• Los capos de la IA tienen legisladores globales sobre un barril: Dave Lee

Esta columna no refleja necesariamente la opinión del consejo editorial o de Bloomberg LP y sus propietarios.

Parmy Olson es una columnista de Bloomberg Opinion que cubre tecnología. Exreportera del Wall Street Journal y Forbes, es autora de «We Are Anonymous».

Más historias como esta están disponibles en bloomberg.com/opinion