No entrenar GPT-4 en datos de clientes de API

En una desviación significativa de sus prácticas anteriores, OpenAI ha anunciado que ya no utilizará los datos de los clientes enviados a través de sus API para entrenar sus modelos de lenguaje expansivos, como GPT-4.

El cambio fue confirmado por Sam Altman, el CEO de OpenAI, en una entrevista reciente con CNBC.

El nuevo enfoque de OpenAI para los datos de usuario

El cambio de política de OpenAI se implementó el 1 de marzo de 2023, cuando la empresa actualizó silenciosamente sus términos de servicio para reflejar este nuevo compromiso con la privacidad del usuario.

Altman aclaró: «Los clientes claramente quieren que no capacitemos sobre sus datos, por lo que hemos cambiado nuestros planes: no haremos eso».

Las API, o interfaces de programación de aplicaciones, son marcos tecnológicos que permiten a los clientes conectarse directamente al software de OpenAI.

Altman declaró que OpenAI no ha estado usando datos de API para el entrenamiento de modelos “por un tiempo”, lo que sugiere que este anuncio oficial formaliza una práctica existente.

Implicaciones para los clientes comerciales

El movimiento de OpenAI tiene implicaciones de gran alcance, particularmente para sus clientes comerciales, que incluyen gigantes como Microsoft, Salesforce y Snapchat.

Es más probable que estas empresas utilicen las capacidades de API de OpenAI para sus operaciones, por lo que el cambio de privacidad y protección de datos es particularmente relevante para ellas.

Sin embargo, las nuevas medidas de protección de datos se aplican únicamente a los clientes que utilizan los servicios API de la empresa. Nota de los términos de servicio actualizados de OpenAI, «Podemos usar contenido de servicios distintos de nuestra API».

Como tal, OpenAI aún puede utilizar otras formas de ingreso de datos, como el texto ingresado en el popular chatbot ChatGPT, a menos que los datos se compartan a través de la API.

Impacto más amplio en la industria

El cambio de política de OpenAI se produce cuando las industrias lidian con los impactos potenciales de los grandes modelos de lenguaje, como ChatGPT de OpenAI, que reemplazan el material tradicionalmente creado por humanos.

Por ejemplo, el Sindicato de Escritores de Estados Unidos comenzó recientemente la huelga después de que se rompieron las negociaciones entre el Sindicato y los estudios cinematográficos. El Gremio había estado abogando por restricciones en el uso de ChatGPT de OpenAI para la generación o reescritura de scripts.

La decisión de OpenAI de no utilizar los datos de los clientes para la capacitación marca un momento crucial en la conversación en curso sobre la privacidad de los datos y la IA. A medida que las empresas continúan explorando y ampliando los límites de la tecnología de IA, es probable que garantizar la privacidad del usuario y mantener la confianza siga siendo un tema central en estas discusiones.

La evolución de ChatGPT: GPT-3 a GPT-4

Es importante tener en cuenta que el compromiso de OpenAI de no utilizar los datos de los clientes para la formación se aplica a su último modelo de lenguaje, GPT-4, lanzado el 14 de marzo de 2023.

GPT-4 introdujo varias mejoras con respecto a su predecesor, GPT-3, incluido un aumento significativo en el tamaño del límite de palabras (25 000 en comparación con el límite de 3000 palabras de ChatGPT), un mayor tamaño de la ventana de contexto y mejores capacidades de razonamiento y comprensión.

Otra característica notable de GPT-4 es su multimodalidad, o la capacidad de comprender e inferir información de imágenes además de texto. Este último modelo genera textos más parecidos a los humanos, utilizando funciones como emojis para una sensación más personalizada.

Sin embargo, el tamaño exacto y la arquitectura de GPT-4 siguen sin revelarse, lo que genera especulaciones sobre los detalles del modelo.

A pesar de estos rumores, el CEO de OpenAI ha negado afirmaciones específicas sobre el tamaño del modelo.

En cuanto al rendimiento, GPT-4 ha demostrado fortalezas en la generación de texto, pero también algunas limitaciones. Por ejemplo, obtuvo un puntaje en el percentil 54 en el Examen de registro de posgrado (GRE) Escritura y se desempeñó en el percentil 43 a 59 en el examen AP Calculus BC.

Además, se desempeñó bien en las tareas de codificación fáciles de Leetcode, pero su rendimiento disminuyó con el aumento de la dificultad de la tarea.

Si bien los detalles del proceso de capacitación de GPT-4 no están documentados oficialmente, se sabe que los modelos GPT generalmente involucran aprendizaje automático a gran escala con una amplia gama de texto de Internet.

Pensando en el futuro

Como resultado de los cambios en la política de uso de datos de OpenAI, los datos utilizados para entrenar sus modelos de lenguaje no incluyen información compartida a través de la API, a menos que los usuarios acepten explícitamente contribuir con este propósito.

Si bien esta tecnología mejora y juega un papel más importante en nuestras vidas, es interesante cómo las empresas giran y responden a las preocupaciones sobre mantener la privacidad de los datos y ganarse la confianza de las personas.

Imagen destacada generada por el autor usando Midjourney.