A principios de este año, las puertas de la IA generativa se abrieron de par en par, dando paso a una nueva realidad de oportunidades. El nuevo Bing de Microsoft y ChatGPT de OpenAI han estado a la vanguardia, y otras empresas han seguido de cerca su ejemplo con modelos e iteraciones similares.
Si bien OpenAI ha estado ocupado impulsando nuevas actualizaciones y funciones para su chatbot impulsado por IA para mejorar su experiencia de usuario, un grupo de investigadores de Stanford ha llegado a una nueva revelación que ChatGPT se ha vuelto más tonto en los últimos meses.
El documento de investigación «¿Cómo cambia el comportamiento de ChatGPT con el tiempo?» por Lingjiao Chen, Matei Zaharia y James Zou de la Universidad de Stanford y UC Berkley ilustra cómo las funcionalidades clave del chatbot se han deteriorado en los últimos meses.
Hasta hace poco, ChatGPT se basó en el modelo GPT-3.5 de OpenAI, que limitaba el alcance del usuario a vastos recursos en la web porque estaba restringido a información previa a septiembre de 2021. Y aunque OpenAI ha debutado desde entonces Navegar con Bing en la aplicación ChatGPT para iOS para mejorar la experiencia de navegación, aún necesitará una suscripción a ChatGPT Plus para acceder a la función.
GPT-3.5 y GPT-4 se actualizan utilizando comentarios y datos de los usuarios; sin embargo, es imposible establecer cómo se hace exactamente. Podría decirse que el éxito o el fracaso de los chatbots está determinado por su precisión. Sobre la base de esta premisa, los investigadores de Stanford se propusieron comprender la curva de aprendizaje de estos modelos mediante la evaluación del comportamiento de las versiones de marzo y junio de estos modelos.
Para determinar si ChatGPT estaba mejorando o empeorando con el tiempo, los investigadores utilizaron las siguientes técnicas para medir sus capacidades:
Resolver problemas de matematicas
Responder preguntas delicadas/peligrosas
Generando código
Razonamiento visual
Los investigadores destacaron que las tareas anteriores se seleccionaron cuidadosamente para representar las «capacidades diversas y útiles de estos LLM». Pero luego determinaron que su rendimiento y comportamiento eran completamente diferentes. Además, mencionaron que su desempeño en ciertas tareas se ha visto afectado negativamente.
(Crédito de la imagen: investigadores de Stanford) Estos son los principales hallazgos de los investigadores después de evaluar el rendimiento de las versiones de marzo de 2023 y junio de 2023 de GPT-4 y GPT-3.5 en los cuatro tipos de tareas resaltadas anteriormente:
En pocas palabras, hay muchos cambios de rendimiento interesantes a lo largo del tiempo. Por ejemplo, GPT-4 (marzo de 2023) fue muy bueno para identificar números primos (precisión del 97,6 %), pero GPT-4 (junio de 2023) fue muy deficiente en estas mismas preguntas (precisión del 2,4 %). Curiosamente, GPT-3.5 (junio de 2023) fue mucho mejor que GPT-3.5 (marzo de 2023) en esta tarea. Esperamos que la publicación de los conjuntos de datos y las generaciones pueda ayudar a la comunidad a comprender cómo se derivan mejor los servicios de LLM. La figura anterior da una [quantitative] resumen.
Investigadores de Stanford
Análisis de rendimiento
En primer lugar, a ambos modelos se les encomendó la tarea de resolver un problema matemático, y los investigadores monitorearon de cerca la precisión y la superposición de respuestas de GPT-4 y GPT-3.5 entre las versiones de marzo y junio de los modelos. Y fue evidente que hubo una gran deriva en el rendimiento, con el modelo GPT-4 siguiendo el mensaje de cadena de pensamiento y finalmente dando la respuesta correcta en marzo. Sin embargo, los mismos resultados no se pudieron replicar en junio, ya que el modelo se saltó la instrucción de la cadena de pensamiento y dio una respuesta totalmente incorrecta.
(Crédito de la imagen: investigadores de Stanford) En cuanto a GPT-3.5, se apegó al formato de cadena de pensamiento, pero inicialmente dio una respuesta incorrecta. Sin embargo, el problema se solucionó en junio y el modelo mostró mejoras en términos de rendimiento.
«La precisión de GPT-4 cayó del 97,6 % en marzo al 2,4 % en junio, y hubo una gran mejora en la precisión de GPT-3.5, del 7,4 % al 86,8 %. Además, la respuesta de GPT-4 se volvió mucho más compacta: su verbosidad promedio (número de caracteres generados) disminuyó de 821,2 en marzo a 3,8 en junio. Por otro lado, hubo un crecimiento de alrededor del 40 % en la longitud de respuesta de GPT-3.5. La superposición de respuestas entre sus versiones de marzo y junio también fue pequeño para ambos servicios.» declararon los investigadores de Stanford. Además, atribuyeron las disparidades a las «desviaciones de los efectos de la cadena de pensamientos».
Ambos LLM dieron una respuesta detallada en marzo cuando se les preguntó sobre preguntas delicadas, citando su incapacidad para responder a las indicaciones con rastros de discriminación. Mientras que, en junio, ambas modelos se negaron rotundamente a dar respuesta a la misma consulta.
Los usuarios que forman parte de la comunidad r/ChatGPT en Reddit expresaron un cóctel de sentimientos y teorías sobre los hallazgos clave del informe, como se destaca a continuación:
openAI está tratando de reducir los costos de ejecución de chatGPT, ya que están perdiendo mucho dinero. Por lo tanto, están modificando gpt para proporcionar respuestas de la misma calidad con menos recursos y probarlas mucho. Si ven regresiones, retroceden y prueban algo diferente. Entonces, en su opinión, no se volvió más tonto, pero sí mucho más barato. El problema es que ninguna prueba es completamente comprensible y seguramente ayudaría si ampliaran un poco el conjunto de pruebas. Entonces, si bien es lo mismo en su prueba, puede ser mucho peor en otras pruebas, como las del artículo. Es por eso que también vemos la variación en los comentarios, según el caso de uso: algunos pueden jurar que es lo mismo, para otros, se volvió terrible
Tucpek, Reddit
Todavía es demasiado pronto para determinar qué tan preciso es este estudio. Es necesario realizar más puntos de referencia para estudiar estas tendencias. Pero ignorar estos hallazgos y si los mismos resultados se pueden replicar en otras plataformas, como Bing Chat, es imposible.
Como recordará, unas semanas después del lanzamiento de Bing Chat, varios usuarios mencionaron casos en los que el chatbot había sido grosero o había dado respuestas equivocadas a las consultas. A su vez, esto hizo que los usuarios cuestionaran la credibilidad y la precisión de la herramienta, lo que llevó a Microsoft a implementar medidas elaboradas para evitar que este problema se repita. Es cierto que la compañía constantemente ha lanzado nuevas actualizaciones a la plataforma, y se pueden citar varias mejoras.
Los investigadores de Stanford dijeron:
«Nuestros hallazgos demuestran que el comportamiento de GPT-3.5 y GPT-4 ha variado significativamente durante un período de tiempo relativamente corto. Esto destaca la necesidad de evaluar y evaluar continuamente el comportamiento de los LLM en aplicaciones de producción. Planeamos actualizar los hallazgos presentados. aquí en un estudio continuo a largo plazo mediante la evaluación regular de GPT-3.5, GPT-4 y otros LLM en diversas tareas a lo largo del tiempo Para los usuarios o empresas que confían en los servicios de LLM como un componente en su flujo de trabajo continuo, recomendamos que implementen análisis de seguimiento similar al que hacemos aquí para sus aplicaciones»,