La capacidad de ChatGPT para escribir código ha empeorado en los últimos meses y el porcentaje de avisos que producen resultados de código de trabajo se redujo drásticamente entre marzo y junio, según descubrió un nuevo estudio.
Un equipo de investigadores de Stanford y la Universidad de California Berkeley se dispuso a probar cómo los modelos de lenguaje extenso (LLM) que sustentan ChatGPT (GPT 3.5 y GPT 4) han cambiado con el tiempo.
Los resultados, publicados en el sitio de preimpresión de acceso abierto arXiv, cuantifican una disminución en la calidad de ChatGPT que han notado algunos de sus usuarios.
Para la sección del artículo sobre generación de código, los investigadores tomaron 50 problemas «fáciles» de la plataforma de aprendizaje LeetCode y los alimentaron a GPT-4 y GPT-3.5 en forma de indicaciones.
Luego, las respuestas de los modelos se enviaron de regreso a LeetCode para su evaluación. Si pasaba, el código se clasificaba como ‘directamente ejecutable’.
Cuando se realizó esta prueba con la versión de marzo de 2023 de GPT-4, más de la mitad (52 %) de las respuestas generadas eran «directamente ejecutables», pero la versión de junio solo funcionó el 10 % de las veces.
GPT 3.5 se desempeñó aún peor, pasando del 22 % correcto en marzo a solo el 2 % con el modelo de junio.
A medida que los modelos de lenguaje empeoraban en su código, su verbosidad (la longitud de la respuesta generada) aumentaba.
Los investigadores plantean la hipótesis de que estas dos características de sus resultados experimentales están vinculadas y escriben que las versiones de junio «agregaron constantemente texto adicional sin código», a menudo en forma de comentarios, a pesar de que el mensaje solicitaba «solo código».
En un caso, GPT-4 agregó comillas erróneas que rompieron sus bloques de código funcionales.
Esos cambios muy pequeños, señalan los investigadores, pueden ser «particularmente difíciles de identificar cuando el código generado por LLM se usa dentro de una tubería de software más grande».
Otros temas que probaron los investigadores fueron la capacidad de ChatGPT para razonar a través de problemas matemáticos, ya sea que responda o no preguntas delicadas, y sus habilidades de razonamiento visual. Cada métrica produjo un cambio notable con el tiempo.
La razón matemática ofreció una sorpresa en el sentido de que el GPT-4 más avanzado pasó de razonar correctamente los problemas el 97,6 % del tiempo en marzo a solo el 2,4 % en junio, mientras que la tasa de éxito de su predecesor GPT-3.5 fue en gran medida en la otra dirección.
Los investigadores concluyeron que su estudio «destaca la necesidad de evaluar y evaluar continuamente el comportamiento de los LLM en las aplicaciones de producción».
“Para los usuarios o empresas que confían en los servicios de LLM como un componente de su flujo de trabajo continuo, recomendamos que implementen un análisis de monitoreo similar al que hacemos aquí para sus aplicaciones”, escribieron.