ChatGPT de OpenAI no logró aprobar una prueba de práctica de autoevaluación del Colegio Estadounidense de Gastroenterología (ACG), informaron los investigadores.
Usando preguntas de las evaluaciones de práctica de opción múltiple de 2021 y 2022 del ACG, las versiones GPT-3.5 y GPT-4 obtuvieron un 65.1 % (296 de 455 preguntas) y un 62.4 % (284 de 455 preguntas), respectivamente, según Arvind. Trindade, MD, de los Institutos Feinstein de Investigación Médica de Northwell Health en Manhasset, Nueva York, y coautores.
Ambas versiones del chatbot de inteligencia artificial (IA) no lograron la calificación requerida del 70% para aprobar los exámenes, informaron en el Revista americana de gastroenterología.
«Nos sorprendió ver que el punto de referencia está en el lado inferior, pero también proporciona un marco en términos de mejora», dijo Trindade. MedPage hoy. «Sabemos que es más bajo, entonces, ¿qué debemos hacer para mejorarlo?»
«Realmente no tiene una comprensión intrínseca de un tema o problema, lo que mucha gente piensa que sí», agregó Trindade. «Para la medicina, desea algo que le brinde información precisa, ya sea para los aprendices o incluso para los pacientes que están viendo esto, y desearía un umbral del 95% o más».
Para realizar las pruebas, los investigadores copiaron y pegaron cada pregunta con sus posibles respuestas directamente en ChatGPT. Después de que el chatbot de IA generó una respuesta con una explicación, los autores seleccionaron la respuesta correspondiente en la evaluación basada en la web de ACG.
Cada versión anual de la evaluación consta de 300 preguntas de opción múltiple que incluyen comentarios en tiempo real. Las evaluaciones están diseñadas para reflejar el desempeño de un examinado en el examen de la junta de gastroenterología de la Junta Estadounidense de Medicina Interna.
En total, Trindade y su equipo utilizaron 455 preguntas para cada versión de ChatGPT. Excluyeron 145 preguntas debido a un requisito de imagen. Usaron la versión GPT-3.5 disponible el 11 de marzo y volvieron a realizar las pruebas con la versión GPT-4 cuando estuvo disponible el 25 de marzo.
Si bien los investigadores establecieron una precisión del 70 % como punto de referencia para este estudio, Trindade señaló que la comunidad médica debería tener estándares mucho más altos. Dijo que la reciente avalancha de documentos que muestran que ChatGPT pasó otras evaluaciones médicas podría estar eclipsando el hecho de que esta tecnología no está lista para el uso clínico regular.
«Puedes definir un umbral como quieras y decir [ChatGPT] lo aprobó, pero ¿aprobar es lo suficientemente bueno para la medicina?», dijo Trindade. «Yo diría que no lo es. Quieres que apruebe el examen».
«Es importante que la comunidad médica comprenda que aún no está listo para el horario de máxima audiencia», agregó. «Y el hecho de que pase la prueba no significa que debamos usarlo».
Trindade reconoció que esta tecnología se está moviendo a un ritmo increíble y ha visto a muchas personas en entornos médicos usándola. Si bien la tecnología llegó para quedarse, dijo, los profesionales médicos deberían pensar en formas de optimizarla para uso clínico.
«De generación en generación, la forma en que aprendemos y la forma en que accedemos a los datos y la información, ya sea con fines educativos o incluso para responder una pregunta pertinente a la atención del paciente con el paciente frente a nosotros, el paradigma está cambiando en cómo la gente está accediendo a la información», dijo.
El estudio es otro ejemplo de investigación que prueba el rendimiento de los modelos de IA en las pruebas de acreditación médica, que se ha convertido en una forma de representar las capacidades de la tecnología como herramienta médica.
Estos esfuerzos tuvieron un momento decisivo en diciembre de 2022 cuando los investigadores de Google demostraron que el modelo de IA con entrenamiento médico de la compañía, conocido como Med-PaLM, logró una precisión del 67,6 % y superó el umbral común para aprobar las puntuaciones en una serie de preguntas del Examen de Licencias Médicas de EE. UU. ( USMLE). Esos investigadores fueron un paso más allá en marzo, cuando Google anunció que Med-PaLM 2, una versión actualizada de este modelo de IA, logró una precisión del 85 % y se desempeñó a niveles de médicos «expertos» en una evaluación práctica similar utilizando preguntas del USMLE.
Por su parte, ChatGPT no ha sido ajeno a demostrar que puede superar los umbrales de precisión para los exámenes médicos, como un estudio reciente que muestra que logró una precisión del 80,7 % en una evaluación estilo placa de radiología. En otro estudio reciente, incluso se descubrió que el chatbot de IA superaba a los médicos al responder las preguntas generadas por los pacientes. Ese estudio mostró que los evaluadores preferían las respuestas de ChatGPT más del 75 % de las veces en comparación con las respuestas de médicos reales durante una evaluación ciega.
El rendimiento de este examen de gastroenterología es el ejemplo más reciente de que los modelos de IA, especialmente aquellos que no tienen información ni capacitación médica específica, no son herramientas perfectas para uso clínico, según Trindade.
“A medida que van saliendo estos modelos de IA y estas plataformas, que hacen que sea tan fácil escribir una pregunta y escupir una respuesta, es atractivo porque estamos muy ocupados en estos días”, dijo. «Lo que tenemos que hacer es simplemente dar un paso atrás, y creo [papers] así ayudará a establecer que no está listo para el horario de máxima audiencia».
Divulgaciones
Trindade informó consultar con Pentax Medical, Boston Scientific, Lucid Diagnostic y Exact Science, y el apoyo a la investigación de Lucid Diagnostics.
Fuente principal
Revista americana de gastroenterología
Fuente de referencia: Suchman K, et al «ChatGPT falla en la prueba de autoevaluación del Colegio Americano de Gastroenterología de opción múltiple» Am J Gastroenterol 2023; DOI: 10.14309/ajg.0000000000002320.