La última versión de ChatGPT pasó un examen estilo tablero de radiología, lo que destaca el potencial de los modelos de lenguaje grande pero también revela las limitaciones que dificultan la confiabilidad, según dos nuevos estudios de investigación publicados en Radiologíauna revista de la Sociedad Radiológica de América del Norte (RSNA).
ChatGPT es un chatbot de inteligencia artificial (IA) que utiliza un modelo de aprendizaje profundo para reconocer patrones y relaciones entre palabras en sus vastos datos de entrenamiento para generar respuestas similares a las humanas basadas en un aviso. Pero dado que no hay una fuente de verdad en sus datos de entrenamiento, la herramienta puede generar respuestas que son objetivamente incorrectas.
«El uso de modelos de lenguaje extenso como ChatGPT se está disparando y seguirá aumentando», dijo el autor principal Rajesh Bhayana, MD, FRCPC, radiólogo abdominal y líder tecnológico en University Medical Imaging Toronto, Toronto General Hospital en Toronto, Canadá. «Nuestra investigación proporciona información sobre el rendimiento de ChatGPT en un contexto de radiología, destacando el increíble potencial de los modelos de lenguaje grande, junto con las limitaciones actuales que lo hacen poco confiable».
ChatGPT fue nombrada recientemente la aplicación de consumo de más rápido crecimiento en la historia, y chatbots similares se están incorporando en motores de búsqueda populares como Google y Bing que médicos y pacientes usan para buscar información médica, señaló el Dr. Bhayana.
Para evaluar su desempeño en las preguntas del examen de la junta de radiología y explorar las fortalezas y limitaciones, el Dr. Bhayana y sus colegas primero probaron ChatGPT basado en GPT-3.5, actualmente la versión más utilizada. Los investigadores utilizaron 150 preguntas de opción múltiple diseñadas para coincidir con el estilo, el contenido y la dificultad de los exámenes del Canadian Royal College y la American Board of Radiology.
Las preguntas no incluían imágenes y se agruparon por tipo de pregunta para obtener información sobre el desempeño: pensamiento de orden inferior (recordar conocimientos, comprensión básica) y de orden superior (aplicar, analizar, sintetizar). Las preguntas de pensamiento de orden superior se subclasificaron aún más por tipo (descripción de los hallazgos de imágenes, manejo clínico, cálculo y clasificación, asociaciones de enfermedades).
El rendimiento de ChatGPT se evaluó en general y por tipo de pregunta y tema. También se evaluó la confianza en el lenguaje de las respuestas.
Los investigadores encontraron que ChatGPT basado en GPT-3.5 respondió correctamente el 69% de las preguntas (104 de 150), cerca del 70% de calificación aprobatoria utilizada por el Royal College en Canadá. El modelo se desempeñó relativamente bien en las preguntas que requerían un pensamiento de orden inferior (84 %, 51 de 61), pero tuvo problemas con las preguntas que requerían un pensamiento de orden superior (60 %, 53 de 89). Más específicamente, tuvo problemas con preguntas de orden superior relacionadas con la descripción de hallazgos de imágenes (61 %, 28 de 46), cálculo y clasificación (25 %, 2 de 8) y aplicación de conceptos (30 %, 3 de 10). Su pobre desempeño en preguntas de pensamiento de orden superior no fue sorprendente dada su falta de pertinencia específica de radiología.
GPT-4 se lanzó en marzo de 2023 de forma limitada para usuarios pagos, afirmando específicamente tener capacidades de razonamiento avanzadas mejoradas en comparación con GPT-3.5.
En un estudio de seguimiento, GPT-4 respondió correctamente el 81 % (121 de 150) de las mismas preguntas, superando a GPT-3.5 y superando el umbral de aprobación del 70 %. GPT-4 se desempeñó mucho mejor que GPT-3.5 en preguntas de pensamiento de orden superior (81 %), más específicamente aquellas relacionadas con la descripción de hallazgos de imágenes (85 %) y la aplicación de conceptos (90 %).
Los hallazgos sugieren que las capacidades de razonamiento avanzado mejoradas de GPT-4 se traducen en un rendimiento mejorado en un contexto de radiología. También sugieren una mejor comprensión contextual de la terminología específica de la radiología, incluidas las descripciones de imágenes, que es fundamental para permitir futuras aplicaciones posteriores.
“Nuestro estudio demuestra una mejora impresionante en el rendimiento de ChatGPT en radiología durante un período de tiempo corto, lo que destaca el potencial creciente de los modelos de lenguaje grande en este contexto”, dijo el Dr. Bhayana.
GPT-4 no mostró mejoras en las preguntas de pensamiento de orden inferior (80% frente a 84%) y respondió incorrectamente 12 preguntas que GPT-3.5 respondió correctamente, lo que generó preguntas relacionadas con su confiabilidad para recopilar información.
“Inicialmente nos sorprendieron las respuestas precisas y confiables de ChatGPT a algunas preguntas radiológicas desafiantes, pero luego nos sorprendieron igualmente algunas afirmaciones muy ilógicas e inexactas”, dijo el Dr. Bhayana. “Por supuesto, dada la forma en que funcionan estos modelos, las respuestas inexactas no deberían ser particularmente sorprendentes”.
La peligrosa tendencia de ChatGPT a producir respuestas inexactas, denominadas alucinaciones, es menos frecuente en GPT-4, pero aún limita la usabilidad en la educación y la práctica médica en la actualidad.
Ambos estudios mostraron que ChatGPT usaba un lenguaje seguro de manera constante, incluso cuando era incorrecto. Esto es particularmente peligroso si solo se utiliza como información, señala el Dr. Bhayana, especialmente para los novatos que pueden no reconocer las respuestas incorrectas seguras como inexactas.
“Para mí, esta es su mayor limitación. En la actualidad, ChatGPT se utiliza mejor para generar ideas, ayudar a iniciar el proceso de redacción médica y resumir datos. Si se usa para recuperar información rápidamente, siempre debe verificarse”, dijo el Dr. Bhayana.
Referencias: Bhayana R, Krishna S, Bleakney RR. Rendimiento de ChatGPT en un examen de estilo de tablero de radiología: información sobre las fortalezas y limitaciones actuales. Radiología. Publicado en línea el 16 de mayo de 2023: 230582. doi:10.1148/radiol.230582