ChatGPT de OpenAI ha pasado otro examen médico, esta vez logrando un puntaje de aprobación en una prueba de estilo de placa de radiología, según dos nuevos estudios.
En las evaluaciones tanto de la versión GPT-3.5 como de la versión GPT-4 de ChatGPT, el chatbot de IA mejoró de un puntaje casi aprobatorio del 69,3 % a un puntaje aprobatorio del 80,7 % en un examen de 150 preguntas tipo tablero de radiología, Rajesh Bhayana , MD, de University Medical Imaging Toronto en Canadá, y sus colegas informaron en Radiología.
Específicamente, la versión GPT-4 superó a la versión GPT-3.5 en preguntas de pensamiento de orden superior (81 % frente a 60 %, PAG=0.002), especialmente aquellos que involucran descripciones de hallazgos de imagen (85% vs 61%, PAG=0.009) y aplicando conceptos médicos (90% vs 30%, PAG=0.006), informaron.
En particular, la versión más nueva de la tecnología no mostró ninguna mejora con respecto a la versión GPT-3.5 en las preguntas de orden inferior (80 % frente a 84 %, PAG=0.64), dijeron.
«La mejora en el razonamiento de orden superior, que sugiere una mejora en la comprensión del lenguaje contextual en radiología, pero también en la medicina en general, sugiere que estamos más cerca de… aplicaciones posteriores», dijo Bhayana. MedPage hoy.
Las preguntas estaban basadas en texto y de opción múltiple, y los investigadores las dividieron en dos categorías amplias (orden superior e inferior) para evaluar las fortalezas y debilidades específicas de la tecnología para brindar respuestas. Las preguntas también se seleccionaron para que coincidieran con el estilo, el contenido y la dificultad de los exámenes del Canadian Royal College y del American Board of Radiology.
Los investigadores definieron preguntas de pensamiento de orden inferior como aquellas que se centraban en la recuperación de conocimientos y la comprensión básica. Definieron las preguntas de pensamiento de orden superior como aquellas enfocadas en aplicaciones de conocimiento y análisis o síntesis de información.
Este género de investigación que utiliza modelos de IA en pruebas de acreditación médica se ha convertido en un lugar común desde el lanzamiento de ChatGPT el 30 de noviembre de 2022, y aprobar los exámenes de estilo de junta médica ha sido un objetivo de larga data para los desarrolladores de IA, especialmente el lenguaje extenso centrado en la medicina de Google. (LLM) conocido como Med-PaLM.
Esos esfuerzos de prueba de IA tuvieron un momento decisivo en diciembre de 2022 cuando los investigadores demostraron que Med-PaLM logró una precisión del 67,6%, un umbral común para aprobar los puntajes, en el Examen de Licencias Médicas de EE. UU. (USMLE). Fue un hito importante en la prueba de las capacidades de esta tecnología en la medicina, similar a la competencia en curso de AI con los grandes maestros de ajedrez a lo largo de los años.
Luego, en marzo de 2023, Google anunció que una versión actualizada de su LLM, llamada Med-PaLM 2, se desempeñó a niveles de médicos «expertos» en una serie de preguntas prácticas de USMLE y logró un 85 % de precisión, una mejora de 18 puntos porcentuales en menos de 3 meses.
Además de esas calificaciones máximas, ChatGPT fue evaluado recientemente en su capacidad para responder preguntas generadas por pacientes. En comparación con las respuestas de médicos reales, los evaluadores en una evaluación ciega prefirieron las respuestas de ChatGPT más del 75 % de las veces. Las respuestas del chatbot de IA también se calificaron como significativamente más empáticas que las respuestas de los médicos.
En el panorama general, los esfuerzos para demostrar lo que los modelos de IA pueden y no pueden hacer ahora es un ejercicio para establecer puntos de referencia, dijo Bhayana.
Señaló que el enfoque actual es determinar cómo ChatGPT y otros modelos de IA se pueden usar en medicina, pero advirtió que las aplicaciones son limitadas debido a las tendencias de las tecnologías a «alucinar» o mentir, a menudo con bastante confianza. Sin embargo, espera que la tecnología continúe mejorando para permitir aplicaciones más amplias en medicina.
«Es posible que podamos llegar a una precisión muy, muy alta», dijo. «Entonces se podría confiar más en la práctica clínica, pero también es posible que la tecnología tenga un umbral».
El objetivo es saber cuánto pueden confiar los médicos en estas herramientas, y luego comenzar a trabajar para mejorar y optimizar los modelos para usos clínicos específicos. Por el momento, se ha demostrado que la IA generativa es eficiente en ciertos usos, como el dictado y la transcripción, pero Bhayana cree que llevará más tiempo y actualizaciones antes de que los médicos puedan confiar en estas herramientas en situaciones clínicas más importantes.
«A medida que salen estas herramientas, [the key will be] comprender cómo se desempeñan, buscar aplicaciones para ellos y luego asegurarse de que las personas estén informadas sobre cuáles son sus fortalezas y limitaciones, de modo que [physicians] puede crecer con la tecnología», dijo Bhayana.
Corrección: un titular anterior de esta historia decía que este era el primer examen de la junta que ChatGPT había aprobado, pero el chatbot también aprobó el examen de la junta de neurocirugía.
Divulgaciones
Bhayana y los coautores no informaron conflictos de interés relevantes.
Fuente principal
Radiología
Fuente de referencia: Bhayana R, et al «Rendimiento de ChatGPT en un examen de estilo de tablero de radiología: información sobre las fortalezas y limitaciones actuales» Radiología 2023; DOI:10.1148/radiol.230582.
Fuente secundaria
Radiología
Fuente de referencia: Bhayana R, et al «GPT-4 en radiología: mejoras en el razonamiento avanzado» Radiología 2023; DOI: 10.1148/radiol.230987.