ChatGPT generó notas clínicas a la par de las escritas por residentes senior de medicina interna, según un estudio que sugirió que la tecnología podría estar lista para desempeñar un papel más importante en la práctica clínica diaria.
Las calificaciones otorgadas para las notas clínicas sobre el historial de la enfermedad actual (HPI) diferían en menos de 1 punto en una escala compuesta de 15 puntos entre los residentes mayores y una versión anterior de ChatGPT (media 12,18 frente a 11,23, PAG=0,09), según Ashwin Nayak, MD, de la Universidad de Stanford en California, y coautores.
Sin embargo, los HPI escritos por residentes recibieron puntuaciones medias más altas por su nivel de detalle (4,13 frente a 3,57, PAG=0.006), informaron los investigadores en una carta de investigación en JAMA Medicina Interna.
Los médicos tratantes de medicina interna que revisaron las notas pudieron clasificar correctamente si los HPI fueron generados por ChatGPT con solo un 61 % de precisión (PAG=0,06).
«Los grandes modelos de lenguaje como ChatGPT parecen estar lo suficientemente avanzados como para redactar notas clínicas en un nivel que nos gustaría como médico que revisa los gráficos e interpreta la situación clínica», dijo Nayak. Medpage hoy. «Eso es bastante emocionante porque abre muchas puertas a formas de automatizar algunas de las tareas más insignificantes y las tareas de documentación que a los médicos no les encanta hacer».
En total, se pidió a 30 médicos asistentes de medicina interna que evaluaran a ciegas cinco HPI (cuatro escritos por residentes mayores y uno generado por ChatGPT) y los calificaran según su nivel de detalle, concisión y organización.
Los investigadores también utilizaron un método de ingeniería rápido para generar los HPI escritos por IA. Este proceso implicó ingresar una transcripción de una interacción paciente-proveedor en la versión de ChatGPT del 9 de enero de 2023 para producir HPI, analizarlos en busca de errores y usar esos HPI para modificar el aviso. Este proceso se repitió dos veces para garantizar que el chatbot de IA produjera un HPI preciso para la revisión final, y solo se seleccionó uno del conjunto final para compararlo con los HPI de los residentes mayores.
A pesar de la necesidad de una ingeniería rápida y la posibilidad de errores en los HPI generados por IA, Nayak enfatizó el potencial de usar chatbots de IA en la documentación clínica.
«Para muchas notas clínicas, no necesitamos que las cosas sean perfectas. Necesitamos que estén por encima de algún tipo de umbral», dijo. «Y parece que, en esta situación sintética, pareció hacer el trabajo».
Nayak también señaló que su estudio usó una versión anterior de ChatGPT, con tecnología GPT-3.5, lo que probablemente significaba que estos resultados serían diferentes si se repitieran con la versión más nueva del chatbot con IA que funciona con GPT-4, que se lanzó en marzo. 13, 2023.
«No tengo ninguna duda de que si este experimento se repitiera con GPT-4, los resultados serían aún más significativos», dijo Nayak. «Creo que las notas probablemente serían equivalentes o incluso tenderían a mejorar en el lado de GPT-4. Creo que la evaluación médica de si una nota fue escrita por una IA o por un ser humano sería aún peor».
Aún así, Nayak instó a la precaución a la hora de sacar conclusiones firmes sobre la implementación de ChatGPT en la escritura de notas clínicas del mundo real, porque los HPI se basaron en transcripciones ficticias de conversaciones inventadas entre pacientes y proveedores. Si bien las transcripciones fueron validadas para el estudio, Nayak pidió más investigación y pruebas.
«Se necesita más trabajo con datos de pacientes reales», concluyó Nayak. «Se necesita más trabajo con diferentes tipos de notas, diferentes aspectos de la nota. Simplemente nos enfocamos en la historia de la enfermedad actual, que es solo una sección de la nota».
En un editorial adjunto, Eric Ward, MD, de la Universidad de California en San Francisco, y Cary Gross, MD, de la Universidad de Yale en New Haven, Connecticut, escribieron que se está desarrollando una nueva era de la atención médica con la innovación de la IA y enfatizaron la necesidad crítica para la investigación basada en la evidencia sobre la implementación de esta tecnología en la práctica clínica.
«La falta de apreciación de los aspectos únicos de la tecnología podría dar lugar a evaluaciones incorrectas o irreproducibles de su rendimiento y a una difusión prematura en la atención clínica», escribieron. «La comunidad científica ha aceptado este desafío, y los profesionales de la salud, las instituciones educativas y los financiadores de la investigación deben dedicar atención y recursos para garantizar que estas herramientas se utilicen de manera ética y adecuada».
Enfatizaron que se necesitan estudios como este para comprender cómo y cuándo se puede usar la tecnología de IA en medicina. Al servicio de esa idea, JAMA Medicina Interna también publicó junto con el estudio de Nayak y el editorial otra carta de investigación que cubre el rendimiento de la IA en la educación sanitaria.
Ese estudio encontró que la versión GPT-4 de ChatGPT superó a los estudiantes de medicina de primer y segundo año de la Universidad de Stanford en los exámenes de razonamiento clínico.
«Dadas las capacidades de los sistemas de IA de chatbot de propósito general, la medicina debe incorporar temas relacionados con la IA en la capacitación clínica y la educación médica continua», concluyeron los investigadores dirigidos por Eric Strong, MD, de Stanford. «Dado que la comunidad médica tuvo que aprender recursos en línea y registros médicos electrónicos, el próximo desafío es aprender el uso juicioso de la IA generativa para mejorar la atención al paciente».
Divulgaciones
Gross informó relaciones financieras con Johnson & Johnson, NCCN (financiación de AstraZeneca) y Genentech.
Strong no informó ningún conflicto de interés relevante. Los coautores informaron relaciones con More Health, Stanford Artificial Intelligence in Medicine and Imaging – Human-Centered Artificial Intelligence Partnership, Google, Doris Duke Foundation COVID-19 Fund to Retain Clinical Scientists, National Institute on Drug Abuse, National Institutes of Health Clinical Trials Network, la Red de Investigación Enfocada Estratégicamente de la Asociación Estadounidense del Corazón: diversidad en ensayos clínicos, Reaction Explorer, Younker Hyde Macfarlane y Sutton Pierce.
El grupo de Nayak no informó conflictos de interés.
Fuente principal
JAMA Medicina Interna
Fuente de referencia: Nayak A, et al «Comparación del historial de resúmenes de enfermedades actuales generados por un chatbot y residentes de medicina interna de alto nivel» JAMA Intern Med 2023; DOI: 10.1001/jamainternmed.2023.2561.
Fuente secundaria
JAMA Medicina Interna
Fuente de referencia: Ward E, Gross C «Métodos en evolución para evaluar el rendimiento de los chatbots en la investigación en ciencias de la salud» JAMA Intern Med 2023; DOI: 10.1001/jamainternmed.2023.2567.
Fuente adicional
JAMA Medicina Interna
Fuente de referencia: Strong E, et al «Chatbot frente al rendimiento de los estudiantes de medicina en los exámenes de razonamiento clínico de respuesta libre» JAMA Intern Med 2023; DOI: 10.1001/jamainternmed.2023.2909.