Resumen: Un estudio novedoso puso a prueba la destreza de diagnóstico de la IA generativa, específicamente el chatbot GPT-4, y arrojó resultados prometedores.
El estudio involucró la evaluación de la precisión diagnóstica de la IA en el manejo de casos médicos complejos, con GPT-4 identificando correctamente el diagnóstico principal casi el 40 % de las veces e incluyendo el diagnóstico correcto en su lista de diagnósticos potenciales en el 64 % de los casos difíciles.
El éxito de la IA en este estudio podría proporcionar nuevos conocimientos sobre sus posibles aplicaciones en entornos clínicos. Sin embargo, se necesita más investigación para abordar los beneficios, el uso óptimo y las limitaciones de dicha tecnología.
Hechos clave:
- En un estudio que involucró 70 casos clínicos complejos, GPT-4 coincidió correctamente con el diagnóstico final el 39% de las veces.
- GPT-4 incluyó el diagnóstico correcto en su lista diferencial (una lista de condiciones potenciales basadas en los síntomas, el historial médico y los hallazgos clínicos de los pacientes) en el 64 % de los casos.
- A pesar de los resultados prometedores, los investigadores enfatizan la importancia de seguir investigando para comprender el uso óptimo, los beneficios y las limitaciones de la IA en un entorno clínico.
Fuente: BIDMC
En un experimento reciente publicado en JAMAlos médicos investigadores del Centro Médico Beth Israel Deaconess (BIDMC) probaron la capacidad de un conocido chatbot disponible públicamente para realizar diagnósticos precisos en casos médicos difíciles.
El equipo encontró que la IA generativa, Chat-GPT 4, seleccionó el diagnóstico correcto como su diagnóstico principal casi el 40 por ciento de las veces y proporcionó el diagnóstico correcto en su lista de diagnósticos potenciales en dos tercios de los casos difíciles.
La IA generativa se refiere a un tipo de inteligencia artificial que utiliza patrones e información con la que ha sido entrenada para crear contenido nuevo, en lugar de simplemente procesar y analizar los datos existentes.
Algunos de los ejemplos más conocidos de IA generativa son los llamados chatbots, que utilizan una rama de la inteligencia artificial llamada procesamiento del lenguaje natural (NLP) que permite a las computadoras comprender, interpretar y generar un lenguaje similar al humano. Los chatbots de IA generativa son herramientas poderosas preparadas para revolucionar las industrias creativas, la educación, el servicio al cliente y más.
Sin embargo, se sabe poco sobre su desempeño potencial en el entorno clínico, como el razonamiento diagnóstico complejo.
“Los avances recientes en inteligencia artificial han llevado a modelos de IA generativos que son capaces de dar respuestas detalladas basadas en texto que obtienen una alta puntuación en los exámenes médicos estandarizados”, dijo Adam Rodman, MD, MPH, codirector de Innovations in Media and Education Delivery ( iMED) Initiative en BIDMC e instructor en medicina en Harvard Medical School.
“Queríamos saber si un modelo generativo de este tipo podía ‘pensar’ como un médico, así que le pedimos a uno que resolviera casos de diagnóstico complejos estandarizados utilizados con fines educativos. Lo hizo muy, muy bien”.
Para evaluar las habilidades de diagnóstico del chatbot, Rodman y sus colegas utilizaron conferencias de casos clinicopatológicos (CPC), una serie de casos de pacientes complejos y desafiantes que incluyen datos clínicos y de laboratorio relevantes, estudios de imágenes y hallazgos histopatológicos publicados en el Revista de medicina de Nueva Inglaterra con fines educativos.
Al evaluar 70 casos de CPC, la inteligencia artificial coincidió exactamente con el diagnóstico final de CPC en 27 (39 por ciento) de los casos. En el 64 por ciento de los casos, el diagnóstico final de CPC se incluyó en el diferencial de AI: una lista de posibles afecciones que podrían explicar los síntomas, el historial médico, los hallazgos clínicos y los resultados de laboratorio o de imágenes de un paciente.
«Si bien los chatbots no pueden reemplazar la experiencia y el conocimiento de un profesional médico capacitado, la IA generativa es un complemento potencial prometedor para la cognición humana en el diagnóstico», dijo el primer autor Zahir Kanjee, MD, MPH, hospitalista en BIDMC y profesor asistente de medicina en Harvard. Escuela de Medicina.
“Tiene el potencial de ayudar a los médicos a dar sentido a los datos médicos complejos y ampliar o refinar nuestro pensamiento de diagnóstico. Necesitamos más investigación sobre los usos óptimos, los beneficios y los límites de esta tecnología, y muchos problemas de privacidad deben resolverse, pero estos son hallazgos emocionantes para el futuro del diagnóstico y la atención al paciente”.
«Nuestro estudio se suma a un creciente cuerpo de literatura que demuestra las capacidades prometedoras de la tecnología de IA», dijo el coautor Byron Crowe, MD, médico de medicina interna en BIDMC e instructor de medicina en la Escuela de Medicina de Harvard.
«Una mayor investigación nos ayudará a comprender mejor cómo estos nuevos modelos de IA podrían transformar la prestación de atención médica».
Este trabajo no recibió financiación ni patrocinio por separado. Kanjee informa regalías por libros editados y membresía de una junta asesora paga para productos de educación médica no relacionados con inteligencia artificial de Wolters Kluwer, así como honorarios por CME entregados por Oakstone Publishing. Crowe informa empleo de Solera Health fuera del trabajo presentado. Rodman informa que no tiene conflictos de intereses.
Acerca de esta noticia de investigación de ChatGPT e IA
Autor: cloe meck
Fuente: BIDMC
Contacto; Chloe Meck – BIDMC
Imagen: La imagen está acreditada a Neuroscience News.
Investigacion original: Acceso cerrado.
“Precisión de un modelo de inteligencia artificial generativa en un desafío de diagnóstico complejo” por Adam Rodman et al. JAMA
Abstracto
Precisión de un modelo de inteligencia artificial generativa en un desafío de diagnóstico complejo
Los avances recientes en inteligencia artificial (IA) han llevado a modelos generativos capaces de dar respuestas precisas y detalladas basadas en texto a avisos escritos («chats»). Estos modelos obtienen una puntuación alta en los exámenes médicos estandarizados.
Se sabe menos sobre su desempeño en aplicaciones clínicas como el razonamiento diagnóstico complejo. Evaluamos la precisión de uno de esos modelos (Generative Pre-trained Transformer 4 [GPT-4]) en una serie de casos diagnósticamente difíciles.