La paciente era una mujer de 39 años que acudió al departamento de emergencias del Centro Médico Beth Israel Deaconess en Boston. Le dolía la rodilla izquierda desde hacía varios días. El día anterior, tenía fiebre de 102° F (39° C). Ya no estaba, pero todavía tenía escalofríos. Y su rodilla estaba roja e hinchada.
¿Cuál fue el diagnóstico?
En un caluroso viernes reciente, la Dra. Megan Landon, residente médica, planteó este caso real en una sala llena de estudiantes de medicina y residentes. Se reunieron para aprender una habilidad que puede ser endiabladamente difícil de enseñar: cómo pensar como un médico.
“Los médicos son terribles para enseñar a otros médicos cómo pensamos”, dijo el Dr. Adam Rodman, internista, historiador médico y organizador del evento en Beth Israel Deaconess.
Pero esta vez, podrían pedir ayuda a un experto para llegar a un diagnóstico: GPT-4, la última versión de un chatbot lanzado por la empresa OpenAI.
La inteligencia artificial está transformando muchos aspectos de la práctica de la medicina, y algunos profesionales médicos están utilizando estas herramientas para ayudarlos con el diagnóstico. Los médicos de Beth Israel Deaconess, un hospital docente afiliado a la Escuela de Medicina de Harvard, decidieron explorar cómo los chatbots podrían usarse, y maltratarse, en la capacitación de futuros médicos.
Los instructores como el Dr. Rodman esperan que los estudiantes de medicina puedan recurrir a GPT-4 y otros chatbots para algo similar a lo que los médicos llaman una consulta en la acera: cuando llaman a un colega a un lado y le piden una opinión sobre un caso difícil. La idea es usar un chatbot de la misma manera que los médicos se consultan entre sí para obtener sugerencias y puntos de vista.
Durante más de un siglo, los médicos han sido retratados como detectives que reúnen pistas y las usan para encontrar al culpable. Pero los médicos experimentados en realidad usan un método diferente, el reconocimiento de patrones, para descubrir qué es lo que está mal. En medicina, se llama guion de enfermedad: signos, síntomas y resultados de pruebas que los médicos reúnen para contar una historia coherente basada en casos similares que conocen o que han visto ellos mismos.
Si el guión de la enfermedad no ayuda, dijo el Dr. Rodman, los médicos recurren a otras estrategias, como asignar probabilidades a varios diagnósticos que podrían encajar.
Los investigadores han intentado durante más de medio siglo diseñar programas informáticos para realizar diagnósticos médicos, pero nada ha tenido éxito.
Los médicos dicen que GPT-4 es diferente. “Creará algo que es notablemente similar a un guión de enfermedad”, dijo el Dr. Rodman. De esa manera, agregó, “es fundamentalmente diferente a un motor de búsqueda”.
El Dr. Rodman y otros médicos de Beth Israel Deaconess han pedido a GPT-4 posibles diagnósticos en casos difíciles. En un estudio publicado el mes pasado en la revista médica JAMAencontraron que lo hizo mejor que la mayoría de los médicos en los desafíos de diagnóstico semanales publicados en el Revista de medicina de Nueva Inglaterra.
Pero, aprendieron, hay un arte en el uso del programa, y hay trampas.
El Dr. Christopher Smith, director del programa de residencia en medicina interna del centro médico, dijo que los estudiantes de medicina y los residentes “definitivamente lo están usando”. Pero, agregó, «si están aprendiendo algo es una pregunta abierta». La preocupación es que podrían confiar en la IA para hacer diagnósticos de la misma manera que confiarían en una calculadora en sus teléfonos para resolver problemas matemáticos. Eso, dijo el Dr. Smith, es peligroso.
Aprender, dijo, implica tratar de resolver las cosas: “Así es como retenemos las cosas. Parte del aprendizaje es la lucha. Si externaliza el aprendizaje a GPT, esa lucha se acaba”.
En la reunión, los estudiantes y los residentes se dividieron en grupos y trataron de averiguar qué le pasaba al paciente con la rodilla hinchada. Luego recurrieron a GPT-4.
Los grupos probaron diferentes enfoques.
Uno usó GPT-4 para hacer una búsqueda en Internet, similar a la forma en que usaría Google. El chatbot escupió una lista de posibles diagnósticos, incluido el trauma. Pero cuando los miembros del grupo le pidieron que explicara su razonamiento, el bot se mostró decepcionado y explicó su elección diciendo: «El trauma es una causa común de lesión en la rodilla».
Otro grupo pensó en posibles hipótesis y le pidió a GPT-4 que las revisara. La lista del chatbot coincidía con la del grupo: infecciones, incluida la enfermedad de Lyme; artritis, incluida la gota, un tipo de artritis que involucra cristales en las articulaciones; y traumatismos.
GPT-4 agregó la artritis reumatoide a las principales posibilidades, aunque no ocupaba un lugar destacado en la lista del grupo. Los instructores le dijeron más tarde al grupo que la gota era improbable para esta paciente porque era joven y mujer. Y la artritis reumatoide probablemente podría descartarse porque solo una articulación estuvo inflamada durante solo un par de días.
Como consulta en la acera, GPT-4 pareció pasar la prueba o, al menos, estar de acuerdo con los estudiantes y residentes. Pero este ejercicio no ofreció ideas ni guiones de enfermedad.
Una razón podría ser que los estudiantes y los residentes usaron el bot más como un motor de búsqueda que como una consulta en la acera.
Para usar el bot correctamente, dijeron los instructores, tendrían que comenzar diciéndole a GPT-4 algo como: «Usted es un médico que ve a una mujer de 39 años con dolor de rodilla». Luego, tendrían que enumerar sus síntomas antes de solicitar un diagnóstico y hacer un seguimiento con preguntas sobre el razonamiento del bot, como lo harían con un colega médico.
Eso, dijeron los instructores, es una forma de explotar el poder de GPT-4. Pero también es crucial reconocer que los chatbots pueden cometer errores y «alucinar»: brindan respuestas sin base en los hechos. Usarlo requiere saber cuándo es incorrecto.
“No está mal usar estas herramientas”, dijo el Dr. Byron Crowe, médico de medicina interna del hospital. “Solo tienes que usarlos de la manera correcta”.
Le dio al grupo una analogía.
“Los pilotos usan GPS”, dijo el Dr. Crowe. Pero, agregó, las aerolíneas “tienen un estándar muy alto de confiabilidad”. En medicina, dijo, usar chatbots “es muy tentador”, pero se deben aplicar los mismos altos estándares.
“Es un gran compañero de pensamiento, pero no reemplaza la experiencia mental profunda”, dijo.
Cuando terminó la sesión, los instructores revelaron la verdadera razón de la inflamación de la rodilla del paciente.
Resultó ser una posibilidad que todos los grupos habían considerado y que GPT-4 había propuesto.
Tenía la enfermedad de Lyme.