El Departamento de Neurocirugía de Brown prueba modelos de inteligencia artificial en preguntas escritas y orales del examen de la junta de neurocirugía

El Departamento de Neurocirugía de Brown publicó recientemente dos preprints que comparan el rendimiento de los modelos de lenguaje grande de inteligencia artificial ChatGPT, GPT-4 y Google Bard en los exámenes de la junta escrita de neurocirugía y el banco de preguntas preparatorias de la junta oral de neurocirugía.

Descubrieron que estos modelos de IA podían aprobar los exámenes escritos con “gran éxito”. Cuando se les desafió a responder las preguntas más complicadas del examen oral, que requieren un pensamiento de orden superior basado en la experiencia clínica y la exposición, los modelos aún se desempeñaron «excelentemente», dijo Ziya Gokaslan, profesor y presidente de neurocirugía en la Escuela de Medicina Warren Alpert y neurocirujano. en jefe en el Hospital de Rhode Island y el Hospital Miriam.

Desde su publicación, la versión preliminar centrada en las preguntas del examen de la junta oral se ubicó en el percentil 99 del Altmetric Attention Score, que ha rastreado la cantidad de atención recibida por más de 23 millones de resultados de investigación en línea.

«Es una historia tan explosiva en el mundo y en la medicina», dijo el profesor de neurocirugía Warren Alpert Albert Telfeian, quien también es director de cirugía de columna endoscópica mínimamente invasiva en RIH y director de neurocirugía pediátrica en Hasbro Children’s Hospital.

Inspiración para el estudio y hallazgos clave

El proyecto se inspiró cuando el residente de neurocirugía de quinto año y coprimer autor Rohaid Ali estaba estudiando para su examen de la junta de neurocirugía con su amigo cercano de la Escuela de Medicina de Stanford, Ian Connolly, otro coprimer autor y residente de neurocirugía de cuarto año en el Hospital General de Massachusetts. . Habían visto que ChatGPT podía aprobar otros exámenes estandarizados, como el examen de la barra, y querían probar si ChatGPT podía responder alguna de las preguntas de su examen.

Esto llevó a Ali y Connolly a realizar estos estudios en colaboración con su tercer coautor, Oliver Tang ’19 MD’23. Descubrieron que GPT-4 era «mejor que el examinado humano promedio» y ChatGPT y Google Bard estaban al «nivel del residente de neurocirugía promedio que tomó estos exámenes simulados», dijo Ali.

«Uno de los aspectos más interesantes» del estudio fue la comparación entre los modelos de IA, ya que ha habido «muy pocas comparaciones directas estructuradas de (ellos) en cualquier campo», dijo Wael Asaad, profesor asociado de neurocirugía. y neurociencia en Warren Alpert y director del programa de epilepsia funcional y neurocirugía en RIH. Los hallazgos son «realmente emocionantes más allá de la neurocirugía», agregó.

El artículo encontró que GPT-4 superó a los otros LLM, recibiendo una puntuación de 82.6% en una serie de escenarios de manejo de casos de orden superior presentados en preguntas de exámenes orales de neurocirugía simulados.

Asaad señaló que se esperaba que GPT-4 superara a ChatGPT, que salió antes que GPT-4, así como a Google Bard. «Google se apresuró a saltar y… esa prisa se muestra en el sentido de que (Google Bard) no funciona tan bien».

Pero estos modelos aún tienen limitaciones: como los modelos basados en texto no pueden ver imágenes, obtuvieron puntajes significativamente más bajos en preguntas relacionadas con imágenes que requieren un razonamiento de orden superior. También afirmaron hechos falsos, denominados «alucinaciones», en las respuestas a estas preguntas.

Una pregunta, por ejemplo, presentaba una imagen de una parte resaltada de un brazo y preguntaba qué nervio inervaba la distribución sensorial en el área. GPT-4 evaluó correctamente que no podía responder la pregunta porque es un modelo basado en texto y no podía ver la imagen, mientras que Google Bard respondió con una respuesta «completamente inventada», dijo Ali.

“Es importante abordar la atención viral en las redes sociales que estos (modelos) han ganado, lo que sugiere que (ellos) podrían ser un neurocirujano, pero también es importante aclarar que estos modelos aún no están listos para el horario estelar y no deben considerarse un reemplazo para las actividades humanas actualmente”, agregó Ali. “Como neurocirujanos, es crucial que integremos de manera segura los modelos de IA para el uso de los pacientes e investiguemos activamente sus puntos ciegos para garantizar la mejor atención posible para los pacientes”.

Asaad agregó que en escenarios clínicos reales, los neurocirujanos podrían recibir información engañosa o irrelevante. Los LLM “no se desempeñan muy bien en estos escenarios del mundo real que son más abiertos y menos claros”, dijo.

Consideraciones éticas con la medicina y la IA

También hubo casos en los que la respuesta correcta del modelo de IA a ciertos escenarios sorprendió a los investigadores.

Para una pregunta sobre una lesión grave por arma de fuego en la cabeza, la respuesta fue que probablemente no haya una intervención quirúrgica que altere significativamente la trayectoria del curso de la enfermedad. “Fascinantemente, estos chatbots de IA estaban dispuestos a seleccionar esa respuesta”, dijo Ali.

“Eso es algo que no esperábamos (y) algo que vale la pena considerar”, dijo Ali. «Si estos modelos de IA nos dieran recomendaciones éticas en esta área, ¿qué implicaciones tiene eso para nuestro campo o el campo de la medicina en general?»