Saltar al contenido

La última versión de ChatGPT aprueba el examen estilo tablero de radiología y destaca el «potencial de crecimiento» de la IA, según un estudio

25 de mayo de 2023

La última versión de ChatGPT, la inteligencia artificial chatbot de OpenAI, es lo suficientemente inteligente como para aprobar un examen de radiología, según un nuevo estudio de la Universidad de Toronto.

GPT-4, que se lanzó oficialmente el 13 de marzo de 2023, respondió correctamente el 81 % de las 150 preguntas de opción múltiple del examen.

A pesar de la alta precisión del chatbot, el estudio, publicado en Radiology, una revista de la Sociedad Radiológica de América del Norte (RSNA), también detectó algunas inexactitudes preocupantes.

CHATGPT ENCUENTRA QUE DA MEJORES CONSEJOS MÉDICOS QUE LOS MÉDICOS REALES EN UN ESTUDIO A CIEGO: ‘ESTO SERÁ UN CAMBIO DE JUEGO’

«Un radiólogo está haciendo tres cosas al interpretar imágenes médicas: buscar hallazgos, usar un razonamiento avanzado para comprender el significado de los hallazgos y luego comunicar esos hallazgos a los pacientes y a otros médicos», explicó el autor principal, Rajesh Bhayana, MD, radiólogo abdominal. y líder tecnológico en University Medical Imaging Toronto, Toronto General Hospital en Toronto Canadaen declaraciones a Fox News Digital.

La última versión de ChatGPT, el chatbot de inteligencia artificial de OpenAI, es lo suficientemente inteligente como para aprobar un examen de radiología, según descubrió un nuevo estudio de la Universidad de Toronto. (iStock)

«La mayor parte de la investigación de IA en radiología se ha centrado en la visión por computadora, pero los modelos de lenguaje como ChatGPT esencialmente realizan los pasos dos y tres (las tareas avanzadas de razonamiento y lenguaje)», continuó.

«Nuestra investigación proporciona información sobre el rendimiento de ChatGPT en un contexto de radiología, destacando el increíble potencial de los modelos de lenguaje grande, junto con las limitaciones actuales que lo hacen poco confiable».

CHATGPT PARA PROVEEDORES DE ATENCIÓN MÉDICA: ¿PUEDE EL CHATBOT DE IA FACILITAR EL TRABAJO DE LOS PROFESIONALES?

Los investigadores crearon las preguntas de una manera que reflejaba el estilo, el contenido y la dificultad de los exámenes del Canadian Royal College y la American Board of Radiology, según una discusión del estudio en la revista médica.

(Debido a que ChatGPT aún no acepta imágenes, los investigadores se limitaron a preguntas basadas en texto).

A continuación, se plantearon las preguntas a dos personas diferentes. versiones de ChatGPT: GPT-3.5 y el nuevo GPT-4.

‘Mejora marcada’ en el razonamiento avanzado

La versión GPT-3.5 de ChatGPT respondió correctamente el 69% de las preguntas (104 de 150), cerca del 70% de calificación aprobatoria utilizada por el Royal College de Canadá, según los hallazgos del estudio.

Recomendado:  GPT para Regex - Pros y contras

Tuvo más problemas con las preguntas relacionadas con el «pensamiento de orden superior», como la descripción de los hallazgos de imágenes.

Radiólogo

«Un radiólogo está haciendo tres cosas cuando interpreta imágenes médicas: buscar hallazgos, usar un razonamiento avanzado para comprender el significado de los hallazgos y luego comunicar esos hallazgos a los pacientes y a otros médicos», dijo el autor principal de un nuevo estudio (no se muestra en la imagen). ). (iStock)

En cuanto a GPT-4, respondió correctamente el 81 % (121 de 150) de las mismas preguntas, superando el umbral de aprobación del 70 %.

La versión más nueva respondió mucho mejor a las preguntas de pensamiento de orden superior.

«El propósito del estudio era ver cómo se desempeñaba ChatGPT en el contexto de la radiología, tanto en el razonamiento avanzado como en el conocimiento básico», dijo Bhayana.

GPT-4 respondió correctamente el 81 % de las preguntas, superando el umbral de aprobación del 70 %.

«GPT-4 se desempeñó muy bien en ambas áreas y demostró una mejor comprensión del contexto del lenguaje específico de la radiología, lo cual es fundamental para permitir que las herramientas más avanzadas que los médicos de radiología pueden usar sean más eficientes y efectivas», agregó.

Los investigadores se sorprendieron por la «marcada mejora» de GPT-4 en las capacidades de razonamiento avanzado sobre GPT-3.5.

«Nuestros hallazgos resaltan el creciente potencial de estos modelos en radiología, pero también en otras áreas de la medicina», dijo Bhayana.

Médico brasileño usa IA para diagnosticar enfermedades

«Nuestros hallazgos resaltan el creciente potencial de estos modelos en radiología, pero también en otras áreas de la medicina», dijo el autor principal de un nuevo estudio. (NELSON ALMEIDA/AFP vía Getty Images)

Dr. Harvey Castro, un con sede en Dallas, Texas médico de medicina de emergencia certificado por la junta y orador nacional sobre inteligencia artificial en el cuidado de la salud, no participó en el estudio pero revisó los hallazgos.

«El salto en el rendimiento de GPT-3.5 a GPT-4 se puede atribuir a un conjunto de datos de entrenamiento más extenso y un mayor énfasis en el aprendizaje por refuerzo humano», dijo a Fox News Digital.

Recomendado:  Inteligencia artificial y otras cartas, 8 de abril: 'La promesa de las máquinas que prometen respuestas simples y definitivas'

«Esta capacitación ampliada permite que GPT-4 interprete, comprenda y utilice el conocimiento incorporado de manera más efectiva», agregó.

CHATGPT Y ATENCIÓN MÉDICA: ¿PODRÍA EL CHATBOT DE IA CAMBIAR LA EXPERIENCIA DEL PACIENTE?

Sin embargo, obtener una puntuación más alta en una prueba estandarizada no equivale necesariamente a una comprensión más profunda de un tema médico como la radiología, señaló Castro.

«Muestra que GPT-4 es mejor en el reconocimiento de patrones en función de la gran cantidad de información con la que ha sido entrenado», dijo.

Futuro de ChatGPT en el cuidado de la salud

Muchos expertos en tecnologías de la saludincluido Bhayana, creen que los modelos de lenguaje extenso (LLM, por sus siglas en inglés) como GPT-4 cambiarán la forma en que las personas interactúan con la tecnología en general, y más específicamente con la medicina.

“Ya se están incorporando a motores de búsqueda como Google, registros médicos electrónicos como Epic y software de dictado médico como Nuance”, dijo a Fox News Digital.

«Pero hay muchas aplicaciones más avanzadas de estas herramientas que transformar el cuidado de la salud Aún más.»

Aplicación OpenAI ChatGPT en el sitio web de la App Store

«El salto en el rendimiento de GPT-3.5 a GPT-4 se puede atribuir a un conjunto de datos de entrenamiento más extenso y un mayor énfasis en el aprendizaje por refuerzo humano», dijo el Dr. Harvey Castro, médico de emergencias certificado por la junta y orador nacional sobre IA en la salud. atención, le dijo a Fox News Digital. (Jakub Porzycki/NurPhoto)

En el futuro, Bhayana cree que estos modelos podrían responder con precisión a las preguntas de los pacientes, ayudar a los médicos a realizar diagnósticos y guiar las decisiones de tratamiento.

Centrándose en la radiología, predijo que los LLM podrían ayudar a aumentar las habilidades de los radiólogos y hacerlos más eficientes y efectivos.

«Todavía no hemos llegado a ese punto, los modelos aún no son lo suficientemente confiables como para usarlos en la práctica clínica, pero nos estamos moviendo rápidamente en la dirección correcta», agregó.

Limitaciones de ChatGPT en medicina

Quizás la mayor limitación de los LLM en radiología es su incapacidad para interpretar datos visuales, que es un aspecto crítico de la radiología, dijo Castro.

Recomendado:  TechScape: Clearview AI recibió una multa de 7,5 millones de libras esterlinas por recolectar descaradamente sus datos, ¿le importa? | Tecnología

Modelos de idiomas grandes (LLM) como ChatGPT también son conocidos por su tendencia a «alucinar», que es cuando brindan información inexacta de una manera que suena confiada, señaló Bhayana.

«Los modelos aún no son lo suficientemente confiables como para usarlos en la práctica clínica».

«Estas alucinaciones disminuyeron en GPT-4 en comparación con 3,5, pero aún ocurren con demasiada frecuencia como para confiar en ellas en la práctica clínica», dijo.

«Los médicos y los pacientes deben ser conscientes de los puntos fuertes y las limitaciones de estos modelos, incluso sabiendo que no se puede confiar en ellos como única fuente de información en la actualidad», añadió Bhayana.

ChatGPT en la computadora

«Los médicos y los pacientes deben ser conscientes de las fortalezas y limitaciones de estos modelos, incluso sabiendo que no se puede confiar en ellos como única fuente de información en la actualidad». (Frank Rumpenhorst/alianza de imágenes a través de Getty Images)

Castro estuvo de acuerdo en que, si bien los LLM pueden tener suficiente conocimiento para aprobar las pruebas, no pueden rivalizar con los médicos humanos cuando se trata de determinar los diagnósticos de los pacientes y crear planes de tratamiento.

«Los exámenes estandarizados, incluidos los de radiología, a menudo se centran en casos de ‘libro de texto'», dijo.

«Pero en la práctica clínica, los pacientes rara vez presentan síntomas típicos».

HAGA CLIC AQUÍ PARA OBTENER LA APLICACIÓN FOX NEWS

Cada paciente tiene síntomas, historias y factores personales únicos que pueden diferir de los casos «estándar», dijo Castro.

«Esta complejidad a menudo requiere un juicio y una toma de decisiones matizados, una capacidad de la que carece actualmente la IA, incluidos los modelos avanzados como GPT-4».

HAGA CLIC AQUÍ PARA SUSCRIBIRSE A NUESTRO BOLETÍN DE SALUD

Si bien las puntuaciones mejoradas de GPT-4 son prometedoras, dijo Castro, «se debe trabajar mucho para garantizar que las herramientas de IA sean precisas, seguras y valiosas en un entorno clínico del mundo real».

Melissa Rudy es editora de salud y miembro del equipo de estilo de vida de Fox News Digital.