ChatGPT puede tener mejores modales junto a la cama que algunos médicos, pero carece de cierta experiencia

CNN
—

ChatGPT puede ser una herramienta útil para los pacientes que buscan información y orientación médica, pero la herramienta de inteligencia artificial no puede reemplazar por completo el valor de un médico humano, lo dice por sí mismo.

“Si bien soy un modelo de lenguaje que ha sido capacitado en una gran cantidad de información, no soy un profesional médico con licencia y no soy capaz de brindar diagnósticos, tratamientos o consejos médicos”, escribió el chatbot en respuesta a una pregunta de CNN.

Aún así, una nueva investigación publicada esta semana sugiere que los médicos pueden tener algunas cosas que aprender del chatbot en lo que respecta a la comunicación con el paciente.

Un panel de profesionales de la salud con licencia evaluó las respuestas a unas 200 preguntas médicas diferentes planteadas en un foro público en línea, incluidas las consultas de los pacientes sobre diagnósticos médicos, necesidad de atención médica y más.

Las respuestas de ChatGPT fueron «preferidas sobre las respuestas de los médicos y calificadas significativamente más altas tanto en calidad como en empatía», según un estudio publicado el viernes.

Se consideró que más de una cuarta parte de las respuestas de los médicos tenían una calidad inferior a la aceptable en comparación con menos del 3 % de las de ChatGPT. Por el contrario, casi la mitad de las respuestas de ChatGPT se consideraron empáticas (45 %) en comparación con menos del 5 % de las de los médicos.

En promedio, ChatGPT obtuvo una puntuación un 21 % superior a la de los médicos en cuanto a la calidad de las respuestas y un 41 % más empático, según el estudio.

En un ejemplo proporcionado en el estudio, un paciente planteó una pregunta en un foro de las redes sociales sobre el riesgo de quedarse ciego después de una rociada de lejía en el ojo. ChatGPT comenzó su respuesta disculpándose por el susto, seguido de siete oraciones más de consejos y aliento sobre el resultado «poco probable» de quedarse ciego. Mientras tanto, un médico respondió con «parece que estarás bien», seguido del número de teléfono de Poison Control. Todos los médicos que evaluaron estas respuestas prefirieron la respuesta de ChatGPT.

Como en este ejemplo, los expertos señalan que las respuestas de ChatGPT solían ser mucho más largas que las de los médicos, lo que podría afectar las percepciones de calidad y empatía.

“Sin controlar la longitud de la respuesta, no podemos saber con certeza si los evaluadores juzgaron por el estilo (por ejemplo, un discurso detallado y florido) en lugar del contenido”, escribió Mirella Lapata, profesora de procesamiento del lenguaje natural en la Universidad de Edimburgo.

A principios de este mes, el Dr. David Asch, profesor de medicina y vicedecano senior de la Universidad de Pensilvania, preguntó a ChatGPT cómo podría ser útil en el cuidado de la salud. Encontró que las respuestas eran exhaustivas, pero detalladas.

“Resulta que ChatGPT es algo hablador”, dijo. “No sonaba como si alguien me hablara. Sonaba como si alguien tratara de ser muy completo”.

Asch, quien dirigió el Penn Medicine Center for Health Care Innovation durante 10 años, dice que estaría emocionado de conocer a un médico joven que respondiera preguntas de manera tan completa y cuidadosa como ChatGPT respondió a sus preguntas, pero advierte que la herramienta de IA aún no está lista confiar plenamente a los pacientes.

“Creo que nos preocupamos por el problema de la basura que entra y sale. Y como realmente no sé qué hay detrás de ChatGPT, me preocupa la amplificación de información errónea. Eso me preocupa con cualquier tipo de motor de búsqueda”, dijo. “Un desafío particular con ChatGPT es que realmente se comunica de manera muy efectiva. Tiene este tipo de tono mesurado y se comunica de una manera que infunde confianza. Y no estoy seguro de que esa confianza esté garantizada”.

Investigaciones adicionales publicadas esta semana compararon las instrucciones de cuidado posoperatorio para ocho procedimientos pediátricos comunes proporcionados por ChatGPT, Google y la Universidad de Stanford. Las respuestas se analizaron en base a una escala estandarizada de comprensibilidad, accionabilidad y especificidad.

En general, las instrucciones directamente de la institución médica recibieron las puntuaciones más altas. ChatGPT y Google estuvieron casi a la par en términos de comprensibilidad, ambos con una puntuación superior al 80 %. Y aunque ChatGPT obtuvo una buena puntuación en capacidad de acción (73 %), las respuestas de Google obtuvieron una puntuación más alta (83 %).

Si bien ChatGPT no superó a otros recursos, los investigadores dicen que aún tiene valor y algunas ventajas, incluida la capacidad de personalizar las respuestas a diferentes niveles de alfabetización. Para este análisis, se le pidió a ChatGPT que proporcionara instrucciones en un nivel de lectura de quinto grado.

«ChatGPT proporciona respuestas directas que a menudo están bien escritas, detalladas y en formato «si-entonces», lo que brinda a los pacientes acceso a información inmediata mientras esperan comunicarse con un médico», escribieron los investigadores.

Aún así, Asch dice que ChatGPT se ve mejor como un apoyo para los médicos que como una guía para los pacientes. Es mejor usarlo «a un paso del encuentro clínico», en situaciones que son de bajo riesgo para el paciente, dijo.

“Tengo un sentido muy optimista de esto, pero todo se basa en operar dentro de las barandillas de la verdad. Y por el momento, no sé si existen barandillas de verdad en la forma en que ChatGPT construye sus respuestas”, dijo.