Los modelos de lenguaje grande y las herramientas de inteligencia artificial generativa como ChatGPT han causado un gran revuelo en los últimos meses, y ahora proliferan las preguntas sobre cómo se pueden usar estas tecnologías en entornos de atención médica. Con las nuevas tecnologías, debemos considerar no solo su potencial utilidad y poder, sino también las limitaciones que debemos abordar al diseñar e implementar soluciones que utilizan esa tecnología.
Patrocinado por
Si bien los LLM son fundamentalmente diferentes de los tipos de herramientas de IA para el cuidado de la salud que ya vemos implementadas, los LLM presentan algunos de los mismos desafíos para el diseño y la implementación responsables, incluida la garantía de que las herramientas sean seguras, eficaces y confiables. Creemos que muchas de las mismas prácticas (prácticas de IA responsable) que se utilizaron para llevar al mercado la generación actual de herramientas de IA para el cuidado de la salud serán útiles a medida que la industria considere herramientas basadas en LLM.
¿Cómo funciona la IA generativa?
GPT-4[i] es un poderoso LLM diseñado para generar texto similar al humano basado en indicaciones de entrada utilizando su comprensión avanzada de la estructura del lenguaje. Los modelos GPT de OpenAI han sido entrenados en grandes cantidades de datos textuales y sobresalen en tareas como procesamiento de lenguaje natural, traducción, resumen y respuesta a preguntas. ChatGPT[ii] es una aplicación que pone una interfaz de chat de lenguaje natural alrededor de GPT-4, lo que da como resultado un poderoso asistente de IA. Por poderosos que sean, es importante tener en cuenta que, si bien los LLM generan resultados convincentes que suenan humanos, a veces pueden generar resultados inexactos (comúnmente denominados «alucinaciones»).[iii]
¿Cuáles son las capacidades y limitaciones potenciales de los LLM en el cuidado de la salud?
Si bien los LLM como GPT-4 son tecnologías de uso general que no están diseñadas específicamente para usos de atención médica, es probable que en el futuro se utilicen en soluciones en el ámbito de la atención médica. Microsoft Research y OpenAI exploraron los usos potenciales de LLM en entornos de atención médica, analizando tanto las capacidades como las limitaciones.[iv] Posteriormente, los investigadores del programa de inteligencia artificial centrada en el ser humano de Microsoft y Stanford realizaron una evaluación cuantitativa de la capacidad de GPT-4 para mejorar el desempeño de los profesionales de la salud, ofreciendo información valiosa sobre la precisión y las limitaciones de los resultados generados por LLM como GPT-4.[v] Estos dos artículos brindan información valiosa sobre las oportunidades y los desafíos que se avecinan para determinar dónde y cómo se pueden utilizar los LLM en el ámbito de la atención médica.
¿Cuáles son las capacidades y limitaciones potenciales de los LLM en entornos de atención médica?
El estudio del New England Journal of Medicine sugiere aplicaciones potenciales del uso de LLM en medicina que incluyen:
- Presentar información a médicos o pacientes mediante la búsqueda a través de datos obtenidos de fuentes públicas
- Proporcionar información de antecedentes sobre un paciente o un resumen de los resultados de laboratorio
- Reducir las cargas administrativas de los médicos generando notas clínicas o ayudando con tareas repetitivas
- Apoyar la educación médica y la investigación con la capacidad de resumir artículos de investigación.
En su evaluación cuantitativa del rendimiento de LLM en «consultas en la acera», el equipo de investigación de Microsoft y Stanford destacó algunas limitaciones importantes de GPT-3.5/GPT-4. La investigación sugiere que es posible que estos LLM no satisfagan las necesidades de información del mundo real de los médicos «fuera de la caja», lo que significa que los desarrolladores deberán abordar las limitaciones del modelo en las soluciones que construyen con los LLM. Los investigadores destacaron que, si bien las respuestas de GPT-4 en las consultas en la acera se consideraron «seguras», el 93 por ciento de las veces, solo el 41 por ciento de las respuestas de GPT-4 se alinearon con la respuesta conocida cuando fueron evaluadas por revisores humanos. Una interpretación de estos puntos de datos es que la salida de GPT-4 fue «segura», pero carente de «eficacia», otra medida importante para las herramientas de salud digital. Por último, los investigadores encontraron que GPT-4 proporcionó diferentes respuestas al mismo mensaje, lo que sugiere problemas de «confiabilidad» que deben abordarse. El resumen del equipo concluye con optimismo de que estas limitaciones pueden abordarse con «ingeniería rápida avanzada, métodos de aprovechamiento para fundamentar generaciones en literatura relevante y ajustes en datos locales».
IA y LLM responsables
Microsoft tiene seis principios básicos que son la base para nuestro desarrollo de sistemas de IA: (a) equidad, (b) confiabilidad y seguridad, (c) privacidad y seguridad, (d) inclusión, (e) transparencia y (f) responsabilidad. .[vi] Ponemos en práctica estos principios a través de nuestro Estándar de IA responsable con la intención de abordar los desafíos y limitaciones que se identifican cuando se busca aplicar LLM en entornos de atención médica.
Conclusión
Los desarrolladores han utilizado ampliamente principios similares a los que hemos enumerado anteriormente para llevar al mercado la generación existente de IA para el cuidado de la salud, lo que ha dado como resultado (según una lista proporcionada por un regulador) más de 500 dispositivos médicos habilitados para IA/ML que han recibido autorización reglamentaria y están actualmente en uso en entornos de atención médica.[vii] Somos optimistas de que a medida que nosotros y otros en la industria continuamos avanzando en las prácticas de IA responsable, nuestros aprendizajes colectivos serán útiles a medida que la industria explora cómo las herramientas basadas en LLM pueden diseñarse de manera segura para entornos de atención médica.
Flavia Rovis es estratega sénior de tecnología de cuentas en Microsoft.
John Doyle es director global de tecnología de Microsoft Healthcare & Life Sciences.
Steve Mutkoski es el director legal y regulatorio del equipo de la industria de ciencias de la vida y salud de Microsoft.
Referencias:
[i] GPT-4 (openai.com) [ii] Presentamos ChatGPT (openai.com) [iii] ChatGPT y LLM: cuál es el riesgo – NCSC.GOV.UK [iv] beneficios, límites y riesgos de GPT-4 como chatbot de IA para medicina | NEJM [v] ¿Qué tan bien apoyan los modelos de lenguaje grande las necesidades de información del médico? (stanford.edu); Manuscrito (arxiv.org) [vi] Principios de IA responsable de Microsoft [vii] Dispositivos médicos habilitados para inteligencia artificial y aprendizaje automático (IA/ML) | FDA