Peter Lee ha pasado mucho tiempo recientemente con GPT-4, la herramienta impulsada por IA que simula una conversación humana, creada por OpenAI con contribuciones de su socio Microsoft.
“Perdí un par de semanas de sueño”, dijo Lee en una conferencia el lunes en la Universidad de Washington. “Fue muy intenso”.
Lee, director de Microsoft Research, tiene la tarea de evaluar las implicaciones de la herramienta para la medicina. Y cree que podría aumentar la eficiencia e incluso la empatía en el sistema de salud, así como impulsar la investigación biomédica.
GPT-4 tiene «capacidades asombrosas», dijo Lee durante su conferencia. Y para la medicina, “acaba siendo una herramienta potencialmente útil”.
Lee y sus colegas describieron algunos posibles casos de uso en un artículo del New England Journal of Medicine (NEJM), publicado el jueves. Estos incluyen el apoyo a los diagnósticos, la mejora de las conversaciones médico-paciente y la reducción del papeleo en línea.
“La carga de papeleo para los médicos y las enfermeras es terrible”, dijo Lee en una entrevista separada con GeekWire. De todas las aplicaciones, aliviar la documentación médica y cargas similares es la que más piensa.
El chatbot GPT-4 fue entrenado en grandes cantidades de información abierta en Internet, incluidas fuentes médicas. La herramienta responde correctamente las preguntas del examen de licencia médica de EE. UU. más del 90 % de las veces.
Pero también tiene limitaciones. GPT-4 a menudo «alucina» las respuestas falsas a las consultas. Los errores pueden ser sutiles y difíciles de identificar para los usuarios, dijo Lee. Un ejemplo es el redondeo hacia abajo de un cálculo en una nota del médico en lugar del redondeo hacia arriba estándar, mostró Lee en la Universidad de Washington. GPT-4 también proyecta una confianza alegre.
La combinación de errores y condena puede ser «peligrosa» en escenarios médicos, dijeron Lee y sus coautores en el artículo de NEJM. Las personas sin antecedentes médicos pueden ser engañadas más fácilmente por GPT-4, señaló un editorial adjunto del NEJM.
Sin embargo, GPT-4 también es capaz de corregir sus errores cuando se le pide que revise su propia salida. Y ha revelado algunas peculiaridades en el camino. Una versión anterior de GPT-4 tenía más probabilidades de actuar «emocionalmente unida» a sus respuestas, dijo Lee.
Los investigadores externos dicen que es difícil saber qué hay debajo del capó de GPT-4. OpenAI revela pocos detalles sobre sus algoritmos subyacentes y su proceso de entrenamiento. Pero incluso los científicos informáticos mejor familiarizados con su funcionamiento, como Lee, todavía están tratando de entender cómo piensa GPT-4.
“No entendemos cómo o por qué surgieron estas capacidades”, dijo Lee en la UW. GPT-4 es una «bestia diferente» que GPT-3.5, que impulsa el chatbot gratuito de OpenAI, dijo.
Las empresas emergentes también están entrando en el juego y se están conectando a GPT-4 para aumentar sus capacidades. «Creo que probablemente sea importante para cualquier empresa nueva comprender qué tan bien se mantiene su propuesta de valor existente en un mundo con GPT-4», dijo Lee a GeekWire. Agregó: «No se trata solo de nuevas empresas, son nuestros propios productos dentro de Microsoft».
Lee también está mirando más allá. OpenAI se prepara para lanzar una versión GPT-4 capaz de analizar imágenes. A largo plazo, estos modelos pueden respaldar la evaluación de datos de patología e imágenes médicas, dijo Lee en la UW. Agregó: “GPT-4 no es la interrupción. Van a ser los modelos los que vendrán después”.
Lee también lanzará pronto un libro con sus colegas, «La revolución de la IA en la medicina: GPT-4 y más allá», que explora las implicaciones en profundidad, y lanzó un podcast sobre el tema el jueves.
Siga leyendo para ver ejemplos de casos de uso médico y algunos consejos de Lee sobre el proceso de pensamiento de GPT-4.
Documentación sanitaria
Los médicos a menudo pasan horas todos los días escribiendo sus encuentros con los pacientes. GPT-4 podría ayudar a terminar con eso, según Lee. La herramienta es capaz de resumir encuentros médicos en una variedad de formatos, con códigos de facturación adjuntos, dijo Lee. La subsidiaria de Microsoft, Nuance, ya está incorporando GPT-4 en un sistema de toma de notas médicas basado en datos médicos, y presentará una versión preliminar de la aplicación este verano.
Google, que recientemente lanzó su chatbot Bard, impulsado por IA, también ha creado una herramienta para resumir las condiciones médicas de los pacientes.
Otros posibles casos de uso de GPT-4 incluyen la generación de pedidos para pruebas de laboratorio y recetas y el llenado de texto para solicitudes de autorización previa.
Los modelos de lenguaje grande como GPT-4 “están a punto de resolver algunos problemas de larga data en la documentación médica”, dijo Lee durante su charla. Es probable que muchas empresas aprovechen GPT-4 para crear herramientas para tales fines, agregó.
El chatbot GPT-4 también es experto en sugerir lenguaje para brindar comodidad y apoyo a los pacientes. “Es capaz de imaginar estas situaciones de lo que es estar en una sala de examen”, dijo Lee durante su charla. “Ves signos de una comprensión de cómo funciona el mundo”.
Diagnostico medico
Chat GPT-4 también puede ayudar a los médicos a hacer diagnósticos diferenciales, enumerando las posibles condiciones que coinciden con los síntomas y clasificándolas, dijo Lee. Él ve a los médicos usando la herramienta en la forma en que intercambian ideas con sus colegas.
Interoperabilidad de datos
Los datos de salud se almacenan en silos en diferentes formatos y en diferentes sistemas, lo que obstaculiza a los pacientes y médicos que desean acceder a los registros clínicos y a los investigadores que desean estudiarlos. GPT-4 puede ayudar a respaldar la conversión de formato, dijo Lee.
Trabajos de investigación
Los científicos están comenzando a usar grandes modelos de lenguaje para ayudar a escribir artículos científicos. “Algunas de las mejores interacciones que he tenido es cuando le pedí a GPT-4 que leyera un artículo de investigación médica y luego conversáramos al respecto”, dijo Lee en su charla.
El nuevo motor de búsqueda Bing de Microsoft está vinculado a GPT-4 y proporcionará resúmenes en respuesta a consultas científicas. Bing alucina menos referencias científicas no relacionadas que el chatbot independiente, que está desconectado de Internet, dijo Lee.
Consensus, una startup que proporciona resúmenes accesibles de investigaciones científicas, ya ha agregado GPT-4 a sus ofertas. Y Microsoft lanzó recientemente una versión de demostración de BioGPT, un gran modelo de lenguaje entrenado en artículos de investigación.
Estudios biomédicos
Los usuarios pueden instruir a GPT-4 para seleccionar una variedad de aplicaciones de investigación existentes en un solo asistente de IA, dijo Lee. El asistente podría aprovechar los datos conectados a las aplicaciones y estandarizar el formato, facilitar los análisis y el entrenamiento de nuevos modelos de aprendizaje automático.
Lee prevé ajustar los modelos GPT-4 en conjuntos de datos biológicos específicos y, en última instancia, utilizar transformadores neuronales a gran escala para predecir estructuras de proteínas. Microsoft está viendo capacidades similares para predecir la estructura de la proteína como AlphaFold, un elogiado sistema construido por DeepMind, dijo Lee a GeekWire.
“Creo que vamos a ver algunas herramientas realmente útiles que ayudarán a los investigadores a hacer más”, dijo Lee a GeekWire.
La mente de la máquina.
GPT-4 es «más inteligente que tú y más tonto que tú» en matemáticas, estadística y lógica, dijo Lee en su charla.
GPT-4 tiene problemas para resolver los acertijos de Sudoku porque implican retroceder y reevaluar las respuestas, y GPT-4 es una herramienta de «alimentación». «No es como tú. Es un tipo diferente de inteligencia”, dijo Lee en la UW.
Los investigadores de Microsoft descubrieron que las redes neuronales pueden resolver mejor ciertos problemas matemáticos después de haber sido entrenadas en textos de idiomas, dijo Lee a GeekWire. “Y eso es algo misterioso y extraño”, dijo. Los hallazgos también tienen implicaciones para la inteligencia humana. Dijo Lee: «¿Existen formas de matemáticas a las que estamos ciegos porque nuestros cerebros están programados para el lenguaje?»
Los modelos de entrenamiento en datos como estructuras de proteínas podrían producir algoritmos y circuitos que son difíciles de imaginar para las mentes humanas, dijo Lee a GeekWire. Los resultados podrían revelar puntos ciegos en la lógica humana y conocimientos sobre el pensamiento informático. “Éstos son el tipo de misterios con los que luchan las ciencias de la computación”, dijo Lee.