La mayoría de los LLM se han lanzado a nivel mundial y no hay iteraciones específicas de países disponibles que requieran un enfoque global por parte de los reguladores. Tampoco está claro en qué categoría técnica caerán los LLM desde la perspectiva regulatoria. Sin embargo, según las diferencias entre los LLM y los métodos anteriores de aprendizaje profundo, es posible que se necesite una nueva categoría regulatoria para abordar los desafíos y riesgos específicos de LLM.
Un organismo regulador solo tiene que diseñar regulaciones para los LLM si los desarrolladores de los LLM afirman que su LLM puede usarse con un propósito médico; o si los LLM están desarrollados, adaptados, modificados o dirigidos a fines específicamente médicos. Incluso si los LLM actualmente extendidos no caen en ninguna categoría, las alternativas médicas de LLM específicamente capacitados en datos médicos y bases de datos probablemente lo harán.
Un ejemplo destacado es Med-PaLM sobre el que han publicado investigadores de DeepMind y Google. En ese estudio, los autores propusieron un marco para la evaluación humana de respuestas modelo a lo largo de múltiples ejes que incluyen factualidad, precisión, posible daño y sesgo. Además, mediante una combinación de estrategias de ayuda, su modelo logró una precisión del 67,6 % en las preguntas del examen de licencia médica de EE. UU., superando el estado de la técnica anterior en más del 17 %. Como la evaluación humana revela lagunas clave en las respuestas proporcionadas por el LLM, introdujeron el ajuste de instrucciones y el modelo resultante, Med-PaLM, funciona de manera alentadora, pero sigue siendo inferior a los médicos. Desde entonces, GPT-4 pudo lograr una precisión superior al 85 % en el mismo examen14.
Con el lanzamiento de GPT-4, que puede analizar no solo textos sino también imágenes, se puede esperar que el modelo crezca para analizar documentos cargados, trabajos de investigación, notas escritas a mano, sonido y video en un futuro cercano. (Tabla 2).
Esto subraya la idea de que no es suficiente regular los modelos LLM actuales, ya que se puede esperar que las nuevas iteraciones con esas capacidades avanzadas se implementen a un ritmo similar al de las iteraciones anteriores. Sin tener en cuenta estas adiciones futuras, una regulación que se centre solo en los modelos lingüísticos podría perder actualizaciones importantes para cuando esas actualizaciones sean ampliamente accesibles.
Las empresas con dispositivos aprobados que deciden implementar LLM en sus servicios enfrentan un desafío adicional. Es decir, ¿cómo regulará la FDA una tecnología médica basada en IA recientemente infundida con LLM si la tecnología ya fue aprobada para usos médicos? La Tabla 3 resume los desafíos regulatorios.
Ha habido propuestas sobre la regulación de los LLM, aunque provienen de fuera de la atención médica. En un documento de trabajo, Hacker et al. sugiere una terminología novedosa para capturar la cadena de valor de la IA al diferenciar entre desarrolladores, implementadores, usuarios profesionales y no profesionales, así como destinatarios de la producción de LLM. Los autores también sugirieron cuatro estrategias para garantizar que estos modelos sean confiables y se implementen en beneficio de la sociedad en general. En detalle, la regulación debe centrarse en aplicaciones concretas de alto riesgo, y no en el modelo pre-entrenado en sí mismo, y debe incluir (i) obligaciones con respecto a la transparencia, (ii) gestión de riesgos, (iii) disposiciones de no discriminación, y (iv) reglas de moderación de contenido15.
Mökander y otros señalaron que los procedimientos de auditoría existentes no abordan los desafíos de gobernanza que plantean los LLM y ofrecieron tres contribuciones para llenar ese vacío: 1) establecer la necesidad de desarrollar nuevos procedimientos de auditoría que capturen los riesgos que plantean los LLM; 2) esbozar un plan para auditar los LLM de manera factible y efectiva basándose en las mejores prácticas del gobierno de TI y la ingeniería de sistemas; y 3) discutir las limitaciones de la perspectiva de auditar LLM en absolutodieciséis.
Tales soluciones potenciales podrían servir como punto de referencia para las nuevas regulaciones en el cuidado de la salud. En cualquier caso, los reguladores y los legisladores deben actuar con rapidez para seguir la dinámica de la evolución y el progreso sin precedentes de los LLM.
Como señal de la creciente presión sobre los reguladores, en marzo de 2023, un grupo de destacados científicos informáticos y ejecutivos de la industria tecnológica, como Elon Musk y Steve Wozniak, pidieron que “todos los laboratorios de IA suspendieran inmediatamente durante al menos 6 meses el entrenamiento de los sistemas de IA. más potente que GPT-4”17. Su carta mencionaba que “los últimos meses han visto a los laboratorios de IA encerrados en una carrera fuera de control para desarrollar y desplegar mentes digitales cada vez más poderosas que nadie, ni siquiera sus creadores, pueden entender, predecir o controlar de manera confiable. Esta pausa debe ser pública y verificable, e incluir a todos los actores clave. Si tal pausa no se puede promulgar rápidamente, los gobiernos deberían intervenir e instituir una moratoria”.
Notables expertos en IA, como Andrew Ng, objetaron la idea y, en cambio, pidieron buscar un equilibrio entre el enorme valor que la IA está creando y los riesgos realistas. Estamos de acuerdo en que una moratoria no se puede implementar en la práctica a menos que los gobiernos intervengan; y “hacer que los gobiernos detengan las tecnologías emergentes que no entienden es anticompetitivo, sienta un precedente terrible y es una política de innovación horrible”18.
Para reforzar nuestras preocupaciones, vale la pena mencionar que Italia se convirtió en el primer país occidental en bloquear temporalmente ChatGPT en abril de 2023 debido a problemas de privacidad y la falta de una regulación adecuada.19.