Los modelos de lenguaje extenso (LLM) aprenden de asociaciones estadísticas entre letras y palabras para predecir lo que sigue en una oración y se entrenan con grandes cantidades de datos. Por ejemplo, GPT-4, que es el LLM subyacente a la popular aplicación de IA generativa ChatGPT, se entrena en varios petabytes (varios millones de gigabytes) de texto.
Los biólogos están aprovechando la capacidad de estos LLM para arrojar nueva luz sobre la genética mediante la identificación de patrones estadísticos en las secuencias de ADN. Los modelos de lenguaje de ADN (también llamados modelos de lenguaje genómico o de nucleótidos) se entrenan de manera similar en un gran número de secuencias de ADN.
El ADN como “el lenguaje de la vida” es un cliché muy repetido. Un genoma es el conjunto completo de secuencias de ADN que componen la receta genética de cualquier organismo. A diferencia de los lenguajes escritos, el ADN tiene pocas letras: A, C, G y T (que representan los compuestos adenina, citosina, guanina y timina). Por simple que parezca este lenguaje genómico, estamos lejos de descubrir su sintaxis. Los modelos de lenguaje de ADN pueden mejorar nuestra comprensión de la gramática genómica una regla a la vez.
Versatilidad predictiva
Lo que hace que ChatGPT sea increíblemente poderoso es su adaptabilidad a una amplia gama de tareas, desde generar poemas hasta editar un ensayo. Los modelos de lenguaje de ADN también son versátiles. Sus aplicaciones van desde la predicción de lo que hacen las diferentes partes del genoma hasta la predicción de cómo los diferentes genes interactúan entre sí. Al aprender las características del genoma a partir de secuencias de ADN, sin la necesidad de «genomas de referencia», los modelos de lenguaje también podrían potencialmente abrir nuevos métodos de análisis.
Un modelo entrenado en el genoma humano, por ejemplo, pudo predecir los sitios en el ARN donde es probable que se unan las proteínas. Esta unión es importante en el proceso de «expresión génica», la conversión de ADN en proteínas. Proteínas específicas se unen al ARN, lo que limita la cantidad que luego se traduce en proteínas. De esta manera, se dice que estas proteínas mediar la expresion genica. Para poder predecir estas interacciones, el modelo necesitaba intuir no solo en qué parte del genoma tendrían lugar estas interacciones, sino también cómo se plegaría el ARN, ya que su forma es fundamental para tales interacciones.
Las capacidades generativas de los modelos de lenguaje de ADN también permiten a los investigadores predecir cómo pueden surgir nuevas mutaciones en las secuencias del genoma. Por ejemplo, los científicos desarrollaron un modelo de lenguaje a escala del genoma para predecir y reconstruir la evolución del virus SARS-CoV-2.
Acción genómica a distancia
En los últimos años, los biólogos se han dado cuenta de que partes del genoma anteriormente denominadas ADN basura interactúan con otras partes del genoma de formas sorprendentes. Los modelos de lenguaje de ADN ofrecen un atajo para aprender más sobre estas interacciones ocultas. Con su capacidad para identificar patrones en largos tramos de secuencias de ADN, los modelos de lenguaje también pueden identificar interacciones entre genes ubicados en partes distantes del genoma.
En una nueva preimpresión alojada en bioRxiv, científicos de la Universidad de California-Berkeley presentan un modelo de lenguaje de ADN con la capacidad de aprender efectos de variantes en todo el genoma. Estas variantes son cambios de una sola letra en el genoma que conducen a enfermedades u otros resultados fisiológicos y generalmente requieren experimentos costosos (conocidos como estudios de asociación de todo el genoma) para descubrirlos.
Denominada Genomic Pre-trained Network (GPN), fue entrenada en los genomas de siete especies de plantas de la familia de la mostaza. GPN no solo puede etiquetar correctamente las diferentes partes de estos genomas de mostaza, sino que también se puede adaptar para identificar variantes del genoma para cualquier especies.
En otro estudio publicado en Naturaleza Máquina Inteligencia, los científicos desarrollaron un modelo de lenguaje de ADN que podía identificar interacciones gen-gen a partir de datos de una sola célula. Ser capaz de estudiar cómo los genes interactúan entre sí en resolución de una sola célula revelará nuevos conocimientos sobre enfermedades que involucran mecanismos complejos. Esto se debe a que permite a los biólogos atribuir variaciones entre células individuales a factores genéticos que conducen al desarrollo de enfermedades.
La alucinación se convierte en creatividad.
Los modelos de lenguaje pueden tener problemas con la «alucinación» en la que una salida suena sensata pero no está arraigada en la verdad. ChatGPT, por ejemplo, podría alucinar consejos de salud que son esencialmente información errónea. Sin embargo, para el diseño de proteínas, esta «creatividad» hace que los modelos de lenguaje sean una herramienta útil para diseñar proteínas completamente nuevas desde cero.
Los científicos también están aplicando modelos de lenguaje a conjuntos de datos de proteínas en un esfuerzo por aprovechar el éxito de los modelos de aprendizaje profundo como AlphaFold para predecir cómo se pliegan las proteínas. El plegamiento es un proceso complejo que permite que una proteína, que comienza como una cadena de aminoácidos, adopte una forma funcional. Debido a que las secuencias de proteínas se derivan de las secuencias de ADN, estas últimas determinan cómo se pliegan las primeras, lo que aumenta la posibilidad de que podamos descubrir todo sobre la estructura y función de las proteínas solo a partir de secuencias de genes.
Mientras tanto, los biólogos continuarán utilizando modelos de lenguaje de ADN para extraer más y mejores conocimientos de las grandes cantidades de datos del genoma disponibles para nosotros, en toda la gama y diversidad de la vida en la Tierra.