Inteligencia artificial explicable para decodificar instrucciones reguladoras en el ADN

Los investigadores utilizaron secuencias de ADN de experimentos de alta resolución para entrenar una red neuronal llamada BPNet, cuyos mecanismos internos de «caja negra» fueron luego descubiertos para revelar patrones de secuencia y principios de organización del código regulador del genoma. Crédito: Ilustración cortesía de Mark Miller, Instituto Stowers de Investigación Médica

Abriendo la caja negra para descubrir las reglas del código regulatorio del genoma.

Investigadores del Instituto Stowers de Investigación Médica, en colaboración con colegas de la Universidad de Stanford y la Universidad Técnica de Múnich, han desarrollado inteligencia artificial (IA) explicable avanzada en un tour de force técnico para descifrar instrucciones regulatorias codificadas en ADN. En un informe publicado en línea el 18 de febrero de 2021, en Genética de la naturaleza, el equipo descubrió que una red neuronal entrenada en mapas de alta resolución de interacciones proteína-ADN puede descubrir patrones sutiles de secuencia de ADN en todo el genoma y proporcionar una comprensión más profunda de cómo estas secuencias están organizadas para regular genes.

Las redes neuronales son potentes modelos de inteligencia artificial que pueden aprender patrones complejos a partir de diversos tipos de datos, como imágenes, señales de voz o texto, para predecir propiedades asociadas con un nivel impresionante. precisión. Sin embargo, muchos ven estos modelos como ininterpretables ya que los patrones predictivos aprendidos son difíciles de extraer del modelo. Esta naturaleza de caja negra ha obstaculizado la amplia aplicación de las redes neuronales a la biología, donde la interpretación de patrones predictivos es primordial.

Uno de los grandes problemas sin resolver en biología es el segundo código del genoma: su código regulador. Las bases de ADN (comúnmente representadas por las letras A, C, G y T) codifican no solo las instrucciones sobre cómo construir proteínas, sino también cuándo y dónde producir estas proteínas en un organismo. El código regulador es leído por proteínas llamadas factores de transcripción que se unen a tramos cortos de ADN llamados motivos. Sin embargo, cómo determinadas combinaciones y arreglos de motivos especifican la actividad reguladora es un problema extremadamente complejo que ha sido difícil de precisar.

Ahora, un equipo interdisciplinario de biólogos e investigadores computacionales dirigido por la investigadora de Stowers, Julia Zeitlinger, PhD, y Anshul Kundaje, PhD, de la Universidad de Stanford, han diseñado una red neuronal, llamada BPNet para Base Pair Network, que puede interpretarse para revelar el código regulatorio. prediciendo la unión del factor de transcripción a partir de secuencias de ADN con una precisión sin precedentes. La clave fue realizar experimentos de unión de factor de transcripción-ADN y modelado computacional con la resolución más alta posible, hasta el nivel de bases de ADN individuales. Esta mayor resolución les permitió desarrollar nuevas herramientas de interpretación para extraer los patrones de secuencia elemental clave, como los motivos de unión del factor de transcripción y las reglas combinatorias mediante las cuales los motivos funcionan juntos como un código regulador.

«Esto fue extremadamente satisfactorio», dice Zeitlinger, «ya que los resultados encajan a la perfección con los resultados experimentales existentes y también revelaron conocimientos novedosos que nos sorprendieron».

Por ejemplo, los modelos de redes neuronales permitieron a los investigadores descubrir una regla sorprendente que gobierna la unión del factor de transcripción bien estudiado llamado Nanog. Descubrieron que Nanog se une cooperativamente al ADN cuando múltiples de su motivo están presentes de manera periódica, de modo que aparecen en el mismo lado de la hélice de ADN en espiral.

“Ha habido un largo rastro de evidencia experimental de que tal periodicidad de motivo a veces existe en el código regulatorio”, dice Zeitlinger. “Sin embargo, las circunstancias exactas eran esquivas y Nanog no había sido sospechoso. Descubrir que Nanog tiene tal patrón y ver detalles adicionales de sus interacciones fue sorprendente porque no buscamos específicamente este patrón «.

«Esta es la ventaja clave de utilizar redes neuronales para esta tarea», dice Žiga Avsec, PhD, primer autor del artículo. Avsec y Kundaje crearon la primera versión del modelo cuando Avsec visitó Stanford durante sus estudios de doctorado en el laboratorio de Julien Gagneur, PhD, en la Universidad Técnica de Munich, Alemania.

“Los enfoques bioinformáticos más tradicionales modelan datos utilizando reglas rígidas predefinidas que se basan en el conocimiento existente. Sin embargo, la biología es extremadamente rica y complicada ”, dice Avsec. «Mediante el uso de redes neuronales, podemos entrenar modelos mucho más flexibles y matizados que aprenden patrones complejos desde cero sin conocimientos previos, lo que permite nuevos descubrimientos».

La arquitectura de red de BPNet es similar a la de las redes neuronales utilizadas para el reconocimiento facial en imágenes. Por ejemplo, la red neuronal primero detecta bordes en los píxeles, luego aprende cómo los bordes forman elementos faciales como el ojo, la nariz o la boca, y finalmente detecta cómo los elementos faciales juntos forman una cara. En lugar de aprender de los píxeles, BPNet aprende de la secuencia de ADN sin procesar y aprende a detectar motivos de secuencia y, finalmente, las reglas de orden superior mediante las cuales los elementos predicen los datos de unión de resolución base.

Una vez que el modelo está entrenado para ser altamente preciso, los patrones aprendidos se extraen con herramientas de interpretación. La señal de salida se remonta a las secuencias de entrada para revelar motivos de secuencia. El paso final es utilizar el modelo como un oráculo y consultarlo sistemáticamente con diseños de secuencias de ADN específicos, similar a lo que se haría para probar hipótesis experimentalmente, para revelar las reglas por las cuales los motivos de secuencia funcionan de manera combinatoria.

“La belleza es que el modelo puede predecir muchos más diseños de secuencia que podríamos probar experimentalmente”, dice Zeitlinger. «Además, al predecir el resultado de las perturbaciones experimentales, podemos identificar los experimentos que son más informativos para validar el modelo». De hecho, con la ayuda de las técnicas de edición de genes CRISPR, los investigadores confirmaron experimentalmente que las predicciones del modelo eran muy precisas.

Dado que el enfoque es flexible y aplicable a una variedad de diferentes tipos de datos y tipos de células, promete conducir a una comprensión cada vez mayor del código regulador y cómo la variación genética afecta la regulación genética. Tanto Zeitlinger Lab como Kundaje Lab ya están utilizando BPNet para identificar de manera confiable motivos de unión para otros tipos de células, relacionar motivos con parámetros biofísicos y aprender otras características estructurales en el genoma, como las asociadas con el empaquetamiento de ADN. Para permitir que otros científicos usen BPNet y lo adapten a sus propias necesidades, los investigadores han puesto a disposición todo el marco de software con documentación y tutoriales.

Referencia: «Los modelos de resolución base de la unión de factores de transcripción revelan una sintaxis de motivos suaves» por Žiga Avsec, Melanie Weilert, Avanti Shrikumar, Sabrina Krueger, Amr Alexandari, Khyati Dalal, Robin Fropf, Charles McAnany, Julien Gagneur, Anshul Kundaje y Julia Zeitlinger , 18 de febrero de 2021, Nature Genetics.
DOI: 10.1038 / s41588-021-00782-6

Otros contribuyentes al estudio fueron Melanie Weilert, Sabrina Krueger, PhD, Khyati Dalal, Robin Fropf, PhD, y Charles McAnany, PhD, de Stowers; y Avanti Shrikumar, PhD, y Amr Alexandari de la Universidad de Stanford.

Este trabajo fue financiado en parte por el Instituto Stowers para la Investigación Médica y el Instituto Nacional de Investigación del Genoma Humano (otorga R01HG009674 y U01HG009431 a AK y R01HG010211 a JZ) y el Instituto Nacional de Ciencias Médicas Generales (DP2GM123485 a AK) de los Institutos Nacionales de Salud (NIH). El apoyo adicional incluyó el Bundesministerium für Bildung und Forschung alemán (proyecto MechML 01IS18053F a Z.A.) y una beca Stanford BioX y una beca de investigación para estudiantes internacionales del Instituto Médico Howard Hughes (para A.S). La secuenciación se realizó en el Instituto Stowers para la Investigación Médica y el Centro de Genómica del Centro Médico de la Universidad de Kansas con el apoyo de los premios del NIH del Instituto Nacional de Salud Infantil y Desarrollo Humano (U54HD090216), la Oficina del Director (Instrumentación S10OD021743) y el Instituto Nacional de Ciencias Médicas Generales (COBRE P30GM122731). El contenido es responsabilidad exclusiva de los autores y no necesariamente representa las opiniones oficiales de los NIH.

Lay Resumen de hallazgos

El ADN es bien conocido por codificar proteínas. También contiene otro código, un código regulador, que indica cuándo y dónde producir proteínas en un organismo. En un informe publicado en línea el 18 de febrero de 2021, en Genética de la naturaleza, investigadores del laboratorio de Julia Zeitlinger, PhD, investigadora del Instituto Stowers de Investigación Médica, y colaboradores de la Universidad de Stanford y la Universidad Técnica de Múnich describen cómo han utilizado la inteligencia artificial explicable para ayudar a descifrar el código regulador del genoma.

Los investigadores desarrollaron una red neuronal cuyo funcionamiento interno se puede descubrir para revelar patrones de secuencia de ADN reguladores y sus principios de organización de alto nivel a partir de datos genómicos de alta resolución. Zeitlinger Lab anticipa que los modelos predictivos, las reglas y los mapas generados con este tipo de enfoque conducirán a una mejor comprensión de la variación genética natural y asociada a enfermedades en las regiones reguladoras del ADN.