Saltar al contenido

Modelo de lenguaje natural impulsa el diseño de proteínas con la creación de enzimas activas

29 de enero de 2023

Los científicos han creado un sistema de IA capaz de generar enzimas artificiales desde cero. En pruebas de laboratorio, algunas de estas enzimas funcionaron tan bien como las que se encuentran en la naturaleza, incluso cuando sus secuencias de aminoácidos generadas artificialmente diferían significativamente de cualquier proteína natural conocida.

El experimento demuestra que el procesamiento del lenguaje natural, aunque se desarrolló para leer y escribir textos en lenguaje, puede aprender al menos algunos de los principios básicos de la biología. Salesforce Research desarrolló el programa de inteligencia artificial, llamado ProGen, que utiliza la predicción del siguiente token para ensamblar secuencias de aminoácidos en proteínas artificiales.

Los científicos dijeron que la nueva tecnología podría volverse más poderosa que la evolución dirigida, la tecnología de diseño de proteínas ganadora del premio Nobel, y energizará el campo de la ingeniería de proteínas de 50 años al acelerar el desarrollo de nuevas proteínas que pueden usarse para casi cualquier cosa. de la terapéutica al plástico degradante.

«Los diseños artificiales funcionan mucho mejor que los diseños inspirados en el proceso evolutivo», dijo James Fraser, PhD, profesor de bioingeniería y ciencias terapéuticas en la Facultad de Farmacia de la UCSF y autor del trabajo, que se publicó el 26 de enero. , en Naturaleza Biotecnología.

«El modelo de lenguaje está aprendiendo aspectos de la evolución, pero es diferente al proceso evolutivo normal», dijo Fraser. «Ahora tenemos la capacidad de ajustar la generación de estas propiedades para efectos específicos. Por ejemplo, una enzima que es increíblemente termoestable o le gustan los ambientes ácidos o no interactúa con otras proteínas».

Recomendado:  Una revisión del campo de la web semántica | Febrero 2021

Para crear el modelo, los científicos simplemente introdujeron las secuencias de aminoácidos de 280 millones de proteínas diferentes de todo tipo en el modelo de aprendizaje automático y dejaron que digiriera la información durante un par de semanas. Luego, ajustaron el modelo al prepararlo con 56 000 secuencias de cinco familias de lisozimas, junto con información contextual sobre estas proteínas.

El modelo generó rápidamente un millón de secuencias, y el equipo de investigación seleccionó 100 para probar, en función de lo mucho que se parecían a las secuencias de las proteínas naturales, así como de lo naturalistas que eran la «gramática» y la «semántica» de los aminoácidos subyacentes de las proteínas de la IA.

De este primer lote de 100 proteínas, que Tierra Biosciences examinó in vitro, el equipo creó cinco proteínas artificiales para probarlas en células y comparó su actividad con una enzima que se encuentra en la clara de los huevos de gallina, conocida como lisozima de clara de huevo de gallina. (HEWL). Lisozimas similares se encuentran en las lágrimas, la saliva y la leche humanas, donde se defienden contra las bacterias y los hongos.

Dos de las enzimas artificiales fueron capaces de descomponer las paredes celulares de las bacterias con una actividad comparable a HEWL, pero sus secuencias eran solo un 18% idénticas entre sí. Las dos secuencias eran aproximadamente 90% y 70% idénticas a cualquier proteína conocida.

Solo una mutación en una proteína natural puede hacer que deje de funcionar, pero en una ronda diferente de detección, el equipo encontró que las enzimas generadas por IA mostraron actividad incluso cuando tan solo el 31,4% de su secuencia se parecía a cualquier proteína natural conocida.

Recomendado:  Cardiosense, Inc., completa un financiamiento Serie A de $15,1 millones para avanzar en la plataforma de inteligencia artificial para enfermedades cardíacas

La IA incluso pudo aprender cómo se deberían formar las enzimas, simplemente estudiando los datos de secuencia sin procesar. Medidas con cristalografía de rayos X, las estructuras atómicas de las proteínas artificiales se veían como deberían, aunque las secuencias no se parecían a nada visto antes.

Salesforce Research desarrolló ProGen en 2020, basado en un tipo de programación de lenguaje natural que sus investigadores desarrollaron originalmente para generar texto en inglés.

Sabían por su trabajo anterior que el sistema de IA podía aprender la gramática y el significado de las palabras, junto con otras reglas subyacentes que hacen que la escritura esté bien compuesta.

«Cuando entrenas modelos basados ​​en secuencias con una gran cantidad de datos, son realmente poderosos para aprender estructuras y reglas», dijo Nikhil Naik, PhD, director de investigación de IA en Salesforce Research y autor principal del artículo. «Aprenden qué palabras pueden coexistir y también la composición».

Con las proteínas, las opciones de diseño eran casi ilimitadas. Las lisozimas son pequeñas como proteínas, con hasta unos 300 aminoácidos. Pero con 20 aminoácidos posibles, hay un número enorme (20300) de posibles combinaciones. Eso es mayor que tomar a todos los humanos que vivieron a lo largo del tiempo, multiplicado por la cantidad de granos de arena en la Tierra, multiplicada por la cantidad de átomos en el universo.

Dadas las posibilidades ilimitadas, es notable que el modelo pueda generar tan fácilmente enzimas de trabajo.

«La capacidad de generar proteínas funcionales desde cero demuestra que estamos entrando en una nueva era de diseño de proteínas», dijo Ali Madani, PhD, fundador de Profluent Bio, ex investigador científico de Salesforce Research, y el autor del artículo. Primer autor. «Esta es una nueva herramienta versátil disponible para los ingenieros de proteínas, y esperamos ver las aplicaciones terapéuticas».

Recomendado:  La gran idea: ¿deberíamos preocuparnos por la inteligencia artificial? | Libros

Más información: https://github.com/salesforce/progen