Saltar al contenido

Cómo el aprendizaje automático está revelando los misterios de las proteínas

10 de agosto de 2022

Comprender las proteínas, como la proteína espiga del coronavirus, es muy importante para el estudio de enfermedades y el desarrollo de medicamentos y vacunas.

Así que hay mucho entusiasmo por la base de datos de estructuras de proteínas AlphaFold, creada por el laboratorio de inteligencia artificial DeepMind con el Laboratorio Europeo de Biología Molecular. Los investigadores han utilizado el aprendizaje automático para predecir y mapear más de 200 millones de estructuras de proteínas de todo tipo de organismos.

Meghan McCarty-Carino de “Marketplace Tech” habló con Matthew Higgins, profesor de parasitología molecular en la Universidad de Oxford. Él estudia los parásitos de la malaria en busca de una posible vacuna y dijo que la base de datos ha acelerado ese trabajo.

La siguiente es una transcripción editada de su conversación.


Recomendado: ¿Qué es el Big data?.


Mateo Higgins: Entonces, el aprendizaje automático comienza con todas las estructuras de proteínas que ya se conocen, y luego aprende de esas estructuras de proteínas. Examina cómo se pliegan las moléculas de proteína para predecir cómo se pliegan también las proteínas, que no conocemos la estructura. Y esto es realmente útil. Existen dos métodos principales mediante los cuales podemos determinar la estructura de una proteína. Y uno de estos se llama el método de microscopía electrónica. Podría darnos una visión bastante borrosa. Y, sin embargo, podemos tomar la estructura predicha de un enfoque de aprendizaje automático y acoplarla a esa vista borrosa, ver qué tan bien encajan estos dos, y eso puede permitirnos generar un mapa mucho más nítido y detallado.

Meghan McCarty-Carino: ¿Cómo le ayudó esta base de datos de proteínas de aprendizaje automático en su trabajo sobre la molécula del parásito de la malaria?

Matthew Higgins (Cortesía de la Universidad de Oxford)

Higgins: Si absolutamente. Hemos estado trabajando en una molécula en particular durante varios años. Y nos resulta muy difícil trabajar en la estructura. La investigadora postdoctoral en mi laboratorio realmente estaba golpeando su cabeza contra la pared tratando de averiguar cómo hacer esto. Y luego apareció la base de datos AlphaFold. Y de repente, pudo ver una gran coincidencia entre el modelo AlphaFold detallado y la vista borrosa que obteníamos de nuestra información experimental, y pudo juntarlos. Y pudo entender de inmediato cómo funcionaba esta molécula y su estructura y su arquitectura. Así que realmente nos ayudó a acelerar ese proyecto y pasar directamente a la siguiente fase del proyecto, que es probar su capacidad como vacunas en este tipo de ensayo preclínico. Y sé por colegas de todo el mundo que AlphaFold realmente los está ayudando a impulsar rápidamente proyectos como este, para asegurarse de que puedan pasar a la siguiente etapa, que es probar cosas como vacunas o diseñar medicamentos.

McCarty-Carino: Entonces, esta base de datos AlphaFold también está abierta al público. Quiero decir, ¿cuál es el significado de eso, especialmente para investigadores como usted?

Higgins: Así que es valioso para el tipo de trabajo que hacemos. Pero también es particularmente valioso para las personas que realizan estudios comparativos a gran escala. Supongamos que desea atacar una molécula particular de una bacteria con un fármaco y el cuerpo humano tiene una molécula de aspecto similar. Puedes ver qué tan similar es y en qué forma es similar o diferente comparando estos modelos. Y eso le permitirá averiguar, por ejemplo, cómo cambiaría la molécula de su medicamento para que no se una a la enzima humana, solo se una a la enzima bacteriana, lo que reduce las posibilidades de efectos no deseados de sus moléculas de medicamento. .

McCarty-Carino: ¿Y esperaría que esta base de datos marque el comienzo de una era de avances acelerados en el sector biotecnológico más amplio?

Higgins: Si, absolutamente. Quiero decir, las empresas de biotecnología durante muchos años o décadas han estado utilizando información estructural para diseñar moléculas de fármacos. Quiero decir, la otra cosa que es una gran fortaleza de estos enfoques de aprendizaje profundo es en realidad crear proteínas totalmente desde cero. Entonces, por ejemplo, podría diseñar una enzima que degrade el plástico o que se deshaga de un producto de desecho utilizando los modelos AlphaFold en las predicciones de proteínas.

Higgins me dijo que buscar en la base de datos es básicamente como hacer una búsqueda en Google. Y debo señalar que la empresa de IA que la desarrolló, DeepMind, es una subsidiaria de la empresa matriz de Google, Alphabet.

AlphaFold no es el único programa de aprendizaje automático que se utiliza para predecir estas estructuras de proteínas. Los científicos de la Universidad de Washington crearon su propia herramienta llamada RoseTTAFold, que, dicen, puede predecir la estructura de una proteína «en tan solo diez minutos en una sola computadora de juego».

Puede notar el tema de «doblar» en el nombre. Eso se debe a que la cadena de aminoácidos que forman las proteínas se pliega, a veces como un Slinky, dando a las proteínas su estructura.

Y mencioné anteriormente, una proteína que todos conocemos y que realmente no amamos es la proteína de punta del coronavirus. Científicos de la Universidad de California, San Francisco, publicaron un documento de trabajo sobre cómo usaron la base de datos AlphaFold para estudiar cómo funciona COVID y cómo diseñar nuevos medicamentos para combatirlo.