Saltar al contenido

El problema con los ‘datos sucios’: cómo la calidad de los datos puede afectar la adopción de IA en ciencias de la vida

16 de junio de 2023

En lo que respecta a los modelos de IA, obtienes lo que pones. No puedes esperar ingresar datos de mala calidad y generar resultados de alta calidad. Pero con demasiada frecuencia, eso es exactamente lo que sucede en las ciencias de la vida. Los modelos de IA exitosos no logran desarrollar todo su potencial porque los datos en los que se basan no tienen la calidad suficiente. El desafío para la adopción efectiva de la IA en las ciencias de la vida no radica en la IA en sí misma, sino en los conjuntos de datos de las ciencias de la vida.

Datos de ciencias de la vida: sucios, desestructurados y altamente regulados

Las empresas de ciencias de la vida se basan en grandes cantidades de datos. El ‘diluvio de datos’ ha inundado todas las industrias, pero ninguna más que la de ciencias de la vida, donde los datos llegan a raudales de pacientes, pagadores y profesionales de la salud a través de innumerables flujos. Por ejemplo, la voz del paciente se ha amplificado cada vez más en los últimos años. Si bien esto es, sin duda, algo excelente para los pacientes, los equipos de ciencias de la vida enfrentan un desafío para mantenerse al día con la cantidad de canales en línea donde se comparten opiniones y se puede extraer información. “Hay una gran cantidad de datos que aprovechar y las principales empresas de ciencias biológicas lo han notado”. informa datos NTT. “Con las rápidas reducciones en los costos de la secuenciación del genoma, la cantidad de datos genómicos se disparó a más de 40 exabytes durante la última década.

La cantidad no siempre equivale a calidad, y rara vez se necesita todo el lago de datos de una empresa para construir un modelo de IA efectivo. En cambio, las empresas deben adoptar un enfoque centrado en los datos, y así pasar de grandes volúmenes de información a muestras más pequeñas con conjuntos de datos de mayor calidad para la capacitación.

Recomendado:  Vodafone y Ericsson facilitan decisiones basadas en datos con soluciones basadas en IA en Omán

Acceso a datos y cumplimiento

La cantidad de datos es solo un obstáculo potencial que impide la construcción de conjuntos de datos de ciencias de la vida de alta calidad. Muchas fuentes de datos de la industria están sujetas a regulaciones como el RGPD europeo o la CCPA, entre otras leyes regionales, y es posible que no se compartan con otros proveedores ni se utilicen para entrenar modelos de IA. El acceso a los datos puede ser un problema real dentro de las industrias altamente reguladas, como las ciencias de la vida, donde los requisitos normativos pueden cambiar de una región a otra. “Si bien la mayoría de las empresas están adoptando nuevas tecnologías para ofrecer mejores resultados para los pacientes”, señala Deloitte“la ambigüedad de las regulaciones relacionadas con las tecnologías emergentes y convergentes da como resultado una gran cantidad de desafíos de cumplimiento.

Al crear modelos de IA de ciencias de la vida, no es raro encontrar que los conjuntos de datos potencialmente valiosos están delimitados por problemas de cumplimiento, lo que lleva a modelos creados a partir de datos incompletos.

datos sucios

Las empresas de ciencias de la vida tienen acceso a una gran cantidad de datos (en algunos casos, demasiados) y gran parte de la información más útil está sujeta a estrictos procesos normativos y, en la práctica, está fuera de su alcance. Y para empeorar las cosas, una proporción significativa de los datos de ciencias de la vida están ‘sucios’ (inexactos, incompletos o inconsistentes) y no se pueden usar de inmediato.

Los datos de las ciencias de la vida a menudo no están estructurados y se presentan en forma de informes MSL mecanografiados y observaciones del equipo de campo que pueden variar drásticamente en longitud, formato e incluso idioma. Muchas organizaciones de atención médica han migrado completamente a los registros médicos electrónicos (EMR), pero algunas solo lo han hecho parcialmente, mientras que otras aún no han comenzado la transición. Estos flujos de datos dispares y, a menudo, inconsistentes significan que los conjuntos de datos de ciencias de la vida a menudo deben limpiarse antes de que se usen para entrenar modelos de IA efectivos.

Recomendado:  ITOps y Big Data alcanzan la mayoría de edad

Lidiando con el sesgo de datos

El atractivo de la toma de decisiones basada en datos se basa en la objetividad: los datos dicen la verdad y las elecciones basadas en datos serán correctas. Pero el sesgo todavía puede desempeñar un papel. Los modelos de aprendizaje automático están influenciados tanto por la diversidad de conjuntos de datos como por la forma en que se entrena el modelo. Por lo tanto, si los conjuntos de datos contienen datos sesgados, el modelo puede exhibir el mismo sesgo en su toma de decisiones. “La IA puede ayudar a identificar y reducir el impacto de los sesgos humanos”, informa HBR. “Pero también puede empeorar el problema al incorporar y desplegar sesgos a escala en áreas de aplicación sensibles..”

¿Cómo pueden los modelos de aprendizaje automático superar los datos sesgados? El año pasado, un grupo de investigadores del MIT descubrió que la forma en que se entrena un modelo puede influir en su capacidad para superar un conjunto de datos sesgado. Los autores del estudio señalaron que es posible superar el sesgo del conjunto de datos cuidando el diseño del conjunto de datos. “Tenemos que dejar de pensar que si solo recopila una tonelada de datos sin procesar, eso lo llevará a alguna parte”, dijo el científico investigador y autor del estudio Xavier Boix.

Adopción efectiva de IA en ciencias de la vida

Hasta ahora, la adopción de la IA en las ciencias biológicas ha sido heterogénea. En muchos casos, los proyectos han salido mal no porque la tecnología sea inmadura, sino porque los datos en los que se basa no están limpios, no están estructurados o están protegidos por regulaciones. Según una investigación de Deloitte, “A medida que la IA pasa de ser «agradable tener» a ser «imprescindible», las empresas y sus líderes deben crear una visión y una estrategia para aprovechar la IA, y luego establecer los componentes básicos necesarios para escalar su uso.

Intentar implementar un modelo de IA antes de que los datos estén listos desperdicia tiempo y recursos. Los desafíos de datos que conducen a modelos deficientes o sesgados pueden afectar la confianza de la industria en el potencial de la IA para generar valor comercial. Para tener éxito en la capacitación e implementación de modelos de IA, las empresas de ciencias de la vida deben desarrollar una estrategia de datos clara y dedicar suficiente tiempo a limpiar y armonizar sus datos.

Recomendado:  Los consumidores no tienen que dejar su CFI al banco en uno mejor

Sobre el Autor

Jason Smith es el director de tecnología, inteligencia artificial y análisis en Within3. Utiliza IA para comprender el valor de los datos y ofrecer productos que permitan a nuestros clientes tomar decisiones impactantes. Jason comenzó su carrera en IBM y ATI Research mientras estudiaba informática en la Universidad de Harvard, EE. UU. Es un tecnólogo de vanguardia y un ejecutivo con más de 20 años de experiencia en la industria.

Regístrese para recibir el boletín gratuito insideBIGDATA.

Únase a nosotros en Twitter: https://twitter.com/InsideBigData1

Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/

Únase a nosotros en Facebook: https://www.facebook.com/insideBIGDATANOW