Las oportunidades de utilizar los datos de salud para el beneficio del paciente nunca han sido más abundantes, y los avances recientes en la generación de datos sintéticos están acelerando su realización.
Los datos de todo el espectro de la atención médica, incluidas las pruebas de laboratorio, la adherencia a los medicamentos y los determinantes sociales de la salud, tienen el potencial de impulsar resultados que van desde una mayor eficiencia en el desarrollo de medicamentos hasta decisiones políticas más informadas. Si bien los datos de salud tienen una gran utilidad, la privacidad del paciente es primordial y, en consecuencia, se deben implementar salvaguardas bien pensadas. Para muchos casos de uso, los datos sintéticos ofrecen un camino para extraer valor de los datos de salud sin la necesidad de implementar protecciones importantes.
Los datos sintéticos se crean a través de modelos de aprendizaje automático que toman un conjunto de datos real como entrada y generan un nuevo conjunto de datos «falso» que es representativo del conjunto de datos real original. A un alto nivel, los datos sintéticos tienen dos propiedades críticas:
i) Conserva patrones valiosos y relaciones entre variables en el conjunto de datos subyacente que lo hacen adecuado para extraer información que habla de la naturaleza del conjunto de datos real subyacente. Por ejemplo, el proceso de generación de datos sintéticos podría configurarse para preservar la media de una variable numérica como la altura del paciente o la correlación entre dos eventos clínicos.
ii) No hay correspondencia a nivel de registro entre el conjunto de datos reales y los datos sintéticos de salida. Esto protege contra el riesgo de identificar pacientes en el conjunto de datos real subyacente.
Los avances recientes en el aprendizaje automático generativo han elevado la calidad de los datos sintéticos hasta un punto en el que se pueden utilizar para una variedad de análisis. Un caso de uso arquetípico que es aplicable en una variedad de casos de uso de atención médica es la generación de conjuntos de datos más grandes y variados de los que uno tiene acceso, como en la investigación de enfermedades raras o estudios de poblaciones dentro de un área geográfica pequeña.
Para tomar un ejemplo concreto, supongamos que una empresa de ciencias de la vida desea superponer datos de registro de enfermedades con datos de reclamos médicos para comprender los resultados de una enfermedad específica en el contexto de la atención que recibió un paciente. Obtener un conjunto de datos de volumen suficiente para este análisis puede ser un desafío si la enfermedad es rara o si hay una superposición limitada entre los dos conjuntos de datos.
Este es un caso en el que los datos sintéticos pueden aumentar efectivamente el conjunto de datos original al generar nuevos conjuntos de datos para reforzar el análisis. Una forma de pensar en esto es considerar los conjuntos de datos generados sintéticamente como conjuntos de datos reales alternativos plausibles. Es decir, si imaginamos que el conjunto de datos real es una muestra aleatoria de un conjunto de datos más grande (por ejemplo, un subconjunto aleatorio de pacientes de una población más grande), entonces los conjuntos de datos sintéticos pueden verse como muestras aleatorias alternativas del mismo conjunto de datos más grande. Además, si el investigador sabe que el pequeño conjunto de datos reales está sesgado de alguna manera (por ejemplo, si el conjunto de pacientes era desproporcionadamente masculino), podría configurar el proceso de generación de datos sintéticos para generar conjuntos de datos que contrarresten este sesgo.
En este caso, la capacidad de generar datos sintéticos de alta calidad evita que el investigador tenga que elegir entre un análisis de menor confianza y gastar más tiempo o dinero para obtener más datos reales.
Aunque hay muchos casos en los que los datos sintéticos pueden proporcionar utilidad con un riesgo de privacidad reducido, no es una solución mágica que permita descartar la privacidad por completo. Uno debe protegerse contra la inferencia de la información del paciente del conjunto de datos de entrada que puede ocurrir si el motor está configurado para conservar los valores de los datos de entrada con una fidelidad sin restricciones. En los últimos años, se han desarrollado métricas cuantitativas para evaluar dichos riesgos de inferencia y se pueden configurar motores sintéticos para limitar el valor máximo permitido de estas métricas de riesgo.
En los últimos veinte años, hemos visto un rápido aumento en la digitalización y estandarización de los datos de salud. Con este trabajo preliminar establecido, más recientemente, se han realizado esfuerzos concertados para conectar fuentes de datos de salud en silos para respaldar casos de uso más impactantes. Los datos sintéticos sirven como una poderosa herramienta complementaria para los análisis que requieren estos casos de uso, acercándonos a maximizar la utilidad de los datos dentro del ecosistema de atención médica.
Sobre el Autor
Jonah Leshin es Jefe de Investigación de Privacidad en Datavant, una empresa centrada en la conectividad compatible de datos sanitarios. Jonah es un autor publicado tanto en informática médica como en matemáticas teóricas. Tiene un doctorado en matemáticas de la Universidad de Brown.
Regístrese para recibir el boletín gratuito insideBIGDATA.
Únase a nosotros en Twitter: https://twitter.com/InsideBigData1
Únase a nosotros en LinkedIn: https://www.linkedin.com/company/insidebigdata/
Únase a nosotros en Facebook: https://www.facebook.com/insideBIGDATANOW