Proyecto Fenotipo Profundo - PhenoLake
PHENOLAKE es un proyecto pionero de Ciencia de Datos
Multimodal que busca aportar al estudio de las enfermedades genéticas de la
visión al integrar registros clínicos con testimonios narrativos de pacientes en
audio (Tipo entrevista).
El proyecto aborda la subutilización de datos cualitativos,
utilizando una Arquitectura Data Lakehouse en Microsoft Azure (ADLS Gen2 +
Delta Lake). Mediante la tecnología
Speech-to-Text (STT), los audios se transcriben, generando un archivo JSON
semi-estructurado con alineación temporal (timestamp) a nivel de palabra.
El paso técnico más crítico es el Aplanamiento (Unrolling)
de este JSON mediante procesos ETL con PySpark. El unrolling transforma la
matriz anidada de palabras y sus marcas de tiempo en una tabla plana, donde
cada fila es una palabra única.
Esta tabla plana se convierte a formato columnar Parquet
bajo la capa Delta Lake, un diseño que garantiza la escalabilidad analítica. El
resultado optimiza drásticamente la extracción de conocimiento: los
investigadores pueden buscar palabras clave (como síntomas sutiles) y navegar
instantáneamente al momento exacto del audio para una mejor comprensión del
contexto.
El objetivo final es extraer el Fenotipo Profundo,
correlacionando estas experiencias narradas con los datos genéticos y clínicos.
Se espera que este modelo demuestre una mejora de eficiencia en la recuperación
de información superior al 80% frente a los métodos secuenciales, aportando una
comprensión más humana e integral de las enfermedades visuales.
Investigador Principal: Ramiro Gómez Quintero (Maestría en
Ciencia de Datos y Analítica – UNAD).
PodCast PhenoLake
El Modelo de Minería de Datos para el Análisis de Enfermedades de la Visión a partir de Fuentes Mixtas. El proyecto PHENOLAKE propone el desarrollo de una herramienta analítica avanzada basada en minería de datos y computación en la nube, orientada al estudio de enfermedades de la visión. Este enfoque contribuye al campo de la bioinformática y la ciencia de datos aplicada a la salud al incorporar fuentes de información complementarias tradicionalmente excluidas del análisis computacional.
Para resolver esta brecha, se propone el desarrollo de un
modelo de minería de datos sobre una arquitectura de lago de datos (Data Lake)
en Microsoft Azure. Implementar una arquitectura Data Lakehouse (ADLS Gen2 +
Delta Lake) para la integración de datos genéticos y clínicos estructurados más
los testimonios de pacientes con alineación temporal en su transcripción textual.
La metodología abarca: ingesta de datos de audio y
transcripción a texto mediante servicios cognitivos de inteligencia artificial
STT con estampa de tiempo para todo el texto transcrito. El resultado clave de
este proceso es la Transcripción con Alineación Temporal a Nivel de Token o
Texto Enriquecido con Timestamp. Este formato genera un JSON detallado que
asocia cada palabra o token con su tiempo de inicio (Offset) y duración exactos
en el audio de origen.
Implementación del ETL Columnar a Tablas Delta: Desarrollar
el proceso ETL (PySpark) para realizar el aplanamiento (unrolling) del JSON de
transcripciones, creando una única tabla a nivel de palabra. Uso de PySpark
para el ETL (lectura de JSON y escritura a Parquet/Delta).
Aplanamiento (Unrolling) de la Transcripción: Este es el
paso más crítico. El script PySpark ejecuta una lógica de unroll (aplanamiento)
para transformar la matriz anidada de palabras-timestamp en un esquema plano,
donde cada fila es una palabra única (tabla plana a nivel de token). La tabla
aplanada se escribe como una Tabla Delta sobre archivos Parquet en la ruta
analytics-data. Convertir esta tabla a formato Parquet bajo la capa Delta Lake.
Decisión de Aplanar (Unrolling) el JSON a una fila por palabra con timestamp.
Este diseño columnar garantiza la escalabilidad analítica. Habilitar el acceso
directo (Random Access) a cualquier punto del audio mediante la búsqueda de una
palabra clave, optimizando drásticamente la extracción de conocimiento. Se
implementará una arquitectura Data Lakehouse en Microsoft Azure y se realizará
una comparación empírica entre un escenario base (procesamiento secuencial
sobre datos JSON) y un escenario optimizado (procesamiento distribuido sobre
tablas Delta/Parquet). La granularidad a nivel de palabra permite el Predicate
Pushdown de Parquet y es el único método para obtener la precisión temporal
necesaria para la funcionalidad de salto temporal.
El modelo busca capturar síntomas sutiles, la progresión
temporal de la enfermedad y el impacto sistémico. El proyecto espera demostrar
mejoras superiores al 80% en eficiencia de búsqueda y una mayor relevancia en
la extracción de conocimiento clínico. Cuantificar la mejora en la eficiencia
de la Recuperación de Información y la relevancia en la extracción con proyección
a crear un Fenotipo Profundo sobre enfermedades genéticas de la visión.
El Desafío: Datos Clínicos Incompletos
Los Registros Médicos Electrónicos (EMR) estándar, aunque útiles, fallan en capturar la historia completa del paciente. Síntomas sutiles, la progresión temporal de la enfermedad y el impacto en el estilo de vida, cruciales para el **Fenotipo Profundo**, se pierden. PHENOLAKE aborda este vacío integrando narrativas de pacientes con datos clínicos y genéticos en una arquitectura unificada.
La Arquitectura Data Lakehouse de PHENOLAKE
Construimos un pipeline de 3 fases en Azure que transforma audios no estructurados en activos analíticos de alto rendimiento, listos para la minería de datos y el descubrimiento científico.
FASE 1: Ingesta
Audios (BLOBs) y EMR (CSV) se cargan en ADLS Gen2.
Azure AI Speech
FASE 2: Curado (ETL)
PySpark realiza el "Unrolling" de JSON a Tablas Delta planas con timestamps.
PySpark + Delta Lake
FASE 3: Analítica
Consultas SQL y minería de datos sobre las Tablas Delta optimizadas (Parquet).
SQL Distribuido + Python
Aplicaciones y Beneficios Clave
1. Extracción del Fenotipo Profundo
Capturamos síntomas sutiles (ej. "visión de túnel") y la progresión de la enfermedad directamente de la narrativa del paciente, información que el EMR estándar omite. Esto enriquece el perfil clínico para un análisis más profundo.
2. Optimización del Diagnóstico y Seguimiento
Al proporcionar una visión holística y humana, los clínicos pueden validar información, acelerar el diagnóstico temprano y personalizar el seguimiento del paciente, mejorando la calidad de la atención.
3. Recuperación Eficiente (Random Access)
La arquitectura Lakehouse permite a los investigadores saltar directamente al momento exacto (timestamp) de un audio donde se menciona un término, eliminando horas de escucha manual.
4. Soporte a la Investigación Biomédica
Creamos un modelo reproducible para el análisis multimodal (cuantitativo + cualitativo), sentando las bases para futuras investigaciones que integren ontologías semánticas y datos de imagen (OCT).
Visualizando los Resultados
La Prueba: Eficiencia de Consulta (>80%)
Comparamos la latencia de búsqueda de palabras clave en los JSON crudos (secuencial) frente a nuestra Tabla Delta optimizada.
Descubrimiento: Correlación Genotipo-Fenotipo
Analizamos la frecuencia de términos narrativos (ej. "visión túnel") frente a marcadores genéticos para descubrir correlaciones ocultas.
Composición de Datos del Proyecto
PHENOLAKE unifica datos que tradicionalmente viven en silos separados.