Proyecto PhenoLake

Proyecto Fenotipo Profundo - PhenoLake

PHENOLAKE es un proyecto pionero de Ciencia de Datos Multimodal que busca aportar al estudio de las enfermedades genéticas de la visión al integrar registros clínicos con testimonios narrativos de pacientes en audio (Tipo entrevista).

El proyecto aborda la subutilización de datos cualitativos, utilizando una Arquitectura Data Lakehouse en Microsoft Azure (ADLS Gen2 + Delta Lake).  Mediante la tecnología Speech-to-Text (STT), los audios se transcriben, generando un archivo JSON semi-estructurado con alineación temporal (timestamp) a nivel de palabra.

El paso técnico más crítico es el Aplanamiento (Unrolling) de este JSON mediante procesos ETL con PySpark. El unrolling transforma la matriz anidada de palabras y sus marcas de tiempo en una tabla plana, donde cada fila es una palabra única.

Esta tabla plana se convierte a formato columnar Parquet bajo la capa Delta Lake, un diseño que garantiza la escalabilidad analítica. El resultado optimiza drásticamente la extracción de conocimiento: los investigadores pueden buscar palabras clave (como síntomas sutiles) y navegar instantáneamente al momento exacto del audio para una mejor comprensión del contexto.

El objetivo final es extraer el Fenotipo Profundo, correlacionando estas experiencias narradas con los datos genéticos y clínicos. Se espera que este modelo demuestre una mejora de eficiencia en la recuperación de información superior al 80% frente a los métodos secuenciales, aportando una comprensión más humana e integral de las enfermedades visuales.

Investigador Principal: Ramiro Gómez Quintero (Maestría en Ciencia de Datos y Analítica – UNAD).

El Modelo de Minería de Datos para el Análisis de Enfermedades de la Visión a partir de Fuentes Mixtas. El proyecto PHENOLAKE propone el desarrollo de una herramienta analítica avanzada basada en minería de datos y computación en la nube, orientada al estudio de enfermedades de la visión. Este enfoque contribuye al campo de la bioinformática y la ciencia de datos aplicada a la salud al incorporar fuentes de información complementarias tradicionalmente excluidas del análisis computacional.

Para resolver esta brecha, se propone el desarrollo de un modelo de minería de datos sobre una arquitectura de lago de datos (Data Lake) en Microsoft Azure. Implementar una arquitectura Data Lakehouse (ADLS Gen2 + Delta Lake) para la integración de datos genéticos y clínicos estructurados más los testimonios de pacientes con alineación temporal en su transcripción textual.

La metodología abarca: ingesta de datos de audio y transcripción a texto mediante servicios cognitivos de inteligencia artificial STT con estampa de tiempo para todo el texto transcrito. El resultado clave de este proceso es la Transcripción con Alineación Temporal a Nivel de Token o Texto Enriquecido con Timestamp. Este formato genera un JSON detallado que asocia cada palabra o token con su tiempo de inicio (Offset) y duración exactos en el audio de origen.

Implementación del ETL Columnar a Tablas Delta: Desarrollar el proceso ETL (PySpark) para realizar el aplanamiento (unrolling) del JSON de transcripciones, creando una única tabla a nivel de palabra. Uso de PySpark para el ETL (lectura de JSON y escritura a Parquet/Delta).

Aplanamiento (Unrolling) de la Transcripción: Este es el paso más crítico. El script PySpark ejecuta una lógica de unroll (aplanamiento) para transformar la matriz anidada de palabras-timestamp en un esquema plano, donde cada fila es una palabra única (tabla plana a nivel de token). La tabla aplanada se escribe como una Tabla Delta sobre archivos Parquet en la ruta analytics-data. Convertir esta tabla a formato Parquet bajo la capa Delta Lake. Decisión de Aplanar (Unrolling) el JSON a una fila por palabra con timestamp. Este diseño columnar garantiza la escalabilidad analítica. Habilitar el acceso directo (Random Access) a cualquier punto del audio mediante la búsqueda de una palabra clave, optimizando drásticamente la extracción de conocimiento. Se implementará una arquitectura Data Lakehouse en Microsoft Azure y se realizará una comparación empírica entre un escenario base (procesamiento secuencial sobre datos JSON) y un escenario optimizado (procesamiento distribuido sobre tablas Delta/Parquet). La granularidad a nivel de palabra permite el Predicate Pushdown de Parquet y es el único método para obtener la precisión temporal necesaria para la funcionalidad de salto temporal.

El modelo busca capturar síntomas sutiles, la progresión temporal de la enfermedad y el impacto sistémico. El proyecto espera demostrar mejoras superiores al 80% en eficiencia de búsqueda y una mayor relevancia en la extracción de conocimiento clínico. Cuantificar la mejora en la eficiencia de la Recuperación de Información y la relevancia en la extracción con proyección a crear un Fenotipo Profundo sobre enfermedades genéticas de la visión.

Infografía del Proyecto PHENOLAKE
>90% de Síntomas Sutiles No registrados en EMR estándar
>80% Mejora de Eficiencia En recuperación de información
100% Datos Unificados Genotipo + Fenotipo Narrativo

El Desafío: Datos Clínicos Incompletos

Los Registros Médicos Electrónicos (EMR) estándar, aunque útiles, fallan en capturar la historia completa del paciente. Síntomas sutiles, la progresión temporal de la enfermedad y el impacto en el estilo de vida, cruciales para el **Fenotipo Profundo**, se pierden. PHENOLAKE aborda este vacío integrando narrativas de pacientes con datos clínicos y genéticos en una arquitectura unificada.

La Arquitectura Data Lakehouse de PHENOLAKE

Construimos un pipeline de 3 fases en Azure que transforma audios no estructurados en activos analíticos de alto rendimiento, listos para la minería de datos y el descubrimiento científico.

🎙️

FASE 1: Ingesta

Audios (BLOBs) y EMR (CSV) se cargan en ADLS Gen2.

Azure AI Speech

🔄

FASE 2: Curado (ETL)

PySpark realiza el "Unrolling" de JSON a Tablas Delta planas con timestamps.

PySpark + Delta Lake

🔬

FASE 3: Analítica

Consultas SQL y minería de datos sobre las Tablas Delta optimizadas (Parquet).

SQL Distribuido + Python

Aplicaciones y Beneficios Clave

1. Extracción del Fenotipo Profundo

Capturamos síntomas sutiles (ej. "visión de túnel") y la progresión de la enfermedad directamente de la narrativa del paciente, información que el EMR estándar omite. Esto enriquece el perfil clínico para un análisis más profundo.

2. Optimización del Diagnóstico y Seguimiento

Al proporcionar una visión holística y humana, los clínicos pueden validar información, acelerar el diagnóstico temprano y personalizar el seguimiento del paciente, mejorando la calidad de la atención.

3. Recuperación Eficiente (Random Access)

La arquitectura Lakehouse permite a los investigadores saltar directamente al momento exacto (timestamp) de un audio donde se menciona un término, eliminando horas de escucha manual.

4. Soporte a la Investigación Biomédica

Creamos un modelo reproducible para el análisis multimodal (cuantitativo + cualitativo), sentando las bases para futuras investigaciones que integren ontologías semánticas y datos de imagen (OCT).

Visualizando los Resultados

La Prueba: Eficiencia de Consulta (>80%)

Comparamos la latencia de búsqueda de palabras clave en los JSON crudos (secuencial) frente a nuestra Tabla Delta optimizada.

Descubrimiento: Correlación Genotipo-Fenotipo

Analizamos la frecuencia de términos narrativos (ej. "visión túnel") frente a marcadores genéticos para descubrir correlaciones ocultas.

Composición de Datos del Proyecto

PHENOLAKE unifica datos que tradicionalmente viven en silos separados.

© 2025 Proyecto PHENOLAKE. Un modelo para la ciencia de datos biomédica.