Crea tu DataLake en local
Tienes datos dispersos en varios microservicios o orígenes de datos, pero necesitas crear un reporte cruzando datos, vamos a solucionarlo de manera facil.
Rubén Resino
7/21/20251 min read
Problema:
No sé si habéis participado en la creación de una o varias plataformas pero siempre ocurre que tienes varios orígenes de datos y quieres hacer un informe para saber que pasa con tu plataforma.
Por ejemplo: Estuve trabajando en una plataforma de microservicios, y como buenos micro-servicios cada uno tiene su base de datos o esquema propio con sus datos. Usuarios, Pedidos, Ordenes... Perfecto pero desde dirección necesitan saber cuántos pedidos (Pedidos) se han realizado en el mes pasado, en la provincia de Zaragoza (Usuarios), aparentemente es una query sencilla, PERO ¿Cómo cruzas los datos de 2 base de datos diferentes?
Solución Empresarial:
Crear un data lake o delta lake si lo prefieres:
🧱 1. Define la arquitectura (zonas del Data Lake)
Raw (Bronze): datos en crudo, sin procesar.
Cleaned (Silver): datos validados, estructurados mínimamente.
Curated (Gold): datos listos para análisis o consumo por BI/ML.
☁️ 2. Elige el almacenamiento (Data Lake Storage)
AWS S3, Azure Data Lake Storage, o Google Cloud Storage. o Databricks ...
Usa carpetas o prefijos para separar zonas (/bronze/, /silver/...).
🔄 3. Ingesta de datos
Usa herramientas como:
Apache Airflow, AWS Glue, Databricks, dbt, Fivetran...
Para ingestas desde APIs, BBDD, o ficheros.
🧹 4. Procesado y transformación
Procesa con Spark, DuckDB, Pandas, SQL engines, dbt, etc.
Formato recomendado: Parquet o Delta Lake.
🔍 5. Exposición y análisis
Conecta con herramientas de BI (Power BI, Tableau, Superset).
O con motores SQL como Athena, BigQuery, DuckDB, Dremio, etc.
¿No es demasiado para un informe?
Solución "Realista"
ssss
