ETL Serverless Low Cost con Glue, Athena y S3 – Arquitectura Cloud
Este proyecto implementa una arquitectura ETL 100% serverless y de bajo coste sobre AWS, diseñada para procesar y transformar datos sin necesidad de mantener servidores activos. Su estructura en tres capas (Bronze, Silver y Gold) garantiza eficiencia, trazabilidad y escalabilidad, utilizando servicios totalmente gestionados como AWS Glue, Athena y S3. La arquitectura se ha optimizado para minimizar costes, eliminando el uso de Glue Spark y apoyándose en transformaciones SQL mediante Athena.
Arquitectura técnica
El flujo está compuesto por un conjunto de servicios completamente gestionados por AWS, que operan bajo demanda para reducir costes y simplificar el mantenimiento:
- Ingesta: Backups SQL de RDS se almacenan automáticamente en un bucket S3 mediante una función Lambda.
- Catalogación: Un Glue Crawler detecta la estructura de los datos en Bronze y actualiza el Data Catalog.
- Transformación: Las consultas CTAS de Athena convierten los datos a formato Parquet, generando las capas Silver y Gold sin necesidad de Spark.
- Orquestación: AWS Lambda y EventBridge automatizan todo el flujo diario, de copia, transformación y limpieza.
- Visualización: QuickSight o Power BI se conectan a la capa Gold para análisis interactivo y dashboards.
Capas del modelo
- Bronze: contiene los datos crudos exportados directamente de RDS, en formato
.sql.gzo CSV. - Silver: almacena los datos transformados a Parquet, listos para análisis y con tipado uniforme.
- Gold: incluye datasets agregados y normalizados para informes y visualizaciones.
Beneficios clave
- Coste ultrabajo: estructura optimizada para pagar solo por ejecución.
- Zero mantenimiento: todos los servicios son serverless y se ejecutan bajo demanda.
- Escalable: permite añadir nuevos tenants o datasets sin modificar la arquitectura.
- Transformaciones SQL: toda la lógica se basa en consultas CTAS en Athena.
- Integración BI: conexión directa con QuickSight o Power BI sobre la capa Gold.
Aplicación y propósito
Este modelo fue diseñado como un pipeline ETL serverless de bajo coste para proyectos de analítica cloud donde la simplicidad y la eficiencia económica son clave. Su estructura modular permite implementarlo en entornos multi-tenant, startups o pequeñas empresas que deseen aprovechar el ecosistema AWS sin costes elevados.
Además, el proyecto sirve como base educativa y de demostración de buenas prácticas en la nube: arquitectura por capas, automatización con Lambda y optimización mediante Parquet y Athena.
¿Quieres implementar un pipeline ETL serverless como este?
Puedo ayudarte a diseñar, desplegar y optimizar tu arquitectura de datos en AWS, reduciendo costes y mejorando la eficiencia de tus procesos analíticos.
Implementar pipeline ETL en AWS → Ver mas proyectos