AWS Glue — ETL serverless
El servicio de integración de datos serverless de AWS: descubre, prepara y mueve datos entre tus fuentes y tu data lake sin administrar infraestructura.
¿Qué es AWS Glue?
AWS Glue es un servicio de ETL (Extract, Transform, Load) serverless: conecta tus fuentes de datos, cataloga su estructura automáticamente y ejecuta los trabajos de transformación que alimentan tu data lake o data warehouse, sin que tengas que aprovisionar ni mantener servidores.
Su Data Catalog funciona como un índice central de todos tus datasets, consultable por servicios como Athena y Redshift. Al ser serverless, escala según el volumen del trabajo y cobra por el tiempo de ejecución, lo que lo hace eficiente para pipelines que no corren las 24 horas.
Para qué se usa AWS Glue
Alimentar un data lake
Ingerir y transformar datos de múltiples fuentes hacia S3 en formato analítico.
Catálogo de datos
Centralizar el esquema y los metadatos de todos los datasets para que analistas los descubran y consulten.
Preparación para analítica e IA
Limpiar y estructurar datos antes de cargarlos a Redshift o usarlos en modelos de machine learning.
Integración entre sistemas
Mover datos entre bases operativas y plataformas de análisis de forma programada.
AWS Glue con un partner AWS
En Caleidos construimos plataformas de datos sobre AWS usando Glue para los pipelines de ingesta y transformación, integrado a un data lake en S3 y consumible por analítica e IA. Es el corazón de nuestros proyectos de ingeniería de datos.
Ver Data Engineering →Preguntas frecuentes
- ¿Qué significa que AWS Glue es serverless?
- Que no aprovisionas ni administras servidores: AWS asigna la capacidad de cómputo cuando el trabajo corre y la libera al terminar. Pagas por el tiempo de ejecución, no por infraestructura encendida 24/7.
- ¿Para qué sirve el Data Catalog de Glue?
- Es un índice central de tus datasets y su estructura. Permite que servicios como Athena y Redshift consulten los datos sin tener que definir esquemas manualmente cada vez.
- ¿AWS Glue reemplaza a un equipo de datos?
- No: es una herramienta que hace más eficiente al equipo. Diseñar buenos pipelines, modelar los datos y garantizar calidad sigue requiriendo criterio de ingeniería de datos.
¿Estás evaluando AWS Glue para tu proyecto?
Cuéntanos qué quieres lograr. En 30 minutos te damos una recomendación concreta.
Conversemos