Data Engineer Senior

Grupo Mariposa

Grupo Mariposa

Salary: $$$
Type: Full time

Tags: Git SQL QA BigQuery

Somos una corporación multinacional de bebidas y alimentos con operaciones regionales, un portafolio amplio de marcas y una estrategia acelerada de transformación digital. Dentro de Apex Digital / M5, el área de Data & Analytics habilita productos analíticos, datos gobernados y capacidades avanzadas para las unidades de negocio, incluyendo CBC, Beliv, BIA y las iniciativas transversales de transformación digital.

Send CV through Get on Board.

Funciones del cargo

1. Diseñar e implementar soluciones de ingeniería de datos escalables, eficientes y mantenibles utilizando tecnologías de Google Cloud, tales como:
  • Cloud Dataflow / Apache Beam (procesamiento distribuido ETL/ELT)
  • BigQuery (almacenamiento, warehouse y motor analítico)
  • Cloud Storage (Data Lake)
  • Dataproc (Spark administrado, cuando aplique)
  • BigQuery / Data Catalog (gobernanza y catalogación)
2. Aplicar modelos de arquitectura por capas (Bronze / Silver / Gold) en un Lakehouse basado en Google Cloud

  • Implementación de un Data Lake en Cloud Storage.
  • Transformaciones intermedias y normalización en Dataflow / Dataproc para capa silver.
  • Exposición de capas refinadas en BigQuery para capa gold orientada a analítica, BI y ML.
  • Definición de estándares de naming, particionamiento, clustering y particionado por tiempo.

3. Automatizar ETL/ELT con enfoques modernos de data engineering

  • Orquestación modular y escalable con Cloud Composer (Airflow).
  • Pipelines idempotentes, reproducibles y versionados.
  • Implementación de validaciones de calidad de datos (DQ) usando:
  • BigQuery Assertions
  • Great Expectations (si aplica)
  • Cloud Composer operators
  • Manejo de Slowly Changing Dimensions (SCD1/SCD2) mediante SQL en BigQuery o Dataflow.
  • Integración CI/CD para despliegue de DAGs, jobs y transformaciones.
4. Garantizar datos confiables, gobernados y optimizados en costos y performance

  • Optimización de costos en BigQuery mediante clustering, particionado y control de consultas.
  • Optimización de Dataflow (autoscaling, tuning, fusión de etapas, ventanas y triggers).
  • Seguridad y gobernanza con Dataplex, IAM y Data Catalog.
  • Documentación robusta del linaje, arquitectura y flujos de datos.
  • Aplicación de estándares de ingeniería:
    • PEP8 para Python
    • Buenas prácticas de SQL
    • Gestión de código con Git / GitFlow
    • Testing y validación automatizada

Requerimientos del cargo

  • Coordinar y operar los entornos de datos (dev/qa/prod), asegurando estabilidad, monitoreo y correcto funcionamiento de los pipelines.
  • Extraer, transformar y cargar datos según las necesidades del negocio, aplicando arquitectura por capas (Bronze/Silver/Gold).
  • Construir integraciones eficientes entre sistemas, APIs y fuentes internas/externas, garantizando integridad y disponibilidad.
  • Implementar flujos CI/CD para despliegue seguro de pipelines y validación automatizada de datos y código.
  • Mentorizar a ingenieros junior en buenas prácticas, estándares de calidad y diseño escalable.
  • Proponer e implementar mejoras tecnológicas que optimicen performance, costos y gobernanza de datos.

Principales Retos

  • Integrar diversas fuentes de datos y asegurar su consistencia.
  • Diseñar y mantener un Lakehouse escalable (Bronze/Silver/Gold).
  • Optimizar performance y costos en BigQuery y procesos de ingesta.
  • Orquestar y monitorear flujos complejos de datos de extremo a extremo.
  • Garantizar calidad, linaje y gobernanza en todos los datasets.
  • Habilitar datos confiables para analítica, BI y productos digitales.
  • Escalar y evolucionar la arquitectura conforme crezcan los casos de uso.

Conditions

Flexible hours Flexible schedule and freedom for attending family needs or personal errands.
Health coverage Grupo Mariposa pays or copays health insurance for employees.
Informal dress code No dress code is enforced.

Source: GetOnBoard | Main Category: Other