Automação de Ingestão

O sistema de ingestão automatizada garante que os dados cheguem de forma confiável, monitorada e auditável ao nosso Data Lake, utilizando infraestrutura serverless para máxima eficiência.

Pipeline de Ingestão Automatizada

DefineDisparaRodaSalvaAvisa
INPUT
CONFIGURAÇÃO
data-sources.yaml.j2
TRIGGER
CLOUD SCHEDULER
Agendamento Cron
EXECUTION
CLOUD BUILD
Execução de Scripts
WORKER
SYNC SCRIPT
Python + RClone
STORAGE
GCS BUCKET
odds-transfer-area
ALERT
NOTIFICAÇÃO
Slack / Email

Legenda do Diagrama:

Fluxo detalhado do infra-sync-sources, mostrando a orquestração via GCP e o monitoramento contínuo.

Componentes Chave

  • Configuração Declarativa: Tudo começa no data-sources.yaml.j2. Adicionar uma nova fonte é tão simples quanto editar este arquivo.
  • Orquestração Serverless: Utilizamos Cloud Scheduler e Cloud Build para não precisarmos gerenciar servidores de orquestração dedicados.
  • RClone: A "faca suíça" da transferência de dados. Lida com FTP, HTTP, S3 e muito mais de forma transparente.
  • Observabilidade: Se um job falha ou termina com sucesso, o script check_notify_backup garante que o time seja avisado no Slack imediatamente.