Automação de Ingestão
O sistema de ingestão automatizada garante que os dados cheguem de forma confiável, monitorada e auditável ao nosso Data Lake, utilizando infraestrutura serverless para máxima eficiência.
Pipeline de Ingestão Automatizada
Legenda do Diagrama:
Fluxo detalhado do infra-sync-sources, mostrando a orquestração via GCP e o monitoramento contínuo.
Componentes Chave
- Configuração Declarativa: Tudo começa no
data-sources.yaml.j2. Adicionar uma nova fonte é tão simples quanto editar este arquivo. - Orquestração Serverless: Utilizamos Cloud Scheduler e Cloud Build para não precisarmos gerenciar servidores de orquestração dedicados.
- RClone: A "faca suíça" da transferência de dados. Lida com FTP, HTTP, S3 e muito mais de forma transparente.
- Observabilidade: Se um job falha ou termina com sucesso, o script
check_notify_backupgarante que o time seja avisado no Slack imediatamente.