Introdução
Este documento tem como objetivo esclarecer a indisponibilidade do dia 12/03/2025, reforçando nosso compromisso com a melhor experiência para nossos clientes e destacando as ações realizadas e nosso foco em melhorias contínuas.
Causa Raiz
No dia 12/03/2025, a solução de IDS de um de nossos parceiros identificou uma alta volumetria de tráfego direcionado. Como medida de mitigação, a solução implementou automaticamente a ação de blackhole para o IP alvo. Contudo, uma falha no redirecionamento do tráfego na camada EDGE da estrutura do parceiro resultou em uma indisponibilidade momentânea dos serviços vinculados à operadora impactada, afetando parcialmente a conectividade e estabilidade do ambiente.
Detalhamento do Incidente
Durante a investigação, foi identificado um tráfego anormal, ultrapassando 200 Gbps e mais de 12,5 milhões de pacotes direcionados ao IP alvo. Para conter essa volumetria excessiva e proteger a infraestrutura, a solução de IDS aplicou automaticamente a ação de blackhole.
O tráfego anômalo atingiu os roteadores EDGE da operadora impactada, provocando um comportamento inesperado nos equipamentos, resultando em um roteamento preso e gerando um looping interno.
Durante o troubleshooting, em colaboração com nosso fornecedor, realizamos a migração das conexões para uma nova coluna de roteadores com maior capacidade. Essa ação permitiu a normalização dos serviços e a estabilização do ambiente.
Visando a continuidade da operação, a operadora impactada foi desativada temporariamente. Entretanto, devido à propagação global de roteamento, houve um atraso na remoção das rotas, o que prolongou a indisponibilidade para os serviços dependentes dessa operadora.
Ações corretivas e melhorias aplicadas
- A migração do circuito para uma nova coluna de roteadores foi implementada de forma definitiva, aumentando a capacidade dos equipamentos e garantindo maior eficiência, estabilidade e resiliência para lidar com volumes elevados de tráfego no futuro.
- Revisão e aprimoramento dos processos de mitigação automática para evitar impactos desnecessários em eventos futuros.
- Fortalecimento da colaboração com nossos parceiros e fornecedores para garantir respostas mais ágeis e eficazes a incidentes dessa natureza.
Ressaltamos que a infraestrutura geral da empresa permaneceu operacional, com impacto limitado apenas aos serviços dependentes da operadora afetada. Seguimos comprometidos em aprimorar continuamente nossos processos e soluções para garantir a melhor experiência para nossos clientes.
Comentários
0 comentário
Artigo fechado para comentários.