No dia 19 de outubro de 2025, às 23h49 (horário do Pacífico), os alarmes começaram a soar na Amazon Web Services. O que parecia ser um problema pontual rapidamente escalou para uma das maiores interrupções do serviço desde 2021 e sim, derrubou até o próprio Amazon.com.
Agora, a Amazon revelou o que realmente aconteceu: uma falha no sistema de resolução de DNS dos endpoints regionais do DynamoDB, seu banco de dados de alta performance. A pane causou um colapso temporário na comunicação entre diversos serviços internos da AWS e afetou milhões de clientes.
Como um problema de DNS virou um apagão digital
O serviço afetado foi o DynamoDB, mas o problema real estava no caminho até ele. A falha fez com que os endereços não fossem corretamente resolvidos ou seja, os sistemas tentavam encontrar o serviço e recebiam um “nada” de volta.
O efeito foi imediato: erro atrás de erro pipocando em tudo quanto era canto da região US-EAST-1, uma das mais críticas e populosas da AWS. Serviços internos da Amazon, plataformas de e-commerce, suporte ao cliente e até sites de terceiros que dependem da infraestrutura do AWS entraram em colapso.
Engenheiros da empresa identificaram o problema técnico por volta de 00h26, já no dia 20, e começaram o plano de contenção e mitigação. O ponto crítico do problema foi resolvido às 02h24, com o DNS do DynamoDB voltando ao normal.
Recuperar é mais difícil que resolver
Mas resolver o DNS foi só o começo. Parte da infraestrutura interna da Amazon continuou instável, exigindo uma ação contraintuitiva: throttling. Isso significa que a AWS passou a frear intencionalmente certas operações, como a criação de novas instâncias EC2, para evitar sobrecarga e permitir uma recuperação gradual.
É como quando o trânsito para de repente e, para não virar um caos total, você coloca um controle de fluxo: menos carros passam, mas passam com segurança.
Aos poucos, os serviços foram voltando. Às 12h28, a AWS já via sinais de normalização significativa. Às 15h01, a Amazon declarou o fim da crise. O tempo total entre o início da falha e o restabelecimento completo foi de cerca de 15 horas.
O que a Amazon aprendeu com isso?
A AWS publicou um relatório pós-incidente bem técnico e detalhado (como deveria ser). Além de explicar a origem do erro que envolveu uma complexa sequência de falhas em como o DNS era tratado internamente, a Amazon prometeu mudanças estruturais para evitar esse tipo de evento no futuro.
E o mais importante: não foi necessário nenhum erro humano para causar tudo isso. Foi uma falha sistêmica em um componente crítico que, por acaso, afeta praticamente tudo.
Falha na AWS gerou apagão digital
Essa queda é mais uma daquelas situações que mostram o que acontece quando uma peça da engrenagem falha e a engrenagem em questão é a que sustenta boa parte da internet.
DNS parece um detalhe técnico, quase invisível. Mas sem ele, nenhum serviço sabe onde os outros estão. E a AWS descobriu isso da pior forma.







