Voltar ao canal

Мой личный склад идей

#133 · Publicado em: 2026-01-22 04:20 UTC

Idiomas

Post original

O erro mais caro que já observei na minha função de diretor técnico Certa vez, precisei lidar com as consequências de um erro que custou muito caro para o negócio, e a análise dessas consequências levou cerca de um ano. Hoje, compartilho as lições que tirei dessa situação que aconteceu há mais de 10 anos. Lei de Murphy: «Se algo pode dar errado, dará» Você já se deparou com o fato de que na vida começam a acontecer eventos aparentemente desconexos, que por si só não têm consequências críticas, e cuja probabilidade de ocorrer é relativamente baixa, mas que, por alguma razão, começam a acontecer ao mesmo tempo, como se fosse um conluio, transformando-se no que parece uma avalanche de problemas? Pois bem, essa avalanche de “casualidades” na minha experiência acabou levando, uma vez, a uma situação em que, em uma empresa com dezenas de milhares de usuários, em um dia ensolarado, a base de dados dos últimos 3 meses foi perdida. Todos os novos usuários, todos os dados, pagamentos e demais informações foram irremediavelmente apagados. O que aconteceu Por razões óbvias, não posso revelar todos os detalhes, mas, de forma geral: o servidor onde o serviço rodava ficou sem energia. Após religar, o banco de dados instalado nele não iniciou mais. Após tentativas frustradas de restaurar o banco, foi tomada a decisão de recuperá-lo a partir de um backup recente. O banco foi restaurado, o serviço voltou a funcionar e… descobriu-se que o backup “atual” não continha os dados dos últimos 3 meses. Como isso aconteceu Na época, o sistema de backup era configurado assim: o banco de dados principal era espelhado em tempo real para um banco de dados de reserva, e uma cópia de segurança diária era feita a partir do banco de reserva. E, exatamente após 3 meses do incidente, o mecanismo de espelhamento falhou. Apesar de o sistema de monitoramento indicar “tudo ok, o mecanismo de sincronização funciona”, na prática, os dados novos pararam de chegar ao banco espelhado, que ficou “congelado” em um estado. Assim, todas as cópias diárias feitas a partir dele já não continham os dados mais recentes. Consequências Naturalmente, para o negócio, houve uma grande perda de reputação: muitos usuários perderam todos os seus dados nesse período. Foi preciso muito esforço e tempo em comunicações com os usuários e tentativas de recuperar ao menos alguns dados. Levou cerca de um ano para, de alguma forma, lidar com as consequências desse incidente — restabelecer a confiança dos usuários, estabilizar o produto e colocar o negócio de volta nos trilhos. Aprendizados Quando assumi a tarefa, meu objetivo principal era evitar que uma situação semelhante se repetisse. O sistema de backup foi completamente reformulado: desde a verificação de que as cópias de segurança eram feitas 100% a partir de dados atuais, até garantir que, na restauração, as cópias continham informações atualizadas. Além disso, foram previstos cenários em que o data center onde as cópias de segurança estão armazenadas poderia ser completamente destruído (aqui alguns exemplos de que isso também pode acontecer: https://habr.com/ru/news/546264/ e https://habr.com/ru/articles/954512/). Conclusões A importância de backups não pode ser subestimada, não à toa existe a expressão: as pessoas se dividem em três categorias: aqueles que ainda não fazem backups, aqueles que já fazem, e aqueles que verificam se os backups realmente funcionam. Porém, essa falha, na verdade, não foi técnica, mas de gestão. O problema não foi a ausência de backups, mas o fato de ninguém ter se perguntado: e se um dos componentes desse sistema parar de funcionar de forma imperceptível? Se pelo menos um evento dessa cadeia tivesse sido previsto, as consequências poderiam ter sido minimizadas ou até evitadas completamente.
Abrir canal no TelegramAbrir original no Telegram

Resumo

Este artigo relata uma experiência de um diretor técnico que enfrentou um dos erros mais caros na sua carreira, ocorrendo há mais de 10 anos. O incidente envolveu a perda de dados de três meses de uma base de dados de uma grande empresa com dezenas de milhares de usuários, devido a uma falha no sistema de backup e espelhamento. Após uma queda de energia no servidor, o banco de dados não reiniciou e, ao tentar restaurar a partir de backups, descobriu-se que o mecanismo de espelhamento havia falhado, deixando os dados mais recentes indisponíveis. A consequência foi uma perda significativa de reputação, com usuários perdendo informações essenciais, o que demandou quase um ano para recuperar a confiança e estabilizar o negócio. Como lição, o autor reforça a importância de sistemas de backup confiáveis e de verificações constantes, além de destacar que a falha não foi técnica, mas de gestão, pois não se consideraram cenários de falha silenciosa. A experiência levou à reformulação completa do sistema de backup, incluindo estratégias para proteger os dados contra eventos catastróficos, reforçando a necessidade de planejamento e monitoramento contínuo para evitar perdas irreparáveis.

Palavras-chave

erro de backupfalha de sistema de dadosgestão de backupsrecuperação de dadossegurança de dadosfalha de espelhamento de banco de dadosproteção de dados empresariaisprevenção de perda de dadosmelhores práticas de backupgestão de riscos de TIfalhas silenciosas em sistemasrecuperação de desastres

Posts do canal