Tempo de leitura: 12 minutos

Como o Nubank gerencia incidentes técnicos de forma simples e colaborativa

O Nubank é uma das fintechs de maior sucesso no mundo. Parte deste sucesso está na capacidade de combinar velocidade com confiança e compliance. Para isso, uma cultura de colaboração é essencial. Neste post vamos abordar como o Nubank usa o Slack para potencializar colaboração e agilidade.

O time de confiabilidade está continuamente buscando a melhoria dos processos de gestão de incidentes através de ferramentas, processos e muito mais. O objetivo é suportar o time de engenharia em uma jornada de mitigação de problemas operacionais em um ambiente saudável, baseado em uma cultura que não busca culpados e que se concentra na conformidade com todas as regulações aplicáveis a instituições financeiras.

Qualquer problema nos sistemas do Nubank que, de alguma forma, causem impacto nos clientes pode ser considerado um incidente técnico. Estes incidentes são identificados pelos sistemas de monitoramento da instituição e devem ser corrigidos com urgência pelo time de engenharia.

Um incidente pode ser dividido em duas partes: 

  • a primeira parte é a gestão do incidente propriamente dito
  • a segunda parte é o conjunto de ações tomadas após o incidente como, por exemplo, planos de ação

Tão importante quanto prevenir incidentes é a capacidade de prontidão para uma recuperação segura e rápida, mitigar impactos e fornecer a melhor experiência para deixar os clientes felizes. 

Identificando um incidente

Nosso sistema de alerta permite que as equipes criem avisos customizados para os seus serviços e, além disso, cada serviço também tem um conjunto de alertas-padrão como "serviço interrompido". As equipes são notificadas em seu canal de Slack e a pessoa responsável recebe uma notificação para imediatamente começar a trabalhar no problema.

Abrindo um "Crash"

O Nubank segue um processo simples no qual o primeiro passo é "abrir um crash". Isso significa notificar a empresa toda que estamos lidando com um incidente e que Nubankers já estão gerenciando o problema. Os incidentes identificados são reportados usando um bot através do Slack (nossa ferramenta principal de comunicação interna). Esta automação centraliza toda a gestão do incidente: a equipe usa a ferramenta para abrir, editar e fechar um crash. O maior benefício é organizar a situação, disparar a ação de outras áreas (ex.: times de gestão de riscos e compliance) e dar a visibilidade necessária para a empresa. Além disso, também possibilita a gestão de indicadores sobre os incidentes, tais como MTTR (tempo médio de resolução). 

Antes de abrir um "crash", em primeiro lugar o time de engenharia precisa entender o nível de severidade do incidente em uma classificação que vai de 1 (crítico) a 5 (cosmético). Estas classificações incluem critérios de disponibilidade, quantidade de clientes afetados, produtos impactados, temas regulatórios e outros. 

As principais informações necessárias na abertura de um "crash" são:

  • Severidade
  • Breve Descrição do Incidente
  • Países impactados
  • Ponto-Focal (quem é a pessoa que vai atuar como ponto focal do "crash" e coordenará as atividades de resolução)
  • Comunicação (a pessoa responsável por reportar o incidente e o seu status para empresa, fornecendo a informação necessária a quem necessitar)


Depois da submissão do "crash", um resumo do incidente é postado no Slack notificando as equipes apropriadas sobre o tema enquanto o time de engenharia trabalha na resolução.

Trabalhando na Resolução

Nesta etapa, tudo pode acontecer. As equipes geralmente abrem uma reunião virtual e começam a trabalhar na resolução do problema. O time de operações começa a preparar a comunicação para os clientes enquanto o foco do time de engenharia é mitigar o impacto e restaurar os sistemas.

Neste momento, é importante que todas as pessoas que tenham a capacidade de ajudar de alguma forma estejam envolvidas — especialmente em incidentes de alta severidade - e que a/o Nubanker fazendo a gestão da comunicação mantenha a thread do incidente atualizada com informações. Isso permite que todos tenham informação em tempo real.  

Depois que o incidente está resolvido e a situação está normalizada, o "crash" pode ser fechado.

Cultura sem culpados e Postmortem

Postmortem é um tema essencial na gestão de incidentes. O principal objetivo é assegurar que a empresa aprenda com os problemas, registre as ocorrências e compartilhe conhecimento sobre os assuntos.  

Depois que o "crash" é fechado, o time de engenharia deveria escrever um documento com os seguintes tópicos:

  • Resumo: um rápido resumo do "crash" contendo dados de nível de severidade, ponto-focal, comunicações, tempo de detecção, tempo de resolução e descrição.
  • Linha do tempo dos eventos: uma linha do tempo dos principais eventos do "crash".
  • Ações de resolução: uma lista de todas as ações feitas para resolver o "crash".
  • Impacto em Clientes e no Negócio: breve descrição dos impactos do incidente.
  • Causa Raiz e Fatores de Contribuição: Descrição das causas e fatores de contribuição para o "crash". 
  • Notas de Reunião: qualquer registro importante sobre o ocorrido.
  • Items de Ação: uma lista dos items de ação que precisam ser realizados para prevenir uma nova ocorrência do "crash" e ajudar o banco a se recuperar de forma rápida de incidentes futuros. 
  • Regulatório: informação regulatória que deve ser transmitida ao Banco Central sobre incidentes.
  • Referências: qualquer referência necessária como links úteis, artigos e outros.


Depois que este documento é publicado, fica disponível para toda a empresa para que todos possam ler e aprender sobre o incidente. Para que o Nubank tenha um ambiente saudável para lidar com estas situações, é fundamental a existência de uma cultura que não busca culpados. O objetivo é sempre entender o que aconteceu e o que precisa ser feito para que um "crash" não ocorra novamente. 

Um exemplo concreto desta cultura de aprendizado no Nubank é dizer "fascinante" e levantar as mãos (ou reagir com um emoji no Slack quando se está trabalhando remotamente) para simbolizar que incidentes acontecem e são uma oportunidade para que a empresa aprenda e melhore. 

Quer conhecer mais?