Tempo de leitura: 12 minutos
O Nubank é uma das fintechs de maior sucesso no mundo. Parte deste sucesso está na capacidade de combinar velocidade com confiança e compliance. Para isso, uma cultura de colaboração é essencial. Neste post vamos abordar como o Nubank usa o Slack para potencializar colaboração e agilidade.
O time de confiabilidade está continuamente buscando a melhoria dos processos de gestão de incidentes através de ferramentas, processos e muito mais. O objetivo é suportar o time de engenharia em uma jornada de mitigação de problemas operacionais em um ambiente saudável, baseado em uma cultura que não busca culpados e que se concentra na conformidade com todas as regulações aplicáveis a instituições financeiras.
Qualquer problema nos sistemas do Nubank que, de alguma forma, causem impacto nos clientes pode ser considerado um incidente técnico. Estes incidentes são identificados pelos sistemas de monitoramento da instituição e devem ser corrigidos com urgência pelo time de engenharia.
Um incidente pode ser dividido em duas partes:
Tão importante quanto prevenir incidentes é a capacidade de prontidão para uma recuperação segura e rápida, mitigar impactos e fornecer a melhor experiência para deixar os clientes felizes.
O Nubank segue um processo simples no qual o primeiro passo é "abrir um crash". Isso significa notificar a empresa toda que estamos lidando com um incidente e que Nubankers já estão gerenciando o problema. Os incidentes identificados são reportados usando um bot através do Slack (nossa ferramenta principal de comunicação interna). Esta automação centraliza toda a gestão do incidente: a equipe usa a ferramenta para abrir, editar e fechar um crash. O maior benefício é organizar a situação, disparar a ação de outras áreas (ex.: times de gestão de riscos e compliance) e dar a visibilidade necessária para a empresa. Além disso, também possibilita a gestão de indicadores sobre os incidentes, tais como MTTR (tempo médio de resolução).
Antes de abrir um "crash", em primeiro lugar o time de engenharia precisa entender o nível de severidade do incidente em uma classificação que vai de 1 (crítico) a 5 (cosmético). Estas classificações incluem critérios de disponibilidade, quantidade de clientes afetados, produtos impactados, temas regulatórios e outros.
As principais informações necessárias na abertura de um "crash" são:
Depois da submissão do "crash", um resumo do incidente é postado no Slack notificando as equipes apropriadas sobre o tema enquanto o time de engenharia trabalha na resolução.
Postmortem é um tema essencial na gestão de incidentes. O principal objetivo é assegurar que a empresa aprenda com os problemas, registre as ocorrências e compartilhe conhecimento sobre os assuntos.
Depois que o "crash" é fechado, o time de engenharia deveria escrever um documento com os seguintes tópicos:
Depois que este documento é publicado, fica disponível para toda a empresa para que todos possam ler e aprender sobre o incidente. Para que o Nubank tenha um ambiente saudável para lidar com estas situações, é fundamental a existência de uma cultura que não busca culpados. O objetivo é sempre entender o que aconteceu e o que precisa ser feito para que um "crash" não ocorra novamente.
Um exemplo concreto desta cultura de aprendizado no Nubank é dizer "fascinante" e levantar as mãos (ou reagir com um emoji no Slack quando se está trabalhando remotamente) para simbolizar que incidentes acontecem e são uma oportunidade para que a empresa aprenda e melhore.
Quer conhecer mais?