Tiempo estimado de lectura: 5 minutos
Nubank es una de las fintech más exitosas del mundo. Parte de este éxito se debe a su capacidad de combinar velocidad, confianza y cumplimiento. Para ello, una cultura de colaboración es fundamental. En este artículo descubriremos cómo Nubank usa Slack para aprovechar (¡y reforzar!) la colaboración y la agilidad.
El equipo de disponibilidad busca continuamente mejorar los procesos de gestión de incidentes a través de herramientas, procesos y más. El objetivo es acompañar al equipo de ingeniería en un recorrido para mitigar los problemas operativos en un entorno saludable, basado completamente en una cultura sin culpables y que se enfoca en el cumplimiento de todas las regulaciones aplicables a las instituciones financieras.
Cualquier problema con los sistemas de Nubank que de alguna manera afecte a los clientes puede considerarse un incidente técnico. Estos incidentes son identificados por las herramientas de monitoreo de la empresa, y deben ser solucionados rápidamente por el equipo de ingeniería.
Un incidente se puede dividir en dos partes:
Tan importante como prevenir incidentes es la capacidad de estar preparado para una recuperación rápida y segura, mitigar los impactos y brindar la mejor experiencia y satisfacción de nuestros clientes.
Identificando un incidente
Nuestro sistema de alertas permite a los equipos crear notificaciones personalizadas para sus servicios y, además, cada servicio tiene también un conjunto de alertas predeterminadas, como "servicio detenido". Los equipos reciben un mensaje en su canal de Slack y la persona responsable recibe una notificación prioritaria para comenzar a trabajar de inmediato en el problema.
"Abriendo un incidente"
Nubank sigue un proceso sencillo en el que el primer paso es "abrir un incidente". Esto significa notificar a toda la empresa de que se está trabajando en un problema y que los Nubankers ya están gestionándolo. Los incidentes identificados se informan mediante un bot a través de Slack (nuestra principal herramienta de comunicación interna). Este proceso de automatización centraliza toda la gestión de incidentes: el equipo utiliza la plataforma para abrir, editar y cerrar un caso. El mayor beneficio es poder organizar rápidamente la situación, involucrar otros equipos según la índole del problema (por ejemplo, equipos de gestión de riesgos y compliance) y dar a la empresa la visibilidad necesaria.
Adicionalmente, también permite la gestión de indicadores sobre incidencias, como por ejemplo: MTTR (tiempo medio de resolución).
Antes de abrir un incidente, el equipo de ingeniería primero debe entender el nivel de gravedad del mismo en una calificación que va de 1 (crítico) a 5 (cosmético). Estas calificaciones incluyen criterios de disponibilidad, número de clientes afectados, productos afectados y problemas regulatorios, entre otros.
Después del envío del caso, se publica un resumen del incidente en Slack notificando a los equipos correspondientes mientras el equipo de ingeniería trabaja en la resolución.
El “postmortem” es un tema fundamental en la gestión de incidentes. El objetivo principal es asegurar que la empresa aprenda de los problemas, registre los eventos y comparta conocimientos y lecciones aprendidas sobre los casos.
Una vez que se cierra un incidente, el equipo de ingeniería debe escribir un documento con los siguientes puntos:
Una vez que se publique este documento, estará a disposición de toda la empresa con el fin de que todos lo lean y se enteren del caso. Para que Nubank tenga un entorno de trabajo saludable para hacer frente a estas situaciones, la existencia de una cultura sin culpables es fundamental. El objetivo es siempre comprender qué sucedió y qué se debe hacer para que no vuelva a ocurrir un incidente.
Un ejemplo concreto de esta cultura de aprendizaje en Nubank es decir "¡Buena!", levantar la mano o celebrar a través de emojis para simbolizar que los incidentes ocurren y son una interesante oportunidad para que la empresa aprenda y mejore.