Monitoreo
Cómo el equipo monitorea la salud del sistema en producción, qué herramientas usa y cómo responde a alertas.
Qué se monitorea
El equipo monitorea continuamente las métricas de salud del sistema: tasa de errores, latencia de endpoints críticos, disponibilidad de servicios, y comportamiento de las funcionalidades recientemente deployadas.
El monitoreo es especialmente activo durante las primeras horas después de un deploy.
Herramientas y alertas
Las alertas automáticas notifican al equipo cuando alguna métrica supera los umbrales configurados. Las alertas llegan al canal de operaciones del equipo. Todo integrante debe saber interpretar una alerta básica y escalar al responsable técnico cuando sea necesario.
Responsabilidades de monitoreo
El Tech Lead es responsable de mantener actualizados los umbrales de alerta y de revisar periódicamente los dashboards de salud. El desarrollador que realizó el último deploy es responsable del monitoreo activo durante las primeras horas.
Escalamiento ante incidentes
Si una alerta indica un problema real en producción, se activa el proceso de corrección de errores documentado en la sección correspondiente. La prioridad máxima es reducir el impacto en los usuarios.