Corrección de errores en producción
Las tres fuentes de detección de errores en producción y el proceso de corrección para cada una.
Las tres fuentes de detección
Los errores en producción se detectan por tres vías: alertas automáticas del sistema de monitoreo, reporte interno por parte de integrantes del equipo, y reporte externo por parte de usuarios o clientes.
Cada fuente tiene un proceso de triaje y respuesta diferente, documentado en detalle en la sección "Bugs en producción".
Principios de corrección
Independientemente de la fuente, los principios son los mismos: estabilizar primero (rollback si es necesario), comunicar el impacto, diagnosticar la causa raíz, corregir y verificar.
No se corrige un bug en producción sin entender la causa raíz. Los parches rápidos sin diagnóstico tienden a esconder el problema real.
Documentación post-incidente
Todo error de severidad alta genera un post-mortem. El post-mortem documenta: qué ocurrió, por qué ocurrió, cómo se detectó, cómo se corrigió y qué acciones preventivas se implementarán. Los post-mortems son sin culpables: el foco es en el sistema, no en las personas.