Lista de verificación para sostener disponibilidad mínima de 95% durante el piloto
Verificar que todas las pruebas de humo pasan exitosamente en el ambiente de staging antes de promover a producción.
Code review aprobado por al menos un revisor. Verificar que no hay vulnerabilidades de seguridad o dependencias desactualizadas.
Confirmar que npm run build completa sin errores y la imagen Docker se construye correctamente.
Confirmar que todas las variables de entorno necesarias están configuradas en el ambiente destino.
Siempre desplegar primero a staging. Nunca desplegar directamente a producción sin pasar por staging.
Confirmar que GET /health retorna HTTP 200 con status 'ok' después del despliegue.
Ejecutar la suite completa de pruebas de humo contra el ambiente recién desplegado.
Observar los 5 indicadores críticos durante los primeros 15 minutos después del despliegue para detectar anomalías.
Revisar diariamente que la disponibilidad del servicio se mantiene por encima del 95% objetivo.
Verificar que las 3 alertas (caída, error rate, latencia) están habilitadas y funcionando. Revisar historial de disparos.
Revisar el logging centralizado diariamente. Verificar que el 100% de los errores están siendo capturados.
Revisar consumo de CPU y memoria. Escalar recursos si el uso supera el 80% de forma sostenida.
Las alertas deben detectar incidentes críticos en menos de 5 minutos. Verificar con pruebas periódicas de disparo.
En caso de fallo, ejecutar rollback automático o manual a la última versión estable. La imagen anterior siempre está disponible.
Notificar al equipo de cualquier incidente que afecte la disponibilidad. Documentar causa raíz y resolución.
Realizar análisis post-mortem para incidentes que causen downtime > 5 minutos. Documentar acciones correctivas.