Checklist Operativo

Lista de verificación para sostener disponibilidad mínima de 95% durante el piloto

Progreso del checklist0/16 (0%)

Pre-Despliegue

0/4 completados

Ejecutar pruebas de humo en stagingalta

Verificar que todas las pruebas de humo pasan exitosamente en el ambiente de staging antes de promover a producción.

Revisar cambios en el códigoalta

Code review aprobado por al menos un revisor. Verificar que no hay vulnerabilidades de seguridad o dependencias desactualizadas.

Verificar build exitosoalta

Confirmar que npm run build completa sin errores y la imagen Docker se construye correctamente.

Verificar variables de entornomedia

Confirmar que todas las variables de entorno necesarias están configuradas en el ambiente destino.

0/4 completados

Desplegar a staging primeroalta

Siempre desplegar primero a staging. Nunca desplegar directamente a producción sin pasar por staging.

Verificar health check post-desplieguealta

Confirmar que GET /health retorna HTTP 200 con status 'ok' después del despliegue.

Ejecutar pruebas de humo post-desplieguealta

Ejecutar la suite completa de pruebas de humo contra el ambiente recién desplegado.

Monitorear métricas durante 15 minutosmedia

Observar los 5 indicadores críticos durante los primeros 15 minutos después del despliegue para detectar anomalías.

0/4 completados

Verificar disponibilidad >= 95%alta

Revisar diariamente que la disponibilidad del servicio se mantiene por encima del 95% objetivo.

Revisar alertas activasalta

Verificar que las 3 alertas (caída, error rate, latencia) están habilitadas y funcionando. Revisar historial de disparos.

Revisar logs de erroresmedia

Revisar el logging centralizado diariamente. Verificar que el 100% de los errores están siendo capturados.

Verificar uso de recursosmedia

Revisar consumo de CPU y memoria. Escalar recursos si el uso supera el 80% de forma sostenida.

0/4 completados

Tiempo de detección <= 5 minutosalta

Las alertas deben detectar incidentes críticos en menos de 5 minutos. Verificar con pruebas periódicas de disparo.

Procedimiento de rollback documentadoalta

En caso de fallo, ejecutar rollback automático o manual a la última versión estable. La imagen anterior siempre está disponible.

Comunicar incidentes al equipomedia

Notificar al equipo de cualquier incidente que afecte la disponibilidad. Documentar causa raíz y resolución.

Post-mortem de incidentesbaja

Realizar análisis post-mortem para incidentes que causen downtime > 5 minutos. Documentar acciones correctivas.