BCP y Disaster Recovery: cuando cumplir no alcanza y el servicio igual se cae

En las últimas semanas vimos fallas que afectaron la vida cotidiana de millones de personas.

Pagos que no acreditan. Energía que desaparece. Plataformas críticas que quedan intermitentes.

No en una empresa. En varias. Al mismo tiempo. En múltiples países, incluso en regiones

Y cada vez que pasa, aparece la misma frase tranquilizadora:

“El plan de continuidad estaba en regla.”

Ese es el problema.

La continuidad no está fallando donde creemos

Hoy, en muchas organizaciones, el BCP y el DRP funcionan exactamente como fueron diseñados.

El inconveniente es que parecería que fueron diseñados para auditoría, no para operación real bajo estrés. Porque digo esto?

Porque se prueba el restore técnico.

Se cumplen RTO y RPO.

Se documenta el ejercicio.

Pero no se prueba lo esencial

El problema que casi nadie admite:

las pruebas están guionadas

En la mayoría de las organizaciones, los ejercicios de continuidad se hacen así:

fecha avisada con semanas de anticipación
todos los equipos sentados, alertas, “en modo simulacro”
proveedores informados
backlogs limpios
presión cero

Eso no es una prueba. Es un ensayo teatral.

Se prueba el restore técnico.

Se cumplen RTO y RPO.

Se documenta el ejercicio.

Pero no se prueba lo esencial:

si el cliente puede completar un journey crítico
si los canales comunican algo coherente
si atención al cliente puede responder
si la conciliación posterior es viable
si el negocio puede seguir operando, aunque sea degradado

En la vida real, nada de eso ocurre con gente preparada y tiempo para acomodarse.

Lo que una prueba real debería incomodar

Una prueba de continuidad válida debería generar, al menos, estas fricciones:

decisiones con información incompleta
equipos que no estaban “de guardia”
dependencias externas que no responden
clientes operando mientras algo falla
tensión entre seguir vendiendo o frenar

Si no incomoda, no sirve.

El error de fondo

El error no es técnico.

Es cultural.

Se diseñan pruebas para:

no exponer debilidades
no generar ruido
no incomodar a negocio
no dejar evidencia incómoda

Y así se pierde el único valor del ejercicio: aprender antes del incidente real.

La diferencia entre cumplir y estar preparado

Cumplir es:

“Hicimos el test y pasó”

Estar preparado es:

“El test mostró cosas que nos obligaron a cambiar decisiones”

Si una prueba no deja hallazgos accionables, no fue una prueba, fue una certificación encubierta.

“Las organizaciones no fallan porque no prueban. Fallan porque prueban escenarios que nunca van a vivir.”

La brecha silenciosa que nadie quiere mirar

En casi todas las organizaciones que analizo veo el mismo patrón:

El BIA declara procesos críticos que ya no reflejan cómo hoy se presta el servicio.
El riesgo operacional y tecnológico identifica amenazas reales, pero las analiza en silos.
El DRP prioriza sistemas, no servicios ni experiencias de cliente.

Cada pieza, por separado, es defendible.

Juntas, no conversan.

El BIA dice qué es crítico.

El riesgo dice qué puede fallar.

El DRP dice qué se levanta primero.

Pero nadie responde la pregunta incómoda:

“Si esto falla mañana a las 11 de la mañana, ¿qué vive el cliente y cómo seguimos operando?” Como impacta en tu reputación? El evento de caída del servicio en disponibilidad tiene un costo diferente si se cae 1 hora a si se cae 5 hs, lo midieron?… tengo mas de 50 preguntas aquí para hacerte

No tomes a la ligera esto que te estoy comentando, la brecha es bestial, crítica, dolorosa e ingobernable en el momento que se dé la contingencia. Te lo aseguro, mis canas tienes miles de ejemplos de historias que no deberían repetirse y te cuento que se repiten uno a uno.

A ver, solo uno te tiro. Supongamos que tu estrategia de contingencia está basada en una red MPLS donde conectas a todas las sucursales y centro de datos, que son de terceros, tus audítorías (no les hago doble click, pero automaticamente lo harás tu) dan ok. Que pasa si el corte supera las 4 hs?, todos los puntos de conexión de la contingencia de tu proveedor tienen los equipos electrogenos funcionales?. Uff si te contara…

Cuando cumplir no alcanza

He visto organizaciones donde:

el DRP se ejecutó “con éxito”
los sistemas estaban arriba
pero los pagos quedaban pendientes
los clientes no sabían qué estaba pasando
el call center improvisaba
la deuda operativa explotaba días después

Desde el cliente, eso es una caída total.

Desde el regulador, un riesgo operativo.

Desde el negocio, un daño reputacional innecesario.

Y sin embargo, en el comité se escucha:

“Pero el plan funcionó.”

No. Funcionó el papel. Falló la continuidad.

El error de diseño de fondo

La mayoría de los planes siguen respondiendo a una lógica vieja:

“Cómo recupero IT”

Cuando el mundo actual exige otra:

“Cómo sigo prestando servicio en condiciones anormales”

Eso implica aceptar algo que cuesta mucho:

que no todo puede seguir funcionando
que hay que decidir qué priorizar
que operar degradado es mejor que no operar
que la continuidad es una decisión de negocio, no solo de tecnología

Y eso requiere criterio senior. No checklist.

Lo que casi nadie está haciendo

Las organizaciones más maduras no tienen mejores documentos.

Tienen mejor integración.

BIA construido sobre journeys reales, no procesos históricos.
Riesgos mapeados por impacto en servicio, no solo por control.
DRP diseñado por servicio crítico, con dependencias internas y externas explícitas.
Modos degradados definidos antes del incidente, no durante.
Comunicación, atención y conciliación sentadas en la misma mesa que IT.

No es más complejo.

Es más honesto.

Mi preocupación real

Mi preocupación no es técnica. Es estructural.

Estamos apoyando actividades críticas de la vida diaria en arquitecturas frágiles desde el punto de vista operativo, pero confortables desde el punto de vista documental.

Y eso genera una falsa sensación de control que se rompe siempre en el peor momento.

En industrias de alto impacto cotidiano, esto ya no es una debilidad metodológica.

Es riesgo sistémico.

Una reflexión final

La continuidad no se cae cuando falla un sistema.

Se cae cuando nadie está gobernando el servicio extremo a extremo.

Se cae cuando el BIA describe procesos que ya no representan la realidad del cliente.

Cuando el riesgo se analiza, pero no se traduce en decisiones operativas.

Cuando el DRP sabe levantar tecnología, pero no sabe sostener negocio bajo presión.

Ahí es donde hoy se juega la diferencia real:

entre organizaciones que resisten incidentes porque tomaron decisiones incómodas a tiempo,

y organizaciones que quedan expuestas aunque “hayan cumplido”.

Mi trabajo, cuando me convocan, no es escribir mejores planes.

Es conectar impacto en cliente, riesgo materializado y decisiones de operación real.

Sentar en la misma mesa a negocio, tecnología, riesgo y comunicación.

Y ayudar a definir, antes de la crisis, qué se prioriza, qué se degrada y quién decide.

Porque la continuidad no se audita.

Se gobierna.

Cuando la continuidad existe… pero el servicio igual se cae