Cuando la continuidad existe… pero el servicio igual se cae

5–7 minutos

read

En las últimas semanas vimos fallas que afectaron la vida cotidiana de millones de personas.

Pagos que no acreditan. Energía que desaparece. Plataformas críticas que quedan intermitentes.

No en una empresa. En varias. Al mismo tiempo. En múltiples países, incluso en regiones

Y cada vez que pasa, aparece la misma frase tranquilizadora:

“El plan de continuidad estaba en regla.”

Ese es el problema.

La continuidad no está fallando donde creemos

Hoy, en muchas organizaciones, el BCP y el DRP funcionan exactamente como fueron diseñados.

El inconveniente es que parecería que fueron diseñados para auditoría, no para operación real bajo estrés. Porque digo esto?

Porque se prueba el restore técnico.

Se cumplen RTO y RPO.

Se documenta el ejercicio.

Pero no se prueba lo esencial

El problema que casi nadie admite: 

las pruebas están guionadas

En la mayoría de las organizaciones, los ejercicios de continuidad se hacen así:

  • fecha avisada con semanas de anticipación
  • todos los equipos sentados, alertas, “en modo simulacro”
  • proveedores informados
  • backlogs limpios
  • presión cero

Eso no es una prueba. Es un ensayo teatral.

Se prueba el restore técnico.

Se cumplen RTO y RPO.

Se documenta el ejercicio.

Pero no se prueba lo esencial:

  • si el cliente puede completar un journey crítico
  • si los canales comunican algo coherente
  • si atención al cliente puede responder
  • si la conciliación posterior es viable
  • si el negocio puede seguir operando, aunque sea degradado

En la vida real, nada de eso ocurre con gente preparada y tiempo para acomodarse.

Lo que una prueba real debería incomodar

Una prueba de continuidad válida debería generar, al menos, estas fricciones:

  • decisiones con información incompleta
  • equipos que no estaban “de guardia”
  • dependencias externas que no responden
  • clientes operando mientras algo falla
  • tensión entre seguir vendiendo o frenar

Si no incomoda, no sirve.

El error de fondo

El error no es técnico.

Es cultural.

Se diseñan pruebas para:

  • no exponer debilidades
  • no generar ruido
  • no incomodar a negocio
  • no dejar evidencia incómoda

Y así se pierde el único valor del ejercicio: aprender antes del incidente real.

La diferencia entre cumplir y estar preparado

Cumplir es:

“Hicimos el test y pasó”

Estar preparado es:

“El test mostró cosas que nos obligaron a cambiar decisiones”

Si una prueba no deja hallazgos accionables, no fue una prueba, fue una certificación encubierta.

“Las organizaciones no fallan porque no prueban. Fallan porque prueban escenarios que nunca van a vivir.”

La brecha silenciosa que nadie quiere mirar

En casi todas las organizaciones que analizo veo el mismo patrón:

  • El BIA declara procesos críticos que ya no reflejan cómo hoy se presta el servicio.
  • El riesgo operacional y tecnológico identifica amenazas reales, pero las analiza en silos.
  • El DRP prioriza sistemas, no servicios ni experiencias de cliente.

Cada pieza, por separado, es defendible.

Juntas, no conversan.

El BIA dice qué es crítico.

El riesgo dice qué puede fallar.

El DRP dice qué se levanta primero.

Pero nadie responde la pregunta incómoda:

“Si esto falla mañana a las 11 de la mañana, ¿qué vive el cliente y cómo seguimos operando?” Como impacta en tu reputación? El evento de caída del servicio en disponibilidad tiene un costo diferente si se cae 1 hora a si se cae 5 hs, lo midieron?… tengo mas de 50 preguntas aquí para hacerte

No tomes a la ligera esto que te estoy comentando, la brecha es bestial, crítica, dolorosa e ingobernable en el momento que se dé la contingencia. Te lo aseguro, mis canas tienes miles de ejemplos de historias que no deberían repetirse y te cuento que se repiten uno a uno.

A ver, solo uno te tiro. Supongamos que tu estrategia de contingencia está basada en una red MPLS donde conectas a todas las sucursales y centro de datos, que son de terceros, tus audítorías (no les hago doble click, pero automaticamente lo harás tu) dan ok. Que pasa si el corte supera las 4 hs?, todos los puntos de conexión de la contingencia de tu proveedor tienen los equipos electrogenos funcionales?. Uff si te contara…

Cuando cumplir no alcanza

He visto organizaciones donde:

  • el DRP se ejecutó “con éxito”
  • los sistemas estaban arriba
  • pero los pagos quedaban pendientes
  • los clientes no sabían qué estaba pasando
  • el call center improvisaba
  • la deuda operativa explotaba días después

Desde el cliente, eso es una caída total.

Desde el regulador, un riesgo operativo.

Desde el negocio, un daño reputacional innecesario.

Y sin embargo, en el comité se escucha:

“Pero el plan funcionó.”

No. Funcionó el papel. Falló la continuidad.

El error de diseño de fondo

La mayoría de los planes siguen respondiendo a una lógica vieja:

“Cómo recupero IT”

Cuando el mundo actual exige otra:

“Cómo sigo prestando servicio en condiciones anormales”

Eso implica aceptar algo que cuesta mucho:

  • que no todo puede seguir funcionando
  • que hay que decidir qué priorizar
  • que operar degradado es mejor que no operar
  • que la continuidad es una decisión de negocio, no solo de tecnología

Y eso requiere criterio senior. No checklist.

Lo que casi nadie está haciendo

Las organizaciones más maduras no tienen mejores documentos.

Tienen mejor integración.

  • BIA construido sobre journeys reales, no procesos históricos.
  • Riesgos mapeados por impacto en servicio, no solo por control.
  • DRP diseñado por servicio crítico, con dependencias internas y externas explícitas.
  • Modos degradados definidos antes del incidente, no durante.
  • Comunicación, atención y conciliación sentadas en la misma mesa que IT.

No es más complejo.

Es más honesto.

Mi preocupación real

Mi preocupación no es técnica. Es estructural.

Estamos apoyando actividades críticas de la vida diaria en arquitecturas frágiles desde el punto de vista operativo, pero confortables desde el punto de vista documental.

Y eso genera una falsa sensación de control que se rompe siempre en el peor momento.

En industrias de alto impacto cotidiano, esto ya no es una debilidad metodológica.

Es riesgo sistémico.

Una reflexión final

La continuidad no se cae cuando falla un sistema.

Se cae cuando nadie está gobernando el servicio extremo a extremo.

Se cae cuando el BIA describe procesos que ya no representan la realidad del cliente.

Cuando el riesgo se analiza, pero no se traduce en decisiones operativas.

Cuando el DRP sabe levantar tecnología, pero no sabe sostener negocio bajo presión.

Ahí es donde hoy se juega la diferencia real:

entre organizaciones que resisten incidentes porque tomaron decisiones incómodas a tiempo,

y organizaciones que quedan expuestas aunque “hayan cumplido”.

Mi trabajo, cuando me convocan, no es escribir mejores planes.

Es conectar impacto en cliente, riesgo materializado y decisiones de operación real.

Sentar en la misma mesa a negocio, tecnología, riesgo y comunicación.

Y ayudar a definir, antes de la crisis, qué se prioriza, qué se degrada y quién decide.

Porque la continuidad no se audita.

Se gobierna.

Diego San Esteban

Descubre más desde DIEGO San Esteban

Suscríbete ahora para seguir leyendo y obtener acceso al archivo completo.

Seguir leyendo