MP.IF.9 Instalaciones alternativas
Objetivo
Establecer y mantener instalaciones alternativas totalmente operativas que garanticen la continuidad ininterrumpida de servicios médicos críticos, incluyendo el procesamiento de imágenes dermatológicas de Legit Health Plus, ante cualquier falla, desastre o evento disruptivo que afecte las instalaciones principales.
Marco normativo y cumplimiento
Real Decreto 311/2022 (ENS)
- Artículo 33: Instalaciones alternativas
- Anexo II, Medida MP.IF.9: Protección de las instalaciones e infraestructuras
Regulaciones de dispositivos médicos
- Reglamento (UE) 2017/745 (MDR):
- Artículo 10.9: Sistemas de gestión de calidad
- Anexo I, Cap. I: Requisitos generales de seguridad y funcionamiento
- ISO 13485:2016: Sistema de gestión de calidad para dispositivos médicos
- Cláusula 4.2.5: Control de documentos
- Cláusula 8.5.1: Control de la producción y de la prestación del servicio
- ISO 14971:2019: Gestión de riesgos para dispositivos médicos
- IEC 80001-1: Redes de TI que incorporan dispositivos médicos
Normativas de protección de datos
- RGPD/LOPD-GDD: Protección de datos personales de salud
- Ley 41/2002: Autonomía del paciente e historia clínica digital
Estándares de continuidad de negocio
- ISO 22301: Sistemas de gestión de continuidad del negocio
- NIST SP 800-34 Rev. 1: Plan de contingencia para sistemas de información
Documentos de referencia
Procedimientos internos
- GP-110 Esquema Nacional de Seguridad
- T-024-008 Incident Response Plan
- R-TF-013-002 Risk Management File
- OP.CONT Plan de continuidad de servicio
Referencias externas
- CCN-STIC 804: Medidas de implantación del ENS
- CCN-STIC 822: Guía de configuración segura para servicios en la nube
- AEMPS: Guías de buenas prácticas para software médico
Definiciones
Instalaciones alternativas
Sitios físicos geográficamente separados de las instalaciones principales, completamente equipados y configurados para mantener las operaciones críticas de Legit Health Plus durante eventos disruptivos.
RTO (Recovery Time Objective)
Tiempo máximo aceptable de interrupción del servicio médico. Para Legit Health Plus: ≤ 4 horas.
RPO (Recovery Point Objective)
Cantidad máxima de datos médicos que se pueden perder durante un incidente. Para datos de pacientes: ≤ 15 minutos.
Sitio espejo (Hot Site)
Instalación alternativa completamente operativa con replicación en tiempo real de datos y sistemas.
Arquitectura de instalaciones alternativas
Clasificación de sitios alternativos
Sitio Principal (Madrid)
- Ubicación: Calle Princesa 31, 28008 Madrid
- Función: Operaciones principales de desarrollo y procesamiento
- Capacidad: 100% de la carga operacional
- Personal: 15 empleados permanentes
Sitio Alternativo A (Barcelona) - Hot Site
- Ubicación: Avinguda Diagonal 640, 08017 Barcelona
- Distancia: >500 km del sitio principal
- Función: Respaldo inmediato con capacidad total
- RTO: ≤ 2 horas
- RPO: ≤ 15 minutos
- Personal: 8 empleados dedicados + personal remoto
- Estado: Activo 24/7 con replicación sincrónica
Sitio Alternativo B (Valencia) - Warm Site
- Ubicación: Avenida de Francia 20, 46023 Valencia
- Distancia: >350 km del sitio principal
- Función: Respaldo secundario con capacidad reducida (70%)
- RTO: ≤ 24 horas
- RPO: ≤ 1 hora
- Personal: 4 empleados + escalabilidad remota
- Estado: Semi-activo con replicación asincrónica
Sitio de Almacenamiento Remoto (Sevilla) - Cold Site
- Ubicación: Polígono Industrial Sur, 41020 Sevilla
- Función: Respaldo de datos a largo plazo y archivo
- RTO: ≤ 72 horas
- RPO: ≤ 24 horas
- Uso: Recuperación ante desastres catastróficos
Criterios geográficos y ambientales
Separación geográfica
- Distancia mínima: 300 km entre sitios principales
- Zonas sísmicas: Diferentes niveles de riesgo sísmico
- Cuencas hidrográficas: Diferentes para evitar inundaciones concurrentes
- Redes eléctricas: Distintas compañías suministradoras
Evaluación de riesgos ambientales
Tabla de evaluación de riesgos por ubicación:
Sitio ID | Ubicación | Riesgo sísmico | Riesgo inundación | Riesgo incendio | Red eléctrica | Proveedor Internet Primario | Proveedor Internet Secundario | Última evaluación | Próxima revisión |
---|---|---|---|---|---|---|---|---|---|
SITIO-MAD | Madrid - Princesa 31 | Bajo | Bajo | Medio | Iberdrola | Movistar | Orange | 2024-01-15 | 2024-07-15 |
SITIO-BCN | Barcelona - Diagonal 640 | Medio | Bajo | Medio | Endesa | Vodafone | Movistar | 2024-01-15 | 2024-07-15 |
SITIO-VLC | Valencia - Francia 20 | Bajo | Medio | Medio | Naturgy | Orange | Vodafone | 2024-01-15 | 2024-07-15 |
Campos de la base de datos de ubicaciones:
- ID del sitio: Identificador único (clave primaria)
- Ubicación: Descripción de la ubicación física
- Riesgo sísmico: Clasificación (Bajo/Medio/Alto)
- Riesgo de inundación: Clasificación (Bajo/Medio/Alto)
- Riesgo de incendio: Clasificación (Bajo/Medio/Alto)
- Red eléctrica: Proveedor de electricidad
- Proveedores de Internet: Primario y secundario
- Fechas de evaluación: Última realizada y próxima programada
Infraestructura técnica por sitio
Hardware médico crítico
Servidores de procesamiento de imágenes
Sitio Madrid (Principal):
- Servidores AI: 4x NVIDIA DGX A100 para ML/AI dermatológico
- Almacenamiento: 500TB NVMe SSD en configuración RAID 10
- Red: 100 Gbps entre servidores, 10 Gbps WAN
- Backup: Respaldo incremental cada 15 minutos
Sitio Barcelona (Hot):
- Servidores AI: 4x NVIDIA DGX A100 (idéntica configuración)
- Almacenamiento: 500TB replicado síncronamente desde Madrid
- Red: 100 Gbps interna, enlaces redundantes 10 Gbps a Madrid
- Estado: Activo con balanceo de carga 30/70
Sitio Valencia (Warm):
- Servidores AI: 2x NVIDIA DGX A100 + escalabilidad cloud
- Almacenamiento: 200TB con replicación asincrónica
- Red: 50 Gbps interna, 5 Gbps WAN
- Activación: Automática cuando Barcelona no disponible
Equipamiento médico especializado
Sistema de inventario de equipamiento médico alternativo:
Inventario por sitio:
Sitio | Servidores IA | Almacenamiento (TB) | Equipos de calibración | UPS (kVA) | Generador (kVA) |
---|---|---|---|---|---|
Madrid | 4 | 500 | Dermatoscopio Heine Delta 20, ColorChecker X-Rite | 200 | 500 |
Barcelona | 4 | 500 | Dermatoscopio Heine Delta 20, ColorChecker X-Rite | 200 | 500 |
Valencia | 2 | 200 | Dermatoscopio Heine Delta 20 | 100 | 250 |
Procedimiento de verificación de capacidad alternativa:
Para verificar si un sitio alternativo puede soportar la carga del sitio origen, se deben evaluar los siguientes criterios:
- Servidores suficientes: El sitio destino debe tener al menos el 70% de la capacidad de servidores IA del sitio origen
- Almacenamiento suficiente: El sitio destino debe tener al menos el 80% de la capacidad de almacenamiento del sitio origen
- Energía suficiente: El sitio destino debe tener al menos el 80% de la capacidad UPS del sitio origen
La verificación se considera exitosa cuando todos los criterios se cumplen satisfactoriamente.
Red de comunicaciones redundante
Conectividad entre sitios
-
Madrid ↔ Barcelona:
- Enlace primario: Fibra dedicada 10 Gbps (Telefónica)
- Enlace secundario: MPLS 5 Gbps (Orange)
- Enlace terciario: SD-WAN 1 Gbps (Vodafone)
-
Madrid ↔ Valencia:
- Enlace primario: Fibra dedicada 5 Gbps (Telefónica)
- Enlace secundario: MPLS 2 Gbps (Orange)
-
Barcelona ↔ Valencia:
- Enlace de respaldo: MPLS 2 Gbps (Telefónica)
Protocolos de conmutación automática
Sistema de gestión de enlaces redundantes:
Enlaces activos monitorizados:
- Madrid-Barcelona primario: Activo
- Madrid-Barcelona secundario: Activo
- Madrid-Valencia primario: Activo
- Barcelona-Valencia respaldo: Activo
Umbrales de latencia máxima:
- Madrid-Barcelona: 50 ms
- Madrid-Valencia: 40 ms
- Barcelona-Valencia: 45 ms
Procedimiento de monitorización continua:
- Monitoreo de enlaces: Verificación continua del estado de cada enlace
- Medición de latencia: Comparación con umbrales establecidos
- Medición de pérdida de paquetes: Alerta si supera el 0.1%
- Activación de respaldo: Conmutación automática al enlace de respaldo cuando se detecta degradación
Procedimiento de failover automático:
- Activación del sitio alternativo: Inicio del proceso de conmutación
- Sincronización de datos críticos: Asegurar que todos los datos estén actualizados en el sitio destino
- Redirección del tráfico de pacientes: Cambio de rutas de red hacia el sitio alternativo
- Notificación al personal médico: Informar sobre el cambio de sitio operativo
Replicación de datos médicos
Estrategia de replicación por niveles
Nivel 1: Datos críticos de pacientes (RPO ≤ 15 min)
- Contenido: Imágenes dermatológicas en procesamiento, diagnósticos activos
- Método: Replicación síncrona Madrid → Barcelona
- Verificación: Checksums MD5 cada 5 minutos
- Almacenamiento: SSD NVMe con respaldo inmediato
Nivel 2: Datos importantes (RPO ≤ 1 hora)
- Contenido: Imágenes archivadas, reportes históricos, configuraciones
- Método: Replicación asincrónica hacia todos los sitios
- Verificación: Verificación integral diaria
- Almacenamiento: SSD híbrido con compresión
Nivel 3: Datos de archivo (RPO ≤ 24 horas)
- Contenido: Logs del sistema, datos de auditoría, backups históricos
- Método: Transferencia batch nocturna
- Verificación: Verificación semanal
- Almacenamiento: HDD con deduplicación
Implementación técnica de replicación
Sistema de replicación de datos médicos:
Sitios de destino para replicación:
- Barcelona
- Valencia
- Sevilla
Tipos de replicación según criticidad:
Tipo | RPO (minutos) | Método |
---|---|---|
Crítica | 15 | Síncrona |
Importante | 60 | Asíncrona |
Archivo | 1440 | Batch |
Procedimiento de replicación de imágenes dermatológicas:
-
Inicio del proceso de replicación
- Registro del tiempo de inicio
- Cálculo del hash SHA-256 de integridad de la imagen
-
Generación de metadatos médicos
- ID del paciente
- Fecha y hora de captura
- Hash de integridad
- Clasificación de urgencia
- Estado de procesamiento IA
-
Replicación según urgencia
- Si es crítica: Replicación síncrona inmediata a Barcelona
- Para todos los casos: Replicación asíncrona a Valencia y Sevilla
-
Verificación de integridad
- Obtención del hash de cada sitio
- Comparación con el hash de referencia de Madrid
- Identificación de inconsistencias
- Reparación automática si se detectan discrepancias
-
Registro y notificación
- Tiempo total de replicación
- Número de sitios replicados
- Hash de verificación final
- Estado de éxito de la operación
Procedimientos de activación
Matriz de decisión para activación
Tipo de Incidente | Sitio Alternativo | Tiempo Activación | Autorización Requerida |
---|---|---|---|
Fallo eléctrico localizado | Barcelona (Hot) | ≤ 30 minutos | CTO + Responsable Médico |
Incendio instalaciones | Barcelona (Hot) | ≤ 2 horas | CEO + CTO + Responsable Médico |
Inundación mayor | Valencia (Warm) | ≤ 6 horas | CEO + Board directivo |
Terremoto/catástrofe | Sevilla (Cold) | ≤ 72 horas | Comité de crisis completo |
Ciberataque masivo | Aislamiento + Barcelona | ≤ 4 horas | CISO + Autoridades |
Pandemia/cierre forzoso | Operación remota distribuida | ≤ 24 horas | CEO + Recursos Humanos |
Proceso de activación paso a paso
Fase 1: Detección y evaluación (0-30 minutos)
- Detección automática: Sistemas de monitoreo detectan fallo
- Escalado: Notificación automática al equipo de guardia 24/7
- Evaluación inicial: Assessment de impacto y duración estimada
- Declaración: Decisión de activar instalaciones alternativas
Sistema automatizado de detección y escalado:
Umbrales críticos configurados:
- Disponibilidad de servidores: 95%
- Latencia de respuesta: 5000 ms
- Temperatura de sala: 28°C
- Humedad relativa: 65%
- Voltaje UPS: 220V
Contactos de emergencia:
- CTO: +34-600-000-001, cto@legithealth.com
- Responsable Médico: +34-600-000-002, medical@legithealth.com
- CISO: +34-600-000-003, security@legithealth.com
Procedimiento de evaluación automática para activación de sitio alternativo:
-
Evaluación de métricas críticas
- Disponibilidad de servidores: Si < umbral, incrementa criticidad en 30 puntos
- Latencia de respuesta: Si > umbral, incrementa criticidad en 25 puntos
- Temperatura/Humedad de sala: Si > umbral, incrementa criticidad en 20 puntos
- Voltaje UPS: Si desviación > 10V, incrementa criticidad en 35 puntos
-
Niveles de decisión según puntuación
- Score ≥ 70: ACTIVACIÓN INMEDIATA
- Score 50-69: ACTIVACIÓN PROGRAMADA
- Score 30-49: ALERTA PREVENTIVA
- Score < 30: MONITOREO CONTINUO
Procedimiento de notificación de emergencia según criticidad:
Contenido del mensaje de alerta:
- Nivel de criticidad
- Tipo de incidente
- Ubicación afectada
- Impacto estimado
- Duración estimada
- Acción requerida
Protocolo de notificación:
- Para ACTIVACIÓN INMEDIATA o PROGRAMADA:
- Notificar a todos los contactos críticos
- Envío simultáneo por SMS y email
- Confirmación de recepción requerida
Fase 2: Preparación y sincronización (30-120 minutos)
- Verificación del sitio alternativo: Estado operacional completo
- Sincronización final: Asegurar datos actualizados en destino
- Preparación del personal: Activación de equipos remotos
- Testing de conectividad: Verificar enlaces y accesos
Fase 3: Migración de servicios (2-6 horas)
- Parada controlada: Detención ordenada de servicios en sitio principal
- Transferencia de conexiones: Redirección de tráfico a sitio alternativo
- Activación de servicios: Inicio completo en instalaciones alternativas
- Verificación funcional: Testing de todos los servicios críticos
Fase 4: Operación alternativa (Duración variable)
- Monitoreo intensivo: Vigilancia 24/7 del sitio alternativo
- Comunicación continua: Updates regulares a stakeholders
- Gestión de capacidad: Escalado según demanda
- Preparación del retorno: Planificación de vuelta al sitio principal
Plantillas de comunicación
Plantilla de notificación a pacientes
COMUNICADO IMPORTANTE - LEGIT HEALTH PLUS
Estimado paciente,
Debido a labores de mantenimiento programadas/imprevistas en nuestras instalaciones principales, hemos activado nuestro centro alternativo para garantizar la continuidad de su atención médica.
SUS DATOS ESTÁN COMPLETAMENTE SEGUROS y el procesamiento de sus imágenes dermatológicas continúa sin interrupción.
Cambios temporales:
- Procesamiento desde: [SITIO ALTERNATIVO]
- Tiempo estimado: [DURACIÓN]
- Sus citas y consultas: SIN CAMBIOS
Para consultas: soporte@legithealth.com | +34-91-XXX-XXXX
Gracias por su confianza.
Equipo Legit Health
Plantilla de notificación a profesionales sanitarios
AVISO TÉCNICO - SISTEMA LEGIT HEALTH PLUS
Estimado/a Dr./Dra.,
Le informamos de la activación temporal de nuestras instalaciones alternativas:
DETALLES TÉCNICOS:
- Causa: [MOTIVO]
- Sitio alternativo: [UBICACIÓN]
- Duración estimada: [TIEMPO]
- Impacto en servicios: NINGUNO
ACCESO AL SISTEMA:
- URL: https://app-backup.legithealth.com
- Sus credenciales: SIN CAMBIOS
- Funcionalidades: 100% OPERATIVAS
SOPORTE TÉCNICO:
- 24/7: +34-91-XXX-XXXX
- Email: soporte-medico@legithealth.com
Agradecemos su comprensión.
Departamento Técnico Legit Health
Testing y validación
Programa de simulacros
Frecuencia de simulacros
- Simulacros completos: Trimestral (cada 3 meses)
- Simulacros parciales: Mensual
- Testing de conectividad: Semanal
- Verificación de sincronización: Diario (automatizado)
Matriz de escenarios de simulacro
Escenario | Frecuencia | Duración | Participantes | Objetivos |
---|---|---|---|---|
Fallo total Madrid | Trimestral | 8 horas | Todo el equipo | RTO/RPO compliance |
Corte eléctrico prolongado | Bimensual | 4 horas | Equipo técnico | Autonomía energética |
Fallo de enlaces de comunicación | Mensual | 2 horas | Equipo redes | Redundancia enlaces |
Simulacro ciberseguridad | Trimestral | 6 horas | Equipo completo + CISO | Respuesta ante ataques |
Evacuación por incendio | Semestral | 3 horas | Personal completo | Procedimientos emergencia |
Métricas y KPIs de evaluación
Sistema de métricas para evaluación de simulacros:
Métricas objetivo:
- RTO objetivo: 4 horas
- RPO objetivo: 15 minutos
- Disponibilidad objetivo: 99.9%
- Latencia máxima: 200 ms
- Éxito de sincronización: 99.99%
Procedimiento de evaluación de simulacros:
-
Registro de datos del simulacro
- Fecha y hora de ejecución
- Tipo de simulacro realizado
- Métricas logradas
- Cumplimiento de objetivos
- Áreas de mejora identificadas
- Puntuación total obtenida
-
Evaluación de RTO (Recovery Time Objective)
- Medición del tiempo de activación en horas
- Comparación con el objetivo de 4 horas
- Registro de incumplimientos si RTO > 4 horas
-
Evaluación de RPO (Recovery Point Objective)
- Medición de pérdida de datos en minutos
- Comparación con el objetivo de 15 minutos
- Registro de incumplimientos si RPO > 15 minutos
-
Evaluación de disponibilidad
- Medición del porcentaje de disponibilidad durante el simulacro
- Comparación con el objetivo del 99.9%
- Identificación de puntos de fallo
-
Cálculo de puntuación final
- Suma de objetivos cumplidos
- Cálculo del porcentaje de éxito
- Registro en el histórico de simulacros
Generación de informe de tendencias:
- RTO promedio de todos los simulacros
- RPO promedio de todos los simulacros
- Puntuación promedio global
- Análisis de mejora trimestral
Gestión de personal alternativo
Estructura organizativa distribuida
Personal dedicado por sitio
Madrid (Sitio Principal)
- Director Médico: 1 (Dr. Principal)
- Ingenieros IA: 4 (desarrollo algoritmos)
- Especialistas DevOps: 2 (infraestructura)
- Data Scientists: 3 (análisis dermatológico)
- QA/Regulatory: 2 (compliance médico)
- Soporte técnico: 3 (24/7 rotacional)
Barcelona (Hot Site)
- Director Técnico Alternativo: 1 (delegado CTO)
- Ingenieros IA: 2 (operaciones + desarrollo)
- Especialistas DevOps: 2 (infraestructura alternativa)
- Data Scientists: 1 (análisis operacional)
- Soporte técnico: 2 (24/7 rotacional)
Valencia (Warm Site)
- Coordinador Técnico: 1
- Ingenieros IA: 1 (operaciones)
- Especialistas DevOps: 1 (infraestructura)
- Soporte técnico: 1 (horario extendido)
Personal Remoto (Activación por demanda)
- Desarrolladores remotos: 5 (activación < 4 horas)
- Consultores médicos: 3 (activación < 2 horas)
- Especialistas regulatorios: 2 (activación < 8 horas)
Programa de entrenamiento y capacitación
Certificaciones requeridas por rol
Sistema de gestión de certificaciones de personal alternativo:
Certificaciones requeridas por rol:
Director médico alternativo:
- Certificación ENS Nivel Alto
- Formación ISO 13485:2016
- Curso MDR/IVDR actualizado
- Certificación continuidad de negocio ISO 22301
- Entrenamiento específico Legit Health Plus
Ingeniero IA alternativo:
- Certificación AWS/Azure Medical AI
- Formación seguridad en IA médica
- Entrenamiento algoritmos dermatológicos LH+
- Certificación manejo datos sensibles RGPD
DevOps alternativo:
- Certificación Kubernetes médico
- Formación ENS Marco Operacional
- Certificación Docker security
- Entrenamiento infraestructura LH+ específica
Soporte técnico alternativo:
- Certificación ITIL v4 Healthcare
- Formación atención médica de emergencia
- Entrenamiento herramientas monitoreo LH+
- Certificación comunicaciones críticas
Procedimiento de verificación de certificaciones:
-
Identificación del empleado y rol
- Obtención del registro del empleado
- Verificación del rol asignado
-
Comparación de certificaciones
- Identificación de certificaciones requeridas para el rol
- Revisión de certificaciones actuales del empleado
- Detección de certificaciones pendientes
- Identificación de certificaciones vencidas
-
Validación del estado
- El empleado está válido si no tiene certificaciones pendientes ni vencidas
- Registro del próximo vencimiento de certificación
Programación automática de entrenamiento:
Cuando un empleado no cumple con todas las certificaciones:
-
Generación del plan de entrenamiento
- Lista de certificaciones objetivo (pendientes + vencidas)
- Fecha de inicio: 7 días desde la detección
- Duración estimada: 5 días por certificación
- Modalidad: Híbrida (presencial y online)
- Costo estimado: 1.500 EUR por certificación
-
Seguimiento del cumplimiento
- Notificación al empleado y su supervisor
- Registro en el sistema de formación
- Seguimiento del progreso
- Actualización del registro tras completar
Programas de rotación y familiarización
Rotación Trimestral:
- Personal de Madrid trabaja 1 semana/trimestre en Barcelona
- Personal de Barcelona trabaja 2 días/mes en Valencia
- Intercambio de roles durante simulacros
- Sesiones de shadowing con personal senior
Familiarización Continua:
- Acceso remoto mensual a sistemas de sitios alternativos
- Participación obligatoria en simulacros trimestrales
- Updates técnicos sobre cambios en infraestructura
- Certificación anual en procedimientos de emergencia
Protocolo de activación de personal
Notificación en cascada (Tiempo < 30 minutos)
- Sistema automático → Responsable de guardia 24/7
- Responsable guardia → Director del sitio alternativo
- Director sitio → Personal clave del sitio
- Personal clave → Resto del equipo del sitio
- Confirmación → Todos confirman disponibilidad y ETA
Escalado de personal por nivel de incidente
Nivel 1 - Fallo menor (Personal mínimo)
- 1 Director técnico alternativo
- 1 Ingeniero IA
- 1 Especialista DevOps
- 1 Soporte técnico
Nivel 2 - Fallo mayor (Personal completo sitio alternativo)
- Todo el personal dedicado del sitio alternativo
- +2 Desarrolladores remotos
- +1 Consultor médico remoto
Nivel 3 - Desastre (Personal completo + remoto)
- Todo el personal de sitios alternativos
- Activación completa de personal remoto
- Contratación de personal temporal especializado
- Escalado de soporte externo (proveedores críticos)
Monitoreo y alertas
Sistema de monitoreo 24/7 multi-sitio
Dashboard centralizado de estado
Sistema de monitoreo unificado para instalaciones alternativas
Configuración del sistema de monitoreo:
Sitios monitoreados:
- Madrid (principal)
- Barcelona (hot site)
- Valencia (warm site)
- Sevilla (cold site)
Métricas críticas monitoreadas:
Métrica | Umbral Crítico | Umbral Alerta |
---|---|---|
Disponibilidad del sitio | 95% | 98% |
Latencia de replicación | 5000 ms | 2000 ms |
Sincronización de datos | 95% | 99% |
Capacidad de procesamiento | 70% | 80% |
Temperatura de servidores | 45°C | 40°C |
Uso de ancho de banda | 90% | 75% |
Dashboard en tiempo real:
El sistema genera un dashboard que incluye:
- Timestamp de actualización
- Estado global (OPERACIONAL/DEGRADADO/CRÍTICO)
- Estado individual de cada sitio
- Métricas actuales de cada sitio
- Alertas activas por sitio
Detección automática de necesidad de failover:
-
Evaluación de métricas críticas:
- Para disponibilidad y sincronización: Valores bajos indican problemas
- Para otras métricas: Valores altos indican problemas
- Cada violación de umbral crítico suma 40 puntos al score de deterioro
- Cada violación de umbral de alerta suma 20 puntos
-
Decisión de failover basada en score:
- Score ≥ 120: FAILOVER INMEDIATO
- Score 80-119: PREPARAR FAILOVER
- Score 40-79: ALERTA PREVENTIVA
- Score < 40: MONITOREO NORMAL
-
Selección de sitio alternativo óptimo:
- Evaluación basada en:
- Capacidad disponible (40% del peso)
- Latencia (30% del peso)
- Disponibilidad (30% del peso)
- Selección automática del sitio con mayor puntuación
- Evaluación basada en:
Alertas automáticas inteligentes
Sistema de alertas por niveles:
- Nivel INFO: Métricas fuera de rango normal (no requiere acción)
- Nivel WARNING: Métricas en zona de alerta (acción preventiva)
- Nivel ERROR: Métricas críticas superadas (acción correctiva inmediata)
- Nivel CRITICAL: Fallo de sitio (activación de protocolo de emergencia)
Integración con sistemas de notificación:
- Slack/Teams para alertas operacionales
- SMS/llamadas para alertas críticas
- Email para informes y tendencias
- WhatsApp para comunicación de emergencia
- Sistema de megafonía en instalaciones
Métricas de performance y SLAs
SLAs comprometidos con clientes médicos
Servicio | SLA Comprometido | Medición | Penalización |
---|---|---|---|
Disponibilidad procesamiento IA | 99.9% | Mensual | 5% descuento por cada 0.1% debajo |
Tiempo respuesta diagnóstico | < 30 segundos | Por transacción | Crédito de servicio si > 60s |
Pérdida de datos paciente | 0% (RPO) | Por incidente | Compensación completa + auditoría |
Tiempo recuperación ante fallo | < 4 horas (RTO) | Por incidente | 10% descuento mensual si > 8h |
Métricas internas de gestión
Métricas consolidadas de instalaciones alternativas
Vista de métricas en tiempo real:
La vista consolidada incluye para cada sitio y fecha:
- Disponibilidad promedio (%)
- Latencia promedio (ms)
- Uso promedio de CPU (%)
- Uso promedio de memoria (%)
- Uso promedio de disco (%)
- Cantidad de alertas críticas
- Cantidad de alertas de error
- GB replicados
- Tiempo promedio de sincronización (segundos)
KPIs de cumplimiento de SLAs:
Evaluación mensual por sitio:
Disponibilidad:
- CUMPLIDO: ≥ 99.9%
- EN RIESGO: 99.0% - 99.8%
- INCUMPLIDO: < 99.0%
Latencia:
- CUMPLIDO: ≤ 30 segundos
- EN RIESGO: 31-60 segundos
- INCUMPLIDO: > 60 segundos
Auditorías y compliance
Programa de auditorías internas
Auditorías ENS específicas para instalaciones alternativas
Frecuencia de auditorías:
- Auditoría completa ENS: Anual (pre-certificación oficial)
- Auditoría parcial instalaciones: Semestral
- Revisión procedimientos: Trimestral
- Verificación técnica: Mensual (automatizada)
Alcance de auditoría por instalación:
Checklist de auditoría ENS para instalaciones alternativas
Puntos de verificación según MP.IF.9:
Código | Descripción | Evidencia Requerida | Nivel Mínimo |
---|---|---|---|
IF.9.1 | Existencia de sitio alternativo geográficamente separado | Contratos de arrendamiento, planos de ubicación | MEDIO |
IF.9.2 | Capacidad equivalente de procesamiento médico | Inventario de equipamiento, pruebas de rendimiento | MEDIO |
IF.9.3 | Replicación de datos de pacientes en tiempo real | Logs de sincronización, verificaciones de integridad | ALTO |
IF.9.4 | Personal cualificado disponible en sitio alternativo | Contratos laborales, certificaciones, plan de formación | MEDIO |
IF.9.5 | Procedimientos de activación documentados y probados | Procedimientos escritos, registros de simulacros | MEDIO |
IF.9.6 | Conectividad redundante entre sitios | Contratos de conectividad, diagramas de red, pruebas | ALTO |
IF.9.7 | Cumplimiento MDR en instalaciones alternativas | Certificaciones ISO 13485, auditorías internas | ALTO |
Plan de auditoría específico por sitio:
-
Elementos del plan:
- Sitio a auditar
- Fecha programada (30 días desde generación)
- Nivel de seguridad aplicable
- Puntos de verificación según nivel
- Documentos requeridos
- Pruebas técnicas específicas
- Duración estimada: 3 días
-
Pruebas técnicas para sitios activos (Barcelona/Valencia):
- Simulacro de failover completo (4 horas)
- Verificación de sincronización de datos
- Prueba de capacidad de procesamiento IA
- Test de conectividad bajo carga
- Verificación de procedimientos de emergencia
-
Verificación técnica automatizada mensual:
- Conectividad de enlaces redundantes
- Sincronización de datos
- Capacidad de procesamiento
- Estado del equipamiento
- Configuración de seguridad
Criterios de evaluación:
- Puntuación ≥ 85: APTO
- Puntuación < 85: REQUIERE ATENCIÓN
Integración con auditorías MDR/ISO 13485
Auditorías médicas específicas:
- Verificación de trazabilidad de datos de pacientes entre sitios
- Validación de integridad de algoritmos de IA en sitios alternativos
- Comprobación de calibración de equipos médicos
- Verificación de cumplimiento RGPD en transferencia de datos
Evidencias requeridas para auditoría médica:
- Registros de calibración de equipos de medición dermatológica
- Logs de procesamiento de imágenes médicas
- Certificados de validación de algoritmos de IA
- Documentación de control de cambios en software médico
- Registros de formación de personal sanitario
Reporting regulatorio
Informes obligatorios para autoridades
Informe anual ENS (presentar antes 31 marzo):
- Estado de implementación de medidas MP.IF.9
- Resultados de simulacros de continuidad
- Incidentes de seguridad relacionados con instalaciones
- Métricas de disponibilidad y rendimiento
- Plan de mejoras para el siguiente ejercicio
Informe trimestral AEMPS (para software médico):
- Disponibilidad de servicios médicos críticos
- Incidentes que afectaron a procesamiento de datos médicos
- Cambios en instalaciones que afecten a dispositivos médicos
- Resultados de validaciones y verificaciones
Template de informe regulatorio
INFORME ANUAL - INSTALACIONES ALTERNATIVAS ENS
Legit Health S.L. - Ejercicio 2024
1. RESUMEN EJECUTIVO
- Nivel de seguridad aplicado: ALTO
- Número de sitios alternativos operativos: 3 (Barcelona, Valencia, Sevilla)
- Disponibilidad global alcanzada: 99.97%
- Número de activaciones reales: 2
- Cumplimiento de objetivos RTO/RPO: 100%
2. IMPLEMENTACIÓN DE MEDIDAS ENS
MP.IF.9 - Instalaciones Alternativas
- Estado de implementación: COMPLETO
- Nivel de cumplimiento: ALTO ✓
- Evidencias disponibles: [Lista de documentos]
- Gaps identificados: Ninguno
- Acciones correctivas: N/A
3. RESULTADOS DE SIMULACROS
Simulacros realizados en 2024
- Simulacros completos: 4 (objetivo: 4) ✓
- Simulacros parciales: 12 (objetivo: 12) ✓
- RTO promedio alcanzado: 3.2 horas (objetivo: <4h) ✓
- RPO promedio alcanzado: 12 minutos (objetivo: <15min) ✓
Lecciones aprendidas
- Mejora en tiempos de activación: -15% respecto 2023
- Optimización de sincronización de datos: +25% velocidad
- Reducción de errores humanos: -40%
4. INCIDENTES Y ACTIVACIONES REALES
Incidente 1: Corte eléctrico prolongado Madrid (15-Mar-2024)
- Duración: 6 horas
- Sitio alternativo activado: Barcelona
- RTO alcanzado: 2.5 horas ✓
- RPO alcanzado: 8 minutos ✓
- Impacto: Cero pérdida de datos, continuidad total
Incidente 2: Fallo de conectividad (22-Sep-2024)
- Duración: 3 horas
- Sitio alternativo activado: Valencia
- RTO alcanzado: 4.5 horas ⚠️ (objetivo: <4h)
- RPO alcanzado: 20 minutos ⚠️ (objetivo: <15min)
- Acciones correctivas: Implementación de enlaces adicionales
5. MÉTRICAS DE PERFORMANCE
[Tablas de métricas detalladas]
6. PLAN DE MEJORAS 2025
- Implementación de sitio alternativo adicional (Bilbao)
- Reducción de RTO objetivo a <2 horas
- Automatización completa de procesos de failover
- Certificación ISO 22301 para continuidad de negocio
7. CONCLUSIONES Y CERTIFICACIÓN
Este informe certifica el cumplimiento completo de la medida MP.IF.9 del ENS para el ejercicio 2024.
Responsable de Seguridad: [Firma] Fecha: [Fecha] Próxima revisión: 31-marzo-2025
Integración con gestión de riesgos
Conexión con R-TF-013-002 (Risk Management File)
Riesgos específicos de instalaciones alternativas
Los riesgos relacionados con instalaciones alternativas están documentados en el Risk Management File con los siguientes códigos:
- R-ALT-001: Fallo de sincronización entre sitios principales y alternativos
- R-ALT-002: Pérdida de conectividad durante activación de sitio alternativo
- R-ALT-003: Personal no disponible o no capacitado en sitio alternativo
- R-ALT-004: Degradación de performance de algoritmos IA en sitio alternativo
- R-ALT-005: Fallo de equipamiento médico crítico en sitio alternativo
Medidas de control específicas
Sistema de integración con gestión de riesgos de instalaciones alternativas:
Riesgo R-ALT-001: Fallo de sincronización entre sitios
- Descripción: Fallo de sincronización entre sitios principales y alternativos
- Probabilidad inicial: 3 (escala 1-5)
- Severidad inicial: 4 (escala 1-5)
- RPN inicial: 12 (3x4)
- Controles implementados:
- Monitoreo automático de sincronización cada 5 minutos
- Alertas inmediatas por fallo de replicación
- Verificación de integridad de datos con checksums
- Proceso manual de re-sincronización de emergencia
- Probabilidad residual: 2
- Severidad residual: 3
- RPN residual: 6
- Medidas adicionales:
- Implementación de triple replicación (Madrid→Barcelona→Valencia)
- Algoritmos de auto-reparación de datos
Riesgo R-ALT-002: Pérdida de conectividad durante activación
- Descripción: Pérdida de conectividad durante activación de sitio alternativo
- Probabilidad inicial: 4
- Severidad inicial: 5
- RPN inicial: 20
- Controles implementados:
- Enlaces de comunicación redundantes (3 proveedores diferentes)
- Monitoreo continuo de latencia y disponibilidad
- Failover automático entre enlaces en <30 segundos
- Enlaces satelitales de emergencia
- Probabilidad residual: 2
- Severidad residual: 4
- RPN residual: 8
- Medidas adicionales:
- Implementación de enlaces 5G de respaldo
- Acuerdos con operadores para prioridad de reparación
Procedimiento de evaluación de efectividad de controles:
-
Para fallo de sincronización (R-ALT-001):
Cálculo de nueva probabilidad basada en incidentes reales:
- 0 incidentes en el trimestre: Probabilidad = 1
- 1-2 incidentes: Probabilidad = 2
- 3-5 incidentes: Probabilidad = 3
- Más de 5 incidentes: Probabilidad = 4
Cálculo de nueva severidad basada en tiempo de detección:
- Detección ≤ 5 minutos: Severidad = 2
- Detección 6-15 minutos: Severidad = 3
- Detección > 15 minutos: Severidad = 4
-
Para pérdida de conectividad (R-ALT-002):
Cálculo de nueva probabilidad basada en incidentes:
- 0 incidentes en el trimestre: Probabilidad = 1
- 1 incidente: Probabilidad = 2
- Más de 1 incidente: Probabilidad = 3
Cálculo de nueva severidad basada en tiempo de recuperación:
- Recuperación ≤ 30 minutos: Severidad = 3
- Recuperación 31-120 minutos: Severidad = 4
- Recuperación > 120 minutos: Severidad = 5
-
Evaluación final:
- Cálculo del nuevo RPN = Probabilidad x Severidad
- Determinación de tendencia (Mejora/Estable/Deterioro)
- Identificación de necesidad de acción si RPN > 12
Plan de mejora continua
Metodología de mejora basada en evidencia
Ciclo de mejora PDCA (Plan-Do-Check-Act):
-
PLAN: Identificación de oportunidades de mejora basada en:
- Métricas de performance de simulacros
- Incidentes reales y lecciones aprendidas
- Feedback de auditorías internas/externas
- Evolución de amenazas y vulnerabilidades
-
DO: Implementación de mejoras piloto en sitio alternativo Valencia
- Validación técnica en entorno controlado
- Entrenamiento de personal en nuevos procedimientos
- Documentación de cambios y actualizaciones
-
CHECK: Evaluación de efectividad durante 3 meses
- Métricas de antes/después de la mejora
- Simulacros específicos para validar mejoras
- Feedback de personal operativo
-
ACT: Implementación definitiva en todos los sitios
- Rollout controlado Madrid → Barcelona → Valencia → Sevilla
- Actualización de documentación y procedimientos
- Formación completa de todo el personal
Roadmap de mejoras 2025-2027
Q1 2025: Optimización de automatización
- Implementación de failover 100% automático (sin intervención humana)
- Integración con IA para predicción de fallos
- Optimización de algoritmos de sincronización
Q2 2025: Expansión geográfica
- Nuevo sitio alternativo en Bilbao (4º sitio)
- Evaluación de sitio internacional (París o Lisboa)
- Implementación de arquitectura multi-cloud híbrida
Q3 2025: Certificaciones avanzadas
- Certificación ISO 22301 (Continuidad de negocio)
- Certificación SOC 2 Type II para servicios médicos
- Validación FDA para instalaciones alternativas en EEUU
Q4 2025: Innovación tecnológica
- Implementación de edge computing en sitios alternativos
- Integración con redes 5G para ultra-baja latencia
- Desarrollo de capacidades de procesamiento distribuido
2026-2027: Consolidación y expansión
- Reducción de RTO a <1 hora para servicios críticos
- RPO a <5 minutos para datos de pacientes críticos
- Expansión internacional con sitios en 3 países europeos
Signature meaning
The signatures for the approval process of this document can be found in the verified commits at the repository for the QMS. As a reference, the team members who are expected to participate in this document and their roles in the approval process, as defined in Annex I Responsibility Matrix
of the GP-001
, are:
- Author: Team members involved
- Reviewer: JD-003, JD-004
- Approver: JD-001