La jornada de hoy, 29 de octubre de 2025, ha estado marcada por una interrupción significativa en los servicios de Microsoft Azure, el segundo proveedor de nube más grande del mundo. Este evento ha afectado la disponibilidad de numerosos servicios globales, desde aplicaciones empresariales hasta plataformas de entretenimiento.
📅 Fecha y Hora del Incidente
- Inicio Aproximado: 29 de octubre de 2025, alrededor de las 16:00 UTC (09:00 a.m. PST).
- Servicio Afectado Inicialmente: Azure Front Door (AFD), el servicio global de red de entrega de contenido (CDN) y balanceador de carga de Microsoft Azure.
🔍 Causa Raíz Validada: Un Cambio de Configuración No Intencional
Microsoft ha confirmado, a través de sus canales de estado, que el origen del problema fue un cambio de configuración involuntario (o «inadvertent configuration change») que se implementó en el servicio Azure Front Door.
Declaración Oficial (Síntesis): «Sospechamos que un cambio de configuración involuntario fue el evento desencadenante de este problema… Se procedió a revertir la configuración de AFD a su último estado conocido y bueno.»
Este tipo de incidentes subraya la vulnerabilidad de las infraestructuras a errores operacionales, incluso en servicios de red perimetral diseñados para la alta disponibilidad.
🌐 Impacto y Servicios Afectados
La interrupción de Azure Front Door, una capa esencial para el tráfico global, provocó una degradación en la disponibilidad con efectos en cascada en múltiples plataformas dependientes:
- Servicios de Microsoft Impactados: Incluyeron el acceso al portal de administración de Microsoft 365 / Office 365, problemas de conectividad en Xbox Live / Game Pass y dificultades para acceder al propio Portal de Azure.
- Impacto en Terceros: Clientes empresariales de alto perfil, como Alaska Airlines, reportaron que la caída afectó directamente sus sistemas críticos de check-in y operaciones en línea.
🛠️ Acciones de Mitigación y Recuperación
La respuesta de Microsoft se centró en un proceso de tres etapas para recuperar el servicio:
- Contención Inmediata: Bloqueo de todos los cambios de configuración en AFD para evitar la propagación o reaparición del error.
- Retroceso («Rollback»): Implementación de la «última configuración conocida y buena» para revertir el cambio erróneo.
- Redirección de Tráfico: Desvío gradual del tráfico a nodos sanos y recuperación progresiva de la infraestructura afectada.
La recuperación fue gradual, y se espera una publicación de análisis post-mortem (RCA – Root Cause Analysis) por parte de Microsoft para detallar las medidas preventivas a futuro.
📌 Lecciones Clave para la Resiliencia Cloud
Este incidente, que sigue a una caída masiva de AWS la semana anterior, refuerza la necesidad de:
- Redundancia Activa: No depender de un único servicio de red perimetral, incluso si es global.
- Estrategias de Failover: Microsoft recomendó a los clientes considerar el uso de servicios como Azure Traffic Manager para implementar conmutaciones por error automáticas (failover) lejos de la infraestructura de AFD en caso de problemas.
- Rigor en el Control de Cambios: Reforzar los procedimientos de despliegue automatizado y validación para evitar que errores de configuración lleguen al entorno de producción global.
La jornada de hoy, 29 de octubre de 2025, ha estado marcada por una interrupción significativa en los servicios de Microsoft Azure, el segundo proveedor de nube más grande del mundo. Este evento ha afectado la disponibilidad de numerosos servicios globales, desde aplicaciones empresariales hasta plataformas de entretenimiento.
📅 Fecha y Hora del Incidente
- Inicio Aproximado: 29 de octubre de 2025, alrededor de las 16:00 UTC (09:00 a.m. PST).
- Servicio Afectado Inicialmente: Azure Front Door (AFD), el servicio global de red de entrega de contenido (CDN) y balanceador de carga de Microsoft Azure.
🔍 Causa Raíz Validada: Un Cambio de Configuración No Intencional
Microsoft ha confirmado, a través de sus canales de estado, que el origen del problema fue un cambio de configuración involuntario (o «inadvertent configuration change») que se implementó en el servicio Azure Front Door.
Declaración Oficial (Síntesis): «Sospechamos que un cambio de configuración involuntario fue el evento desencadenante de este problema… Se procedió a revertir la configuración de AFD a su último estado conocido y bueno.»
Este tipo de incidentes subraya la vulnerabilidad de las infraestructuras a errores operacionales, incluso en servicios de red perimetral diseñados para la alta disponibilidad.
🌐 Impacto y Servicios Afectados
La interrupción de Azure Front Door, una capa esencial para el tráfico global, provocó una degradación en la disponibilidad con efectos en cascada en múltiples plataformas dependientes:
- Servicios de Microsoft Impactados: Incluyeron el acceso al portal de administración de Microsoft 365 / Office 365, problemas de conectividad en Xbox Live / Game Pass y dificultades para acceder al propio Portal de Azure.
- Impacto en Terceros: Clientes empresariales de alto perfil, como Alaska Airlines, reportaron que la caída afectó directamente sus sistemas críticos de check-in y operaciones en línea.
🛠️ Acciones de Mitigación y Recuperación
La respuesta de Microsoft se centró en un proceso de tres etapas para recuperar el servicio:
- Contención Inmediata: Bloqueo de todos los cambios de configuración en AFD para evitar la propagación o reaparición del error.
- Retroceso («Rollback»): Implementación de la «última configuración conocida y buena» para revertir el cambio erróneo.
- Redirección de Tráfico: Desvío gradual del tráfico a nodos sanos y recuperación progresiva de la infraestructura afectada.
La recuperación fue gradual, y se espera una publicación de análisis post-mortem (RCA – Root Cause Analysis) por parte de Microsoft para detallar las medidas preventivas a futuro.
📌 Lecciones Clave para la Resiliencia Cloud
Este incidente, que sigue a una caída masiva de AWS la semana anterior, refuerza la necesidad de:
- Redundancia Activa: No depender de un único servicio de red perimetral, incluso si es global.
- Estrategias de Failover: Microsoft recomendó a los clientes considerar el uso de servicios como Azure Traffic Manager para implementar conmutaciones por error automáticas (failover) lejos de la infraestructura de AFD en caso de problemas.
- Rigor en el Control de Cambios: Reforzar los procedimientos de despliegue automatizado y validación para evitar que errores de configuración lleguen al entorno de producción global.


