España en el gran apagón de 2025: Una perspectiva de Site Reliability Engineering

Escribo esta publicación en español porque considero que es un tema más interesante para españoles e hispanohablantes, pero la traduciré a inglés más adelante.

Aspectos a tener en cuenta con respecto a esta publicación:

No voy a especular. No sé si esto han sido hackers rusos, aliens, o condiciones atmosféricas, porque no tengo datos a favor ni en contra y por tanto, las razones reales serán descubiertas cuando las investigaciones pertinentes concluyan por un grupo designado de expertos en la materia
No es un asunto político, esta publicación es estrictamente objetiva y basada en hechos
No pretendo buscar (personas) culpables, pero quiero recoger cuestiones y preguntas que algunos españoles me han transmitido
Es una publicación desde una perspectiva de Site Reliability Engineering en la que intento brindar la máxima objetividad y claridad a través de mis experiencias en mi empleo con Booking.com, pero es totalmente independiente de mi ocupación y no pretendo escribir ninguna opinión oficial o detalles técnicos de Booking.com

Los “nueves”

Los “nueves” son un concepto de SRE. Con este indicador, medimos la fiabilidad de un sistema o software.

Según los principios de Site Reliability Engineering, entendemos que siempre puede haber fallos. Según la complejidad de un sistema informatizado aumenta, la probabilidad de fallos también aumenta. Los Site Reliability Engineers nos encargamos de que este servicio esté garantizado hasta cierto nivel.

¿Por qué no se puede garantizar fiabilidad al 100%?

Si lo piensas detenidamente, en cualquier punto de un sistema suficientemente complejo pueden aparecer fallos y situaciones inesperadas. Por ejemplo: Si tienes tu página web hospedada en un servidor en tu casa, y se va la luz, tu servidor naturalmente va a dejar de funcionar correctamente. También puedes perder el servicio de internet, o incluso puedes sufrir un incendio. No importa lo poco probable que sea el fallo, estas situaciones pueden darse.

La tarea del SRE consiste en mitigar estas situaciones inesperadas hasta un cierto nivel que llamamos SLA (Service-Level Agreement), en el que determinamos cuál es el nivel de “nueves” que tiene un sistema.

Un nueve significa 90%. Es decir, día a día, mes a mes y año a año, tu sistema puede caerse durante un 10% del tiempo. Generalmente, esta cantidad de nueves no inspira demasiada confianza en tu sistema.

Dos nueves es 99%. Es un poco mejor, pero generalmente los SREs buscamos fiabilidades alrededor de los cuatro nueves. Esto significa que tu sistema estará disponible durante el 99.99% del tiempo.

Esta calculadora puede ayudarte a entender un poco cómo funciona este sistema de los nueves.

Por ejemplo, un sistema de cuatro nueves sólo puede dejar de responder durante 52.59 minutos a lo largo del año. En otras palabras, garantizamos el funcionamiento del servicio con un nivel máximo de incertidumbre alrededor de una hora.

Como puedes observar, diferentes sistemas tienen diferentes niveles de fiabilidad. Por ejemplo, los hospitales continuaron funcionando durante el apagón gracias a generadores integrados. De esta manera, pueden continuar atendiendo emergencias médicas en situaciones como esta. Sin embargo, el metro de Madrid no tiene sistemas de baterías o generadores porque se considera que el transporte público tiene menor importancia que los hospitales o los cuerpos de seguridad del estado.

Cómo incrementar los nueves

Toda fiabilidad añadida incrementa los costes. Por ejemplo: Si volvemos a la página web hospedada en tu casa, y la mueves a AWS con 3 AZ (Availability Zones), esto significa, que incluso en el poco probable caso de que una zona de AWS se pierda debido a fallo eléctrico, inundación, o desastre natural, tu sitio web puede continuar funcionando. Digamos, por ejemplo, que tienes un servidor en Madrid, otro en Londres, y el último en San Francisco.

En esta situación del apagón, habrías perdido el servidor de Madrid, pero los de Londres y San Francisco continuarían funcionando y sirviendo tráfico. La contrapartida es que ahora estás generando el triple de gastos de lo que gastarías en una situación sin una infraestructura distribuida. Además de eso, tienes que coordinar y sincronizar los tres servidores, cosa que a menudo no es sencilla, y asegurarte de que cualquiera de los tres puede responder con capacidad suficiente a la pérdida de las otras zonas.

En esta situación, si tienes un blog personal como este, tener triple redundancia es muy baja prioridad. Pero si tu infraestructura web es Amazon, PC Componentes, perder una AZ podría provocar serios daños financieros.

Según esta página web, Amazon genera sesenta y cuatro millones de dólares (64.000.000) cada hora, y por lo tanto, una caída de apenas 10 minutos provocaría daños millonarios que continúan mientras no se solucione el problema.

¿Por qué mis paneles solares no suministran energía en un apagón?

El sistema de suministro eléctrico mundial consiste en corriente alterna. Diferentes países tienen diferentes voltajes y frecuencias, pero lo importante es que todos los generadores, plantas nucleares, hidroeléctricas, y demás estén en perfecta sincronía. En España, la frecuencia debe oscilar a 50 hercios, y además se debe sincronizar los picos y valles con respecto a la señal de “referencia” del sistema eléctrico.

Si la red eléctrica se cae, tus paneles solares se desactivan automáticamente como sistema de protección. Si tus paneles solares continúan funcionando tras el apagón, existe una posibilidad de que se salieran de la sincronización con la red eléctrica, y esto puede provocar serios problemas, desde sobrecargas de transformadores y subestaciones hasta incendios eléctricos, o podrían electrocutar a un operario que estuviera trabajando en la zona y piense que no hay suministro eléctrico.

Para que tu casa funcione con electricidad solar, necesitas dos cosas: Un requisito imprescindible es poder funcionar aislado de la red (modo isla), de manera que sólo suministres energía a tu casa. El otro requisito es disponer de baterías. Las baterías son importantes porque la energía solar fluctúa según la intensidad del sol. Aunque sea un día especialmente soleado, la más mínima nube podría obstruir el suministro, y si tú comienzas a utilizar más energía, por ejemplo, usando el horno, o el aire acondicionado, los inversores de los paneles solares se desconectan por seguridad ya que la demanda excede el suministro disponible.

En este vídeo podéis ver este asunto de una forma más detallada:

La cultura “sin culpables”

Blameless, en inglés. Los SRE trabajamos en entornos “blameless”. Buscar los culpables de un incidente no es productivo por varias razones:

Si intentas buscar a culpables y pones en riesgo su empleo, cualquier persona involucrada estará menos incentivada en ser honesta y priorizará proteger su puesto de trabajo.
El problema nunca es de un individuo. En otras palabras, si tu sistema puede fracasar debido a las acciones de un único individuo, tu sistema es frágil y está mal diseñado.
Durante un incidente, la prioridad es solucionar la situación, y no tanto buscar al culpable.
Tras un incidente, los informes y las investigaciones deben estar centradas en por qué los sistemas fallaron de esta manera, y por qué los sistemas secundarios, backups, mecanismos de control y protección no actuaron como es debido

Dicho en otras palabras: En un sistema robusto, se espera que las acciones potencialmente catastróficas de un único individuo están fuertemente controladas, auditadas y limitadas. En ingeniería de software podemos ver esto en aspectos como CI/CD y comprobaciones sobre el código fuente que se ejecutan y podrían impedir el lanzamiento de una nueva versión de software si no pasa la batería de pruebas.

Los sistemas complejos como los sistemas informáticos o las redes de electricidad pueden fallar de muchas formas diferentes. En la mayoría de los casos no existen manuales para tipos de fallos específicos, y desafortunadamente se tienen que desplegar soluciones tras fallos de un sistema que se llevan la vida de personas. Un ejemplo que muchos recordamos es el Titanic, que no tenía botes salvavidas para todos los ocupantes: Hoy en día, las normativas y regulaciones exigen que un barco pueda evacuar a todas las personas a bordo a través de sistemas de emergencia. Otras catástrofes como incendios o terremotos han brindado otro tipo de recomendaciones técnicas que también han ayudado a que en el futuro, los impactos del suceso sean menos graves.

Los documentos post-mortem

Otra gran responsabilidad de SREs es la elaboración de documentos técnicos llamados “post-mortem” que investigan, analizan, y explican las causas de fallos en un sistema, y además investigan, analizan y explican qué mecanismos se deben implementar para prevenir que se repita un suceso como este.

Todo depende de la electricidad

Este suceso también pone de manifiesto que hoy en día, en la sociedad moderna, la grandísima mayoría de actividades dependen de la electricidad. Algunos ejemplos

Los comercios que utilizan persianas con motores no pudieron cerrarlas al finalizar la jornada.
La red ferroviaria se detuvo completamente a nivel nacional ya que la mayoría de trenes utilizan propulsión eléctrica, y los pocos trenes que aún utilizan diésel dependen de señalización y sistemas de control eléctricos en las vías.
Edificios como rascacielos no tenían agua en los pisos más altos.
Las antenas de telefonía a menudo utilizan baterías y generadores, pero aquellas que no cuentan con sistemas redundantes dejaron incomunicados a municipios y ciudades enteras.

El dinero en efectivo y los coches de combustión interna

Algunos individuos se apresuraron a apuntar que el dinero en efectivo y los coches de combustión interna (gasolina, gasóleo) siempre funcionarían, sin reparar en asuntos como:

Los escáneres de los supermercados son electrónicos.
Las cajas registradoras utilizan electricidad.
Las bombas de gasóleo y gasolina en las gasolineras utilizan electricidad para proporcionar el combustible a la manguera.
Las puertas de los garajes a menudo utilizan motores para moverse.
Los semáforos funcionan con electricidad, por lo que se tuvo que desplegar a agentes de tráfico en calles muy concurridas.

¿Cuándo sabremos qué sucedió?

Esto es el documento “post-mortem” que comentaba antes. Un fallo eléctrico a nivel nacional (España y Portugal) es un asunto extremadamente delicado, y con gran visibilidad.

España tiene los suficientes expertos, ingenieros, científicos, y personal cualificado para investigar las causas, y analizar los hechos con una resolución de milisegundos.

Sin embargo, en un incidente de esta magnitud, es muy importante dejar a los profesionales trabajar, y darles el suficiente espacio y tiempo para determinar las causas reales del suceso. Durante la elaboración de un documento “post-mortem”, se discuten cientos de escenarios, hipótesis, y teorías. Estas situaciones se contrastan con datos reales recogidos durante el incidente, y se confirman o descartan con rigurosos principios científicos.

Es normal ser escéptico con respecto a las opiniones oficiales de los oficiales del gobierno, pero lo que no parece razonable es fiarse de tweets y publicaciones aleatorias de individuos que nada han tenido que ver con el incidente, o cuya autoridad no se puede determinar. Por lo tanto, hay que ejercer un buen criterio.

Es inaceptable que en España en 2025 sucedan estas cosas

Es una posición tentadora correr a decir que esta clase de incidentes no deben suceder. Y sin duda, el apagón de 2025 fue una situación sin precedentes.

No obstante, es muy importante tener en cuenta que nada es seguro. Los aviones, a pesar de ser el sistema de transporte más seguro con diferencia, pueden experimentar fallos durante el vuelo que pueden, en algunos casos, incluso acabar con el fallecimiento de decenas o cientos de pasajeros. Esto es terrible, y a pesar de que los aviones cuentan con múltiples sistemas redundantes, nunca existirá la fiabilidad al 100%. Todavía más impactante, quizá, es saber que la probabilidad de morir en un accidente de tráfico es significativamente más alta que en un accidente aéreo.

Naturalmente, el sistema de suministro de energía nacional es uno de los sistemas más críticos del país, pero que sea crítico no significa que sea completamente invulnerable.

Pedro Sánchez aseguró que no habría apagones

Algunos individuos sin escrúpulos, desafortunadamente, están corriendo bulos como por ejemplo que “Pedro Sánchez aseguró que no habría apagones” fuera de contexto.

Un ejemplo muy citado es el siguiente vídeo:

Si bien es cierto que en el vídeo Pedro Sánchez dice, efectivamente, que no habría apagones, este vídeo de 2022 tenía un contexto muy específico con respecto a la guerra de Ucrania y el corte de gas desde Rusia a Europa.

Pedro Sánchez indicaría en otras ocasiones cosas parecidas, pero es muy importante tener el contexto en cuenta. Sin duda, Pedro Sánchez no debería haber asegurado que no habría apagones, porque hacer afirmaciones en términos absolutos es muy peligroso. Pero decir que hay “un 99.99999999% de probabilidades de que España no sufra apagones” no suena políticamente sencillo de explicar a la ciudadanía.

En definitiva, no existe la seguridad absoluta. Aunque nuestras calles son seguras, siempre existe la posibilidad de que te atraquen. Aunque los aviones sean seguros, pueden colisionar y causar víctimas mortales. Aunque los ordenadores son fiables, puede haber fallos de corrupción de datos y brechas de seguridad.

El trabajo de un ingeniero es medir, y estimar estos peligros, y aplicar las medidas adecuadas para minimizar el riesgo lo máximo posible teniendo en cuenta la criticalidad del sistema, así como los recursos económicos de los que se dispone.

Nadie pensaba que España iba a sufrir un apagón generalizado, y muchos ahora podrían pensar que España es un país de segunda con mala infraestructura y baja fiabilidad. Sin embargo, si el trabajo de investigación se desarrolla como debe llevarse a cabo, se toman las medidas oportunas, y se implementan recomendaciones de la Unión Europea, esto hará el sistema eléctrico español más fiable. Esta catástrofe energética nos brinda la posibilidad de hacer un buen documento post-mortem y mejorar la fiabilidad de los sistemas eléctricos españoles, e incluso los sistemas del resto de la Unión Europea.

Quiero también recalcar el gran trabajo de profesionales españoles. Técnicos de centrales de generación, ingenieros civiles, y otros profesionales de la electricidad y los sistemas eléctricos. El sistema de electricidad español se recuperó al 100% en menos de 12 horas. En 2021, Texas sufrió un apagón de magnitud similar y Texas tardó más de dos semanas en recuperar el servicio eléctrico completo.

¿Qué es Site Reliability Engineering?

Si has leído esto hasta el final, quizá te interesa saber qué es SRE.

SRE empezó con una iniciativa de Google. Los sistemas informáticos de Google llegaban a ser tan complejos, y necesitaban tan alto nivel de servicio que Google decidió introducir el título de SRE.

Un Site Reliability Engineer generalmente tiene un fuerte conocimiento de programación, y utiliza esta experiencia para la gestión de sistemas informáticos en masa.

Hasta muy recientemente, existían dos grandes clases distinguidas de ingeniero experto en sistemas: ingeniero de software (software engineer), y administrador de sistemas (system administration). En entornos corporativos grandes también podría haber clasificaciones como ingeniero de redes, ingeniero de sistemas, arquitectos de sistemas y demás, que son especializaciones más específicas.

Site Reliability Engineering pretende unir las capacidades lógicas y de programación de un ingeniero de software y la capacidad de pensar a gran escala y con un foco en la seguridad de un administrador de sistemas.

Donde hace 15 años se iniciaba sesión en sistemas a través de consolas remotas, y se aplicaban cambios manuales, hoy en día los SRE efectúan cambios a través de programas y código. Los SRE también son responsables de observabilidad (observability) y a menudo hacen recomendaciones de diseño e infraestructura.