Il caso

Facebook, shutdown avvenuto durante una manutenzione ordinaria

La causa sarebbe un guasto al sistema informatico che gestisce la «spina dorsale» del social network - La prima disconnessione ne avrebbe create altre a catena, rendendo la situazione particolarmente critica, secondo quanto riporta Santosh Janardhan, vice presidente del gruppo
©DPA/Karl-Josef Hildenbrand
Ats
06.10.2021 11:12

Un guasto al sistema informatico che gestisce la «spina dorsale» di Facebook. Questa sarebbe la causa del blackout che ha messo fuori uso, per oltre 7 ore, il social network e tutti i servizi ad esso connessi, compresi Instagram e WhatsApp.

Lo spiega, in un post sul blog ufficiale degli ingegneri di Facebook, Santosh Janardhan, vice presidente del gruppo. «Il traffico dati tra tutte le strutture informatiche di Facebook è gestito da router, che determinano dove indirizzare i dati in entrata e in uscita. Nell’ampio lavoro quotidiano di manutenzione, i nostri ingegneri hanno spesso bisogno di mettere offline parte della dorsale, ad esempio quando riparano una linea in fibra, devono aggiungere capacità di banda o aggiornare il software dei router». Durante una delle attività di gestione, è stato emesso un comando per valutare la tenuta della ‘spina dorsale’ del colosso. Un errore nel sistema, un bug, ha impedito di ripristinare immediatamente i data center di Facebook a livello globale, lasciandoli offline.

Come sottolinea Santosh Janardhan, la prima disconnessione ne ha create altre a catena, il che ha reso la situazione particolarmente critica. «Tutto è successo molto velocemente - continua - e mentre i nostri ingegneri lavoravano per capire cosa stava succedendo, hanno dovuto affrontare l’impossibilità di accedere ai data center con i normali mezzi, perché le reti non funzionavano, e l’indisponibilità degli strumenti che usiamo normalmente per indagare i blackout». Facebook è preparata a scenari critici del genere grazie alle esercitazioni ‘tempesta’, che simulano un grave guasto del sistema, mettendo offline un servizio, un data center o un’intera regione. «Da qui in poi, il nostro compito è rafforzare i nostri test, esercitazioni e resilienza generale, per assicurarci che eventi come questo accadano il più raramente possibile».