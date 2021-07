Jak jsme na Lupě psali, tornádo na jižní Moravě minulý týden postihlo také datové centrum společnosti DataSpring spadající do IT holdingu Aricoma (AutoCont, Cleverlance, Cloud4com nebo AEC), respektive finanční skupiny KKCG.

Přírodní katastrofa poničila plášť budovy v Lužicích včetně kancelářských prostor. Datový sál situaci ustál, i když nějakou dobu objekt jel v krizovém režimu. Nyní se chod vrací do běžného režimu.

“Vše šlo tak rychle, že pracovník datacentra, který byl v tu chvíli na místě, stihl jen utéct do strojovny,” popisuje DataSpring pro Lupu.

“Datacentrum spustilo aktivaci krizového plánu. Oblast byla složitě přístupná, v areálu bylo obrovské množství trosek. Přímý zásah tornáda zřejmě poškodil motorgenerátory a datové centrum se v první hodině muselo spolehnout jen na UPS. Motorgenerátory se podařilo včas zprovoznit, problémy ale pokračovaly i s turbokompresory pro chlazení,” popisuje společnost dále. “Omezené zdroje umožnily datacentru v základu chladit, nic dalšího ale v tu chvíli nebylo možné aktivně spouštět.”

“Ve čtvrtek o půlnoci uzavřela policie obce v oblasti, a to znamenalo další komplikace, na příjezdu bylo třeba se prokazovat složkám integrovaného záchranného systému dokumenty potvrzenými vedením společnosti. V noci se přesto podařilo zprovoznit turbokompresor chlazení a provoz datacentra ožil, nad ránem byli zákazníci informováni, že mohou začít spouštět kritické systémy.”

“Od pátečního rána se též pracovalo na dalších opravách turbokompresorů. Situaci zkomplikoval výpadek jednoho motorgenerátoru a byl též nahlášen i další incident – možný pád datové linky. Klidu dodalo to, že pro datovou konektivitu byly k dispozici linky dvě. Dopoledne je opraven další turbokompresor a chlazení.”

“Během zbytku dne se podařilo opravit poškozený motorgenerátor a převést provoz na něj. To už běžely naprosto všechny, i nekritické, systémy.”

“Další den nad ránem vypadla jedna z linek datové konektivity, ale žádný problém, šlo o očekávanou věc a provoz běžel na druhé lince, opraveno bylo během dvou hodin. Neděle už byla v poklidu, probíhal rutinní monitoring, opětovný přechod na jiný motorgenerátor a plánování dojezdu cisterny s naftou, elektrické napájení v lokalitě jen tak brzy stabilní nebude.”

DataSpring má certifikaci TIER III. Pro případ výpadku dodávky energie ze sítě jsou k dispozici dva záložní motorgenerátory se zásobou paliva na 48 hodin. To umožňuje nepřetržitý chod i bez externího zdroje elektrického napájení. Pro přechod na motorgenerátory jsou obě napájecí větve zálohovány také modulárními UPS, které provoz podrží minimálně hodinu. Stejná úroveň zabezpečení se týká i způsobu chlazení, kdy jsou k dispozici tři turbokompresorové jednotky v režimu N+1.

DataSpring shrnul vývoj po tornádu a základní obhlídce takto:

Podkladem pro další aktivity se stává zpracovaný BCP. Ten v tuto chvíli rozhodně nikdo aktivovat nechce, sál běží a má konektivitu. Ale obsahuje seznam kritických systémů a VM i s vazbami, který je až na výjimky aktuální, včetně zákaznických VM. A ten se stává základem pro náš další postup. Vše, co není nezbytně nutné, musí dolů. Zároveň obvoláváme zákazníky a domlouváme s nimi vypínání nekritických VM a hostovaných technologií. Sál datového centra tak postupně vklouzává do podobného režimu, jako když medvěd usíná zimním spánkem. Nakonec běží jen ty naprosto vitální systémy. Hibernace, ačkoliv obvykle tak říkáme v IT trošku něčemu jinému.

Paralelně s omezováním spotřeby lužického datového centra probíhá ověřování DR procesu v záložním datovém centru, kontrola DR síťového prostředí a další přípravné práce. Pro případ, že by nakonec přeci jen došlo na nejhorší. A protože tak nějak tušíme, že půjde o běh na dlouhou trať, vzniká i rámcový rozpis služeb až do neděle.

Mezitím v Lužicích pokračují další práce na záchraně datového centra. Už jsme odklidili “naváté” plechy a všudypřítomnou skelnou vatu od motorgenerátorů a pokoušíme se je zprovoznit. Zatím úplně nevíme, proč nezabral automatický start, který jinak pravidelně testujeme. Faktem ale je, že kontroléry obou motorgenerátorů jsou v chybovém stavu a odmítají spolupracovat. Nakonec se je podaří přesvědčit a zrovna když přestává pršet, oba motorgenerátory nabíhají. Utekli jsme hrobníkovi z lopaty, UPS v okamžiku startu generátorů hlásily poslední minuty do vybití. Hibernace datového centra zabrala, UPS udržely sál v běhu neuvěřitelných 90 minut.

Vzápětí po obnovení napájení se probouzí vzduchotechnika. Primární chlazení je ale mrtvé, stejně tak je v poruše i jedna z UPS. Vzduchotechniku normálně používáme pro dochlazování teplých uliček, teď to ale musí stačit pro celý sál. Po ověření, že to sál opravdu zvládá, startujeme další důležité systémy a VM. Mezitím do Lužic vyrážejí technici, kteří se starají o technologické zázemí. Ověřujeme stav datacentra, máme naftu na 38 hodin, teplota sálu drží. Pro jistotu na ráno objednáváme cisternu pro doplnění nádrží motorgenerátorů.

Chvíli před půlnocí přijíždí do areálu datového centra Tomáš (technik). Cesta přes okolní vesnice nebyla vůbec jednoduchá, množství silnic je zcela neprůjezdných. Stihl to na poslední chvíli, pár minut poté policie celou oblast pro civilní vozidla uzavírá. Další specialisté už určitě takové štěstí mít nebudou, začínáme jim tedy už za cesty vyřizovat potřebné dokumenty pro průjezd přes stanoviště integrovaného záchranného systému.

V krátké době po Tomášově příjezdu začínáme s pokusy oživit chlazení sálu. Suché chladiče na střeše budovy schytaly pár přímých zásahů a vytekla z nich chladicí kapalina. Pokoušíme se tedy identifikovat děravá místa doplňováním chladiva, ale teče to prostě všude. Až po rozpojení všech okruhů zjišťujeme, že jedna jednotka je nepoškozená. Primární chlazení se okolo půl třetí rán rozbíhá a nás se začíná zmocňovat mírný optimismus.

Přibližně ve stejné době, kdy nabíhá chlazení, přijíždějí další technici. Zprovozňují odstavenou UPS a provádějí revizi dvou nefunkčních suchých chladičů. Zjišťují, že jedna jednotka je zřejmě na odpis, druhá má ale pouze jednu díru. Objednáváme proto servisní zásah, máme přislíben termín na páteční dopoledne.

Po páté hodině ranní nám pozitivní trend nepokazí ani to, že jeden z motorgenerátorů umírá, selhalo chlazení. Závada vypadá poměrně jednoduše, technici začínají shánět náhradní součástku. A pozitivní je, že funkční suchý chladič drží tlak, takže jeho okruh je zřejmě v pořádku.

Okolo osmé hodiny dostáváme informaci o stavu jiných okruhů – těch datových. Jedna linka je závislá na technologiích v zasažené oblasti a běží na záložní napájení, je tedy poměrně vysoké riziko, že ji poskytovatel neudrží. Druhá linka je ale stabilní, jsme v relativním bezpečí.

Rozhodujeme se tedy, že zahájíme spouštění dosud vypnutých redundantních prvků našich systémů. Povolujeme také start dalších důležitých zákaznických VM s varováním, že může dojít k opětovnému omezení provozu. Obě UPS už jsou ale téměř plně nabité, takže víme, že bychom případně měli minimálně hodinu na kontrolovaný shutdown.

V dopoledních hodinách přijíždí servis na děravý suchý chladič. Oprava je úspěšná a před jedenáctou hodinou máme redundantní chlazení. Chvíli poté dorazí cisterna Čepra s naftou pro motorgenerátory. Když za půl hodiny zase odjíždí, máme v každém z nich 3000 l nafty, což nám stačí na celkem 92 hodin provozu.

Mezitím se v okolí rychle rozkřikne, že jsme v obci jediná budova s elektrikou a začínají se k nám trousit zájemci o nabití mobilů. Což je fajn, jsme rádi, když můžeme pomoct. Okolo poledne zjišťujeme, že se tornádo slitovalo nad naším kávovarem a zřizujeme polní kavárnu na terase. Kdybychom měli dveře, určitě by se netrhly. Chvíli po obědě přichází policejní hlídka, jestli něco nepotřebujeme. Ani oni neodmítají pohoštění v provizorních podmínkách. Na všech je vidět obrovská úleva, že si mohou na chvíli oddechnout, vychutnat si teplou kávu a aspoň na pár okamžiků zapomenout na aktuální strasti.

Oprava vadného motorgenerátoru se nakonec protahuje až do večera, hlavní ale je, že se to podařilo. V pátek v půl sedmé večer probíhají jeho poslední testy a ve třičtvrtě už tahá celé datové centrum. Startujeme zbylé systémy a povolujeme spouštění všech zákaznických VM. V celé firmě propuká nezřízené veselí.

Necelých 24 hodin od živelní pohromy jsme v plném provozu. Oba elektrické přípoje jsou tedy zatím bez napětí, ale to se pravděpodobně ještě pěkných pár dní nezmění a nic s tím nenaděláme. Do firmy začíná chodit obrovské množství gratulací od zákazníků. Tolik podpory jsme fakt nečekali a jsme z toho hodně naměkko.

V sobotu v půl osmé sice skutečně dochází v souladu s předchozím varováním k výpadku jedné z linek, ale provoz spolehlivě zvládne linka druhá a v deset hodin jsme už opět plně redundantní i v oblasti konektivity.

Skutečný problém ale nastává až v neděli. Ráno chvíli po osmé přepínáme z opravovaného motorgenerátoru na ten, který nás podržel v nejtěžších chvílích po přírodní katastrofě, až do pátečního večera. Jenže už toho má zřejmě chudák dost a chvíli po půl páté odpoledne to vzdává. Vracíme se zpět na opravovaný motorgenerátor a na místo neprodleně vyráží technici. Myslíme i na doplnění nafty. V mezičase probíhají provizorní opravy vnějšího pláště budovy a nejnutnější úpravy interiéru.

V jedenáct hodin v noci, z neděle na pondělí zjišťujeme, že tentokrát to nebude tak jednoduché. Chlazení poškozeného motorgenerátoru zjevně něco nasálo a výsledkem je pořádná paseka. Neprodleně začínáme shánět záložní motorgenerátor, nakonec pro jistotu objednáváme rovnou dva a hodinu po půlnoci jsou již oba na cestě do Lužic. Krátce po deváté ráno v pondělí je už vše zapojeno, máme tři funkční generátory, přičemž každý by měl být schopen utáhnout celé datové centrum. Odpoledne dokončujeme provizorní opravy pláště budovy, je to v suchu.

Že ani tohle není tak úplně závěr. Aktuálně řešíme rekonstrukci elektroměrů a probíhají testy VN kabelů, ale datum obnovy přípojek nám zatím nikdo nechce sdělit. Z nejhoršího jsme ale už snad venku.

Poučení na závěr od nás teď ještě taky nečekejte, ačkoliv pokud jste to dočetli až sem, určitě byste si ho zasloužili. Technologicky jsme byli zřejmě připraveni dobře, jinak bychom teď psali spíše post-mortem. V oblasti zákaznických systémů máme díky proběhlým událostem vytipovaných pár adeptů, u nichž budeme doporučovat, nahradit lokální clustering geografickým. Taky máme pár docela dobrých tipů, jak stávající technologie DC lépe ochránit.

Zajímavou stránkou věci je také odborné hledisko. Minimálně v Evropě jde o unikátní událost, jediné datacentrum, které kdy přežilo tornádo bez neřízeného výpadku. A protože se průmysl vždy snaží z takových událostí poučit, už nyní se na nás sypou dotazy ohledně nabraných zkušeností. I proto doufáme, že toto není naše poslední slovo.