Hlavní navigace

Stále ignorované hrozby českých datových center v roce 2017

Konec roku 2016 a začátek roku 2017 sebou přinesl několik výpadků datacenter. Připravili jsme pro Vás přehled typických a bohužel stále ignorovaných hrozeb provozu datových center v České republice.

Doba čtení: 5 minut

Lokalita

Když jsem v roce 2013 psal podobný článek na E15, ani by mě nenapadlo, že zaplavení datacentra z důvodu nevhodné lokality, které jsem uváděl jako reálnou hrozbu, se jen pár měsíců na to stane v jednom pražském datacentru. Nutno podotknout, že riziko provozu datacentra ve staré výškové budově v podobě možnosti zaplavení při havárii inženýrských sítí je stále reálné a neeliminují ho ani „stříšky“ v datovém sále. Bohužel špatně zvolená lokalita je stále často ignorovanou hrozbou, která se následně v reálném provozu jen těžko řeší.

Napájení

Většina výpadků datacenter však bylo způsobeno výpadkem napájení, zejména poruchou na systému UPS. Vždy, když se toto stane, je z toho patrné, že dané datacentrum není realizováno ani dle požadavků TIER III, který vyžaduje mít 2 nezávislé napájecí větve. Mnoho provozovatelů datových center si bohužel neuvědomuje, že na spolehlivosti UPS stojí spolehlivost celého datacentra. Když už mají 2 nezávislé UPS, často jsou jednotlivé UPS vytíženy na více než 50%, z čehož vyplývá, že při poruše jedné UPS dojde u druhé UPS k přetížení. Dalším častým prohřeškem bývá 1 bateriový string na UPS. Baterie jsou ve stringu zapojeny v sérii a je možné, že některá baterie bude mít poruchu, například vysoký vnitřní odpor a funkce UPS, jako hlavního záložního prvku datacentra, je tak narušena, což se často zjistí až při skutečném výpadku napájení z veřejné sítě. Baterie čas od času odchází, na což se většinou přijde při pravidelné revizi UPS, která by se měla minimálně 1× ročně provádět v každém datacentru. Zatím jsem v ČR neviděl datacentrum s monitoringem každé jednotlivé baterie, byť takovou technologii výrobci UPS často nabízí, systém UPS však výrazně prodražují. Již jsem se také setkal s datacentrem, které pro 2 „nezávislé UPS“ sdílelo jednu sadu baterií. Za spolehlivý systém UPS lze považovat 2 nezávislé systémy (v případě modulární UPS nejlépe navíc každá UPS s redundancí minimálně N+1), přičemž každý systém UPS by měl disponovat vlastní sadou baterií a ideálně více než 1 string na každou UPS. UPS musí být rovněž výkonnostně dostatečně naddimenzovaná pro případ poruchy UPS na druhé nezávislé větvi. V datovém centru by se v nejlepším případě neměla nacházet žádná jednozdrojová zařízení. Taková zařízení je pak nutné vybavit STS (static switchem) zajišťujícím plynulé přepnutí mezi napájecími větvemi při havárii jedné celé větve bez vlivu na běh zařízení.

Hodně opomíjenou vlastností datacenter je pořádný projekt. Často datacentra vznikají „na koleni“ a rozšířují se až dle aktuálních potřeb klientů bez řádného projektu. U takových datacenter pak hrozí reálné riziko, že v kritickém případě nezafunguje správně selektivita či nejsou správně spočítané zkratové proudy jistících prvků. Může se tak například stát, že prostá porucha zdroje v serveru vedoucí ke zkratu způsobí  až na výstupu z UPS a dojde tak ke kompletnímu výpadku celé větve. V kombinaci s nedostatky z pohledu UPS popsaných výše může tak snadno dojít k výpadku celého datacentra. Výpočet selektivity považuji za jednu z nejdůležitějších částí každého energo projektu datacentra.

Zásobování naftou

V únoru postihla VVN rozvodnu na Chodově v Praze porucha vedoucí k cca 30 minutovému výpadu napájení velké části Prahy. Mnoho provozovatelů datacenter se na twitteru či facebooku chlubilo tím, jak bravurně zvládlo pomocí generátoru zazálohovat napájení datacentra. Nechávám stranou, že jde o naprosto běžnou situaci, se kterou si datacentrum musí umět poradit naprosto automaticky a netřeba z toho dělat mimořádnou situaci. Tato událost ale ukázala na dvě jiná témata. Jedním z nich je reálné napájení z více VVN rozvoden v Praze, kterým se několik datacenter chlubí. Realita je ovšem taková, že i tato datacentra, chlubící se nezávislým přívodem VN, startovalo generátory, tudíž realita s existencí nezávislých VN přívodů ze dvou VVN rozvoden je minimálně diskutabilní. Druhým tématem je realita stavu zásob nafty. 30 minutový výpadek jistě žádnému standardnímu datacentru nečiní problém. Jaká by však byla situace při výpadku, který by trval 6, 12, 24 hodin nebo déle? Mnoho datacenter nemá žádným způsobem vyřešeno naftové hospodářství s dostatečnou rezervou paliva. Řada datacenter má generátory umístěny včetně nádrží na střeše s obtížnou možností doplňování paliva. Skutečný stav je pak takový, že v případě výpadku elektřiny nefungují ani okolní čerpací stanice a má-li někdo sjednané smluvní zavážený nafty je otázkou, zda se na takovou službu, v případě delšího blackoutu, lze spolehnout.

Riziko výpadku chlazení

Nedostatečně řešené chlazení považuji za druhý nejčastější důvod výpadku datacenter. Nebudu rozebírat rozdílnost a spolehlivost jednotlivých technologií. Zaměřím se na reálnou míru redundance a riziko nedostatku takové míry zálohy chlazení. Většina datacenter uvádí, že disponují redundancí na úrovní chlazení N+1, to znamená, že si datové centrum bez vlivu na provoz může dovolit výpadek 1 chladící jednotky. Je to ale opravdu dostatečné? V případě, že se jedná například o přímý výpar, tedy nejčastěji použitou chladící technologii datacenter, každá porucha na chladícím okruhu znamená odstávku jednotky i na několik dní. Znamená to odsát chladivo, provést opravu, vakuovat okruh (několik hodin), doplnit chladivo, zprovoznit jednotku. Klimatizační jednotky tvoří nejporuchovější části datacentra, protože mají spoustu mechanických částí (motory, elektronicky řízené ventily, ventilátory apod.) a jsou trvale v chodu. Riziko souběhu poruch tak existuje a v případě N+1 redundance může jít o kritickou situaci, která způsobí výpadek datacentra. Často provozovatelé datacenter opomíjejí druhou důležitou veličinu týkající se chlazení. Kromě chladícího výkonu je nutné řešit objem vzduchu. Trend výrobců serverů je v dnešní době takový, že na stále se snižující příkon serveru připadá stále stejný průtok vzduchu serverem. Může se tak stát, že chladící jednotky mají sice rezervu ve výkonu, nemusí však stačit objem vzduchu, což se může při poruše jednotky projevit velice rychle formou podtlaku ve studené uličce a přehříváním serverů.

Datacentrum ServerPark po 2 letech

Všechna výše uvedená rizika jsme se pokusili naprosto eliminovat při stavbě našeho datového centra ServerPark. ServerPark je postaven v průmyslové oblasti Praha – Hostivař (v těsném sousedství se staví nové datacentrum T-mobile) bez jakéhokoliv rizika (nehrozí riziko záplav, objekt je umístěn ve vzdálenosti několika kilometrů od nejblizších továren a jiných rizikových míst apod). Jen hledání pozemku jsme věnovali téměř 2 roky. ServerPark je postaven podle nejpřísnějších provozních a bezpečnostních standardů a vyhovuje všem klíčovým technickým požadavkům TIER IV (mj. provozuje veškerou klíčovou infrastrukturu datacentra v režimu 2N+1). Na projektu datacentra ServerPark se podíleli projektanti s certifikací Accredited Tier Designer (certifikováni od roku 2010).

ServerPark má za sebou téměř 2 roky úspěšného provozu a v současné době je zaplněn z 2/3 své kapacity a zaplněnost každým dnem roste. ServerPark disponuje 3 vlastními nezávislými optickými přípojkami a dále zde mají dobudované své trasy společnosti T-mobile, Dial Telecom, UPC a další. ServerPark také odolal jednomu násilnému pokusu o vniknutí (samozřejmě neúspěšnému). ServerPark je jedno z mála datacenter v ČR, které je připraveno na katastrofy typu několikadenní blackout či souběh několika poruch bez vlivu na provoz datacentra.

Více informací:

www.vshosting.cz

www.serverpark.cz

Damir Špoljarič

VSHosting