Hlavní navigace

Co způsobilo včerejší výpadek datacentra TTC? Zde je podrobný popis

Sdílet

Jan Sedlák 3. 4. 2020

Datové centrum DC1 společnosti TTC Teleport mělo včera výpadek, nešlo napájení. Šlo o kombinaci lidských chyb a technických závad. TTC dnes vydalo podrobnější popis toho, co přesně se stalo. Přikládáme níže.

Výpadek napájení části datového sálu 1 datacentra TTC TELEPORT DC1 střídavým proudem dne 2. dubna 2020 v odpoledních hodinách byl způsoben sérií lidských a technických chyb.

V závěru projektu Náhrada zastaralých UPS (rozvodna 1), ke kterému jsme se rozhodli v prosinci minulého roku na základě technického zastarání a zvyšující se poruchovosti původních UPS Silcon (instalace v 2001), zbývalo již jen zapnout novou UPS a odstavit zastaralé UPS zdroje.

Díky předběžným krokům, o jejichž provádění jsme zákazníky v předstihu informovali emailem 18. února 2020, byl před stávající rozvaděč bypassu UPS (SBP) připojen nový rozvaděč UPS (RSBP) a nový zdroj zálohovaného napájení mohl být připojen bez ztráty napájení zařízení zákazníků.

V závěru instalace jsme však ze spěchu, obavy z výpadku starých UPS a omezeném režimu díky COVID-19 opomněli o finálních pracích v dostatečném předstihu zákazníky informovat. Patrně by však tento krok nezabránil technickým závadám, ale přinejmenším by byla u zákazníků přítomna informace o riziku výpadku. Zde vidíme naše selhání a chybu, za kterou se omlouváme a plně si uvědomujeme, že k tomuto selhání nemělo na naší straně dojít. Jsme tímto dostatečně poučeni pro příště.

Je nutné dodat, že přepínání UPS mezi bypassem a provozem v dvojité konverzi je ve standardním provozu datového centra běžné a u datacentrových UPS se jedná o naprosto spolehlivou činnost. I proto jsme informování zákazníků podcenili a opomněli je o finální fázi projektu informovat.

Proč se přistoupilo k projektu Náhrada zastaralých UPS

S ohledem na stáří instalovaných zařízení 5× Silcon DP380E (rok výroby 2001) pracujících v paralelním redundantním režimu a díky nedávnému výpadku jedné z těchto UPS hrozilo velké riziko, že tyto staré UPS, pracující v paralelním provozu, se mohou zcela nečekaně všechny samovolně porouchat a způsobit tak nekontrolovatelný, dlouhodobý výpadek napájení.

Proto jsme během včerejšího dne novou UPS připojili k síti a po ověření funkčnosti bez zátěže přepnuli do provozu se zatížením – před UPSky Silcon. Po ověření stability parametrů v zátěži, a po závěrečné konfiguraci nové UPS jsme, z obavy z nečekaného výpadku starých UPS, staré UPS Silcon odstavili.

K vybavení nesprávně nastavené ochrany jističe mezi novou UPS a zátěží došlo až několik desítek minut po provedení manipulace odstavení poslední UPS Silcon. K výpadku napájení tedy došlo asi po hodině stabilního provozu nové UPS.

Servisním partnerem byla příčina odhalena a náprava provedena ihned po prvním výpadku. Nebylo však technicky možné celou zátěž zapnout znovu v jeden okamžik, jelikož by jistič vybavil znovu z důvodu proudového rázu nabíjení kapacit ve zdrojích zálohovaných zařízení. Přistoupili jsme tedy k vypnutí pojistkových odpojovačů pro jednotlivé řadové rozvaděče, zapnutí již správně nastaveného jističe a postupného znovu zapnutí jednotlivých vývodů pro řadové rozvaděče.

Při připínání jednoho z posledních pojistkových odpojovačů zálohovaného vývodu, však došlo díky jeho mechanické závadě ke zkratu v tomto odpojovači (mechanická závada tohoto prvku), nastalo vybavení nadřazeného jističe a tím k druhému výpadku napájení.

Postup najetí zálohovaných vývodů se tedy musel opakovat – neprodleně jsme zahájili toto postupné znovuzapínání. Havarovaný odpojovač zůstal nepřipojen a napájení poškozeného vývodu bylo provedeno náhradní napájecí cestou, přes jiný pojistkový odpojovač shodných technických parametrů. Od tohoto okamžiku již běží systém trvale pod zálohovaným napětím s novou UPS.

Po zapnutí jednotlivých řadových rozvaděčů jsme pomáhali zákazníkům s napájením pro jednotlivé racky a s postupným zapínáním přetížených jističů.

Až po odstranění všech závad u všech zákazníků, kteří se nám ozvali, jsme mohli začít oživovat internetovou konektivitu pro web ttc-teleport.cz. Výpadek postihl i jeden z našich switchů (po výpadku odmítal nabootovat). Konfigurace a přepojení náhrady nám zabrala nějaký čas a web ttc-teleport.cz se rozběhl až ve večerních hodinách. 

O výpadku jsme informovali operativně přes sociální sítě i během výpadku našeho webu tak, aby klienti i veřejnost dostali první informace.

Sumarizace chyb:

  • lidská chyba na straně TTC, kdy nedošlo k informování klientů o konečných pracích na projektu Náhrada zastaralých UPS
  • lidská chyba na straně dodavatele zařízení pro projekt Náhrada zastaralých UPS, kdy nedošlo k ověření správnosti nastavení jistící ochrany v nově dodávaném prvku výstupního jištění UPS = první výpadek
  • technická/mechanická závada starého odpojovače, která se projevila až při manipulaci v rozvaděči a manuálním připojení zátěže = druhý výpadek

Opatření proti opakování chyb:

  • poučení se, že drobné opomenutí kontroly nastavení jistících prvků může vést ke kritické chybě provozu datacentra. Nastaveno organizační opatření ve smyslu detailnější kontroly jednotlivých dodavatelských prací.
  • Ošetřit zdroje mechanicko-technických závad lze testováním při periodické revizi elektrorozvodů. Aktuálně na požadavek klientů není prováděna revize při bezproudí. Při další revizi bude požadavek TTC na revizi s bezproudím, a bude tak provedena i mechanická kontrola všech jistících prvků.

Závěrem je nutné dodat, že napájení části datového sálu 1 v TTC DC1 bylo v roce 2001 postaveno v režimu TIER 2. Napájení mnoha racků v sále 1 je tedy zapojeno pouze přes jediný prvek. Ten za normální situace (pokud je správně nastavený) může vybavit pouze za předpokladu zkratu následujícího pojistkového odpojovače pro jeden z distribučních rozvaděčů. Původní UPS byly zapojené v paralelním režimu v počtu 5 kusů a jejich stáří už dlouhodobý spolehlivý provoz vylučovalo. Nová UPS je moderní modulární distribuovaná paralelní architektura. 

Část racků umístěných v datovém sále 1 v TTC TELEPORT DC1 je napájena z jiné rozvodny. Tyto racky, stejně tak jako racky napájené stejnosměrným napětím DC 48V, nebyly včerejším výpadkem zasaženy.

Detaily s výkladem všech přesných stavů a postupů během výpadku rádi zodpovíme osobně.

TTC TELEPORT nabízí ve svém datovém centru TTC TELEPORT DC2 napájení v režimu TIER 3 postaveném a provozovaném podle projektu certifikovaného organizací Uptime Institute. V režimu TIER 3 je každý rack napájen dvěma nezávislými cestami a riziko ztráty napájení je tedy minimalizováno.

Našli jste v článku chybu?
  • Aktualita je stará, nové názory již nelze přidávat.