Hlavní navigace

Co způsobilo včerejší výpadek datacentra TTC? Zde je podrobný popis

Sdílet

Jan Sedlák 3. 4. 2020
TTC Teleport

Datové centrum DC1 společnosti TTC Teleport mělo včera výpadek, nešlo napájení. Šlo o kombinaci lidských chyb a technických závad. TTC dnes vydalo podrobnější popis toho, co přesně se stalo. Přikládáme níže.

Výpadek napájení části datového sálu 1 datacentra TTC TELEPORT DC1 střídavým proudem dne 2. dubna 2020 v odpoledních hodinách byl způsoben sérií lidských a technických chyb.

V závěru projektu Náhrada zastaralých UPS (rozvodna 1), ke kterému jsme se rozhodli v prosinci minulého roku na základě technického zastarání a zvyšující se poruchovosti původních UPS Silcon (instalace v 2001), zbývalo již jen zapnout novou UPS a odstavit zastaralé UPS zdroje.

Díky předběžným krokům, o jejichž provádění jsme zákazníky v předstihu informovali emailem 18. února 2020, byl před stávající rozvaděč bypassu UPS (SBP) připojen nový rozvaděč UPS (RSBP) a nový zdroj zálohovaného napájení mohl být připojen bez ztráty napájení zařízení zákazníků.

V závěru instalace jsme však ze spěchu, obavy z výpadku starých UPS a omezeném režimu díky COVID-19 opomněli o finálních pracích v dostatečném předstihu zákazníky informovat. Patrně by však tento krok nezabránil technickým závadám, ale přinejmenším by byla u zákazníků přítomna informace o riziku výpadku. Zde vidíme naše selhání a chybu, za kterou se omlouváme a plně si uvědomujeme, že k tomuto selhání nemělo na naší straně dojít. Jsme tímto dostatečně poučeni pro příště.

Je nutné dodat, že přepínání UPS mezi bypassem a provozem v dvojité konverzi je ve standardním provozu datového centra běžné a u datacentrových UPS se jedná o naprosto spolehlivou činnost. I proto jsme informování zákazníků podcenili a opomněli je o finální fázi projektu informovat.

Proč se přistoupilo k projektu Náhrada zastaralých UPS

S ohledem na stáří instalovaných zařízení 5× Silcon DP380E (rok výroby 2001) pracujících v paralelním redundantním režimu a díky nedávnému výpadku jedné z těchto UPS hrozilo velké riziko, že tyto staré UPS, pracující v paralelním provozu, se mohou zcela nečekaně všechny samovolně porouchat a způsobit tak nekontrolovatelný, dlouhodobý výpadek napájení.

Proto jsme během včerejšího dne novou UPS připojili k síti a po ověření funkčnosti bez zátěže přepnuli do provozu se zatížením – před UPSky Silcon. Po ověření stability parametrů v zátěži, a po závěrečné konfiguraci nové UPS jsme, z obavy z nečekaného výpadku starých UPS, staré UPS Silcon odstavili.

K vybavení nesprávně nastavené ochrany jističe mezi novou UPS a zátěží došlo až několik desítek minut po provedení manipulace odstavení poslední UPS Silcon. K výpadku napájení tedy došlo asi po hodině stabilního provozu nové UPS.

Servisním partnerem byla příčina odhalena a náprava provedena ihned po prvním výpadku. Nebylo však technicky možné celou zátěž zapnout znovu v jeden okamžik, jelikož by jistič vybavil znovu z důvodu proudového rázu nabíjení kapacit ve zdrojích zálohovaných zařízení. Přistoupili jsme tedy k vypnutí pojistkových odpojovačů pro jednotlivé řadové rozvaděče, zapnutí již správně nastaveného jističe a postupného znovu zapnutí jednotlivých vývodů pro řadové rozvaděče.

Při připínání jednoho z posledních pojistkových odpojovačů zálohovaného vývodu, však došlo díky jeho mechanické závadě ke zkratu v tomto odpojovači (mechanická závada tohoto prvku), nastalo vybavení nadřazeného jističe a tím k druhému výpadku napájení.

Postup najetí zálohovaných vývodů se tedy musel opakovat – neprodleně jsme zahájili toto postupné znovuzapínání. Havarovaný odpojovač zůstal nepřipojen a napájení poškozeného vývodu bylo provedeno náhradní napájecí cestou, přes jiný pojistkový odpojovač shodných technických parametrů. Od tohoto okamžiku již běží systém trvale pod zálohovaným napětím s novou UPS.

Po zapnutí jednotlivých řadových rozvaděčů jsme pomáhali zákazníkům s napájením pro jednotlivé racky a s postupným zapínáním přetížených jističů.

Až po odstranění všech závad u všech zákazníků, kteří se nám ozvali, jsme mohli začít oživovat internetovou konektivitu pro web ttc-teleport.cz. Výpadek postihl i jeden z našich switchů (po výpadku odmítal nabootovat). Konfigurace a přepojení náhrady nám zabrala nějaký čas a web ttc-teleport.cz se rozběhl až ve večerních hodinách. 

O výpadku jsme informovali operativně přes sociální sítě i během výpadku našeho webu tak, aby klienti i veřejnost dostali první informace.

Sumarizace chyb:

  • lidská chyba na straně TTC, kdy nedošlo k informování klientů o konečných pracích na projektu Náhrada zastaralých UPS
  • lidská chyba na straně dodavatele zařízení pro projekt Náhrada zastaralých UPS, kdy nedošlo k ověření správnosti nastavení jistící ochrany v nově dodávaném prvku výstupního jištění UPS = první výpadek
  • technická/mechanická závada starého odpojovače, která se projevila až při manipulaci v rozvaděči a manuálním připojení zátěže = druhý výpadek

Opatření proti opakování chyb:

  • poučení se, že drobné opomenutí kontroly nastavení jistících prvků může vést ke kritické chybě provozu datacentra. Nastaveno organizační opatření ve smyslu detailnější kontroly jednotlivých dodavatelských prací.
  • Ošetřit zdroje mechanicko-technických závad lze testováním při periodické revizi elektrorozvodů. Aktuálně na požadavek klientů není prováděna revize při bezproudí. Při další revizi bude požadavek TTC na revizi s bezproudím, a bude tak provedena i mechanická kontrola všech jistících prvků.

Závěrem je nutné dodat, že napájení části datového sálu 1 v TTC DC1 bylo v roce 2001 postaveno v režimu TIER 2. Napájení mnoha racků v sále 1 je tedy zapojeno pouze přes jediný prvek. Ten za normální situace (pokud je správně nastavený) může vybavit pouze za předpokladu zkratu následujícího pojistkového odpojovače pro jeden z distribučních rozvaděčů. Původní UPS byly zapojené v paralelním režimu v počtu 5 kusů a jejich stáří už dlouhodobý spolehlivý provoz vylučovalo. Nová UPS je moderní modulární distribuovaná paralelní architektura. 

Část racků umístěných v datovém sále 1 v TTC TELEPORT DC1 je napájena z jiné rozvodny. Tyto racky, stejně tak jako racky napájené stejnosměrným napětím DC 48V, nebyly včerejším výpadkem zasaženy.

Detaily s výkladem všech přesných stavů a postupů během výpadku rádi zodpovíme osobně.

TTC TELEPORT nabízí ve svém datovém centru TTC TELEPORT DC2 napájení v režimu TIER 3 postaveném a provozovaném podle projektu certifikovaného organizací Uptime Institute. V režimu TIER 3 je každý rack napájen dvěma nezávislými cestami a riziko ztráty napájení je tedy minimalizováno.

Našli jste v článku chybu?
  • Aktualita je stará, nové názory již nelze přidávat.