Tak výpadek se stát může, může v případě nějaké kostelace dojít k poruše primární i sekundární UPS, už jsem to viděl. Je to málo pravděpodobné, souhra okolností je blbec, mohli mít taky něco slabšího. Co se týče certifikace tak wedos se pokouší o Tier IV, jsem zvědav, jestli toho dosáhnou a jetli to není hlavně o marketingu.
Datacentra se stavi dle TIER standartu. v Cechach je maximum T3 (nekdo ma tzv T3+ coz je marketingove oznaceni ze splnuji T4 ale nemaji na to papir protoze nejsou v bezletove zone, coz je v cechach temer nerealne dodezet)
vecina datacenter ale ma T1 (zdvojene neni skoro nic) nebo T2 (zdvojene napajeni ale ne chlazeni a.t.d..) pripadne T2+ (coz je zdvojeni nekterych casti nad 2 ale porad ne na 3)
T3 ma pak zdvojene vse, T4 dokonce resi i geografickou redunanci napajeni a internet konektivity (draty na napajeni z dvou nezavyslich distribucnich siti privedenych na ruznem konci baraku a nikdy ani vevnitr se nesmi krizit, to same i optika)
U T2 DTC je povoleny vypadek skoro 20 hod/rok coz v pohode coolhousing uhraje.
U T3 DTC je to ale pod 2 hodiny.
(pocitam z hlavy, omlouvam se za nepresnost, presne je to T2=99,8, T3=99.98 a T4=99.99 coz je cca 15 minut rok max, T5 je 99,999 to jsme ve vterinach)
ale at mame datacentrum klidne T5 zadne DTC neni blbuvzdorne a vzdy bude trpet na lidskou hloupost/neznalost/procesni chybu a p.
postihlo to i facebook nebo google, takze neni e za co stydet. ale Profi datacentrum se pozna prave podle toho jak dokazou realne priznat chybu a podle doby opravy (vzhledem k velikosti). tzn Google to opravoval 3 hodiny (ale jak velkou infrastrukturu). FB dokonce pul dne.
Za jedno z nejhorsich u nas pritom povazuji jedine ktere ma T4 papir... Tam pan majitel nema problem otevrene zakaznikum lhat.
Pokud si zavolate na jejich technickou podporu, tak se dozvite, ze chyba byla prave na UPSkach od dodavatele. Nevim sice co zmanena "zblaznili se UPSky, a zacli jet z baterek i kdyz hlavni privod fungoval". Predpokladam, ze se toto dozvime z vyjadreni...
Zaroven jelikoz to postihlo i jejich servery, tak jim vypadnul i ten monitoring, coz je odpoved na polozenou otazku zda-li ho maji.. Tak ano maji, ale vypadnul jim taky (Jak rekli v Cervenem trpasliku: Ted vybouhnul i monitor skod)
Kazdopadne tim nechci rict, ze je to "divny" a meli mit dve oddelene vetve, divne je spis to, ze na vsech vetvich to zacalo ject na UPS, mozna nejaka anomalie v siti? Nevim.
Predevsim by se libovolna infrastruktura mela pravidelne testovat. Protoze vypadek pri oznamenem (a vydarenem) testu je stale mnohem akceptovatelnejsi, nez doslova pad na hubu.
Muzeme pochopitelne jen spekulovat, ale typicky byva problem treba to, ze jedna z napajecich vetvi padne, a ta druha se odporouci v zapeti, protoze jaksi nikdo nepocital s proudovou spickou ktera pri necem takovem nastane.
Pokud mam nejake datove centrum, stavim ho podle standardu, ktere jasne definuji dva nezavisle hlavni privody napajeni s oddelenou infrastrukturou, 2+ nezavisle zapojene UPS, motorgeneratory ...
Ostatne, oni sami uvadeji:
"Dodávky elektrické energie jsou plně zálohovány. Krátkodobé výpadky v napájení pokrýváme prostřednictvím kaskády modulů centrální UPS 70NET 40/33 a EATON 93PM-50, vše v konfiguraci N+1. Zdroj UPS nejen dodává energii, ale i chrání celou síť před "špičkami", které se mohou v síti objevit.
Dlouhodobé výpadky energie pokryjí dva nezávislé diesel generátory. Striktně dělíme systém napájení na IT část (servery), kterou obsluhuje motogenerátor Cummins C330 D5 a non-IT část (klimatizace, světla), které vždy dobře poslouží motogenerátor SDMO 200."
To N+1 znamena, ze kazdy server ma pripojen dva napajeci zdroje kazdy ke dvema ruznym UPS nebo samostatnym UPS modulum. Pak proste podobny vypadek neni mozny
To, ze to spadne komplet a hlavne bez rizeneho shutdownu, je proste selhani zakladni infrastruktury, na ktere se teprve ma nejake datove centrum stavet.
Vubec se nebavime o nejakem software, HA, reseni HA mezi lokalitami atp.
Tak každé HA řešení má své slabé stránky :-) Někdy je to tak smutné, že způsobí víc výpadků jak varianta bez.
Navíc vše je o penězích a za opravdická řešení nikdo nechce platit. Tak se používají různé kompromisy.
Pokud to má opravdu fungovat, musí s tím obvykle pracovat už aplikace samotná. Pak software nad ní, hardware, síť...
Tzn. opravdický cluster ideálně geograficky oddělený a kdo to má že? Tím myslím hlavně po SW stránce.
Zhaslé datacentrum pak není problém.