Hlavní navigace

Pražské datové centrum CE Colo mělo výpadek, nešlo napájení

17. 11. 2019

Sdílet

T-Mobile Autor: Jan Sedlák

Významné tuzemské datové centrum CE Colo (dříve Sitel), které spadá pod T-Mobile, dnes mělo výpadek napájení. Mělo to dopad na provoz na řadu providerů, tranzity nebo NIX.

„Dnes cca v 12:30 došlo k výpadku napájení datacentra CE Colo v Praze. V důsledku toho byl postižen internetový provoz stovek poskytovatelů připojení, tranzitních operátorů, hlavního výměnného uzlu NIX i největšího českého node pro Google,“ uvedla například postižená společnost Allstar Net s tím, že se v CE Colo „odbavuje více než polovina celého českého internetu.“

„V NIX.cz dnes k žádnému výpadku nedošlo. Kvůli situaci, která nastala ve zmiňovaném datacentru, několika sítím, které nejspíš používaly pouze jednu napájecí větev, odpadly přípojky. Ani u Googlu jsme nepozorovali žádný problém,“ odmítá ale informace o problémech v NIXu výkonný ředitel tohoto propojovacího bodu Adam Golecký.

T-Mobile prozatím oficiální vyjádření nezveřejnil. Firma kromě původního Sitelu provozuje také „CE Colo 2“ (DC7), které bylo uvedeno do provozu na podzim loňského roku.

Aktualizace 20:05 – Do zprávy jsme přidali vyjádření NIX.cz.

Našli jste v článku chybu?
  • Aktualita je stará, nové názory již nelze přidávat.
  • 17. 11. 2019 16:26

    Mr. McFly

    Přišlo mi hlášení o 17 minutové nedostupnosti serveru. Oh wait, 17. listopad, 17 minutový výpadek, že oni to udělali schválně? :)))

    17. 11. 2019, 16:28 editováno autorem komentáře

  • 17. 11. 2019 20:30

    Danny

    Na NIX vypadek zadny primy dopad nemel. Vypadly pouze pripojky nekterych pripojenych siti. U AllStarNetu (potazmo tedy Kaory, pres ktery AllStarNet vylucne funguje) to je zajimave - ackoliv vypadek trval nekolik minut, plny provoz z jejich strany byl obnoveny az po 18. hodine - ackoliv samotne napajeni nabehlo jiz kolem 13 hodiny. A Google rozhodne postizeny take nebyl (ackoliv se to z v linkovanem vyjadreni "pro Hlidace statu" uvadi - to je ale zjevna a snadno vyvratitelna lez).

    Na jedne strane chapu snahu o honbe za senzaci - a soucasne snahu zakryt vlastni pochybeni - ale neprehani se to uz trosku?

  • 18. 11. 2019 8:55

    Danny

    Cituji: "V dusledku toho byl postizen internetovy provoz stovek poskytovatelu pripojeni, hlavniho vymenneho uzlu NIX i nejvetsiho ceskeho node pro Google". Formulovat omezenou kapacitu pripojeni vlastni site jde rozhodne lepe a nikoliv tak, ze to vyzni jako problem kdekoho v CR - kde bylo realne navenek postizeno jen par operatoru a problem tedy byl fakticky zpusoben jen nedostatecnou vnitrni zalohou je samo o sobe divny. O omezene kapacite vlastnich tras se nepise vubec, naopak je tam explicitne napsano, ze porucha se nevyskytuje v siti Allstar Net. Naopak je tam ukrok stranou k tomu, ze v CE Colo se odbavuje pulka ceskeho internetu. To sice pravda je, ale majorita operatoru v CE Colo pritomnych vypadkem vubec postizena nebyla. Provoz Kaory se do TTC rozhodne neprelil.

    Porad mi nejde do hlavy taky jedna vec: Router Kaory v CE Colo vypadl v dusledku ztraty napajeni ve 12:26 a opet spolu s dalsimi nabehl ve 12:49. Presto plna funkce byla obnovena az po 18 hodine. CDT na tom byly sice podobne, ale tam objektivne protistrana vubec nejela (nebyl ani link) - a ti to dali do kupy kolem 15h. Stat se muze ledacos - muze vypadnout koncovy jistic v dusledku sveho pretizeni - mj. proudove razy pri cold-startu spousty spinanych zdroju byvaji velke a kdyz je odber na hrane nominalni hodnoty jistice, pravdepodobnost vypadku je hodne velka.

    Z grafu na NIXu je jasne videt, ze to mezi 13-18h bylo hodne pridusene. To uz moc nesedi jen na samotny vypadek napajeni. Tech problemu muselo byt vice a nikoliv jen na strane CE Colo. Jeden zadrhel je patrny jiz z prvniho odstavce. Vazne nerozumim tomu, proc je tak tezke narovinu priznat barvu a zakryvaji se spolucinitele souvisejici s problemem. Vypadek napajeni to mozna cele odstartoval, ale to nebylo jedina pricina. Podcenena kapacita vlastnich zaloznich tras je jednoznacne faktorem, ktery z pohledu zakazniku hral svoji nikoliv nevyznamnou roli.

  • 18. 11. 2019 15:03

    Danny

    Jenze ono zminovane cilove publikum (BFU) zrovnatak nebude nic tusit ani o nejakem NIXu :-) Z pohledu laickych uzivatelu jde o zcela nadbytecnou informaci. Naopak, kdyz uz tam je teda zminka o Google, proc uz ne o Youtube, Seznamu, Facebooku a dalsich proflaklych eyeball sluzeb vyuzivanych davem lidi - kdyz uz pristoupime na tuhle hru o hloupych uzivatelich, kterym ma byt ono sdeleni tedy adresovano? :-) Proste kdyz budu chtit napsat, ze muzou blbe fungovat sluzby X, Y, Z - tak to napisu. Na tom preci neni nic tezkeho ;-)

  • 18. 11. 2019 15:17

    Danny

    I pres zalibu v cteni RFC si myslim, ze jsem normalni, mezi (z pohledu IT) normalnim/nez­kusenym lidem se bezne pohybuju. Skoda, ze v ramci rozcilovani sem rovnou nenapises veci, ktere jsi mi ve svem telefonatu rekl uz v 10 dopoledne. Ledacos se da v klidu vysvetlit a ve finale otevrenym reportingem ziskas u mnohych vice kladnych bodu. Jinak viz nize, nebudu se opakovat. A plne se ztotoznuju s Michalem, na tohle jde mit predpripravene sablony srozumitelne i pro BFU a neobsahujici pro ne zbytecne a nebo dokonce zavadejici informace. Urcite to neni naposled, co nekde neco vypadlo. Stesti preje pripravenym, tot cele :-)

    Mimochodem, tu zpravu prvotne psal Jan Sedlak a nikoliv David Slizek, mozna bych za neovereni informaci kartacoval primarne spise autora te puvodni zpravicky a ne toho, kdo ex-post sam uvadel veci na pravou miru :-)

  • 18. 11. 2019 12:23

    Zdeněk Polách

    Tak ještě jednou speciálně pro Michal Krsek, email šel zákazníkům sítě Allstar Net bezprostředně po začátku výpadku, kdy nešlo napájení na CeColo a houby kdo věděl, co bude následovat a jak dlouhý výpadek bude. Šel jim proto, že konektivita Allstaru fungovala, ale ne na plný plyn (logicky, když na CeColo končí x-linek). Koncoví uživatelé obvykle volají a řeší, že jim nejde jejich internet, stěžovali si, že mají pomalou přípojku (obvykle u WiFi kvůli zarušení třeba), cílem bylo rychle a plošně odkomunikovat, že jde o globální výpadek v Praze, Google a NIX je tam použit jako služba, ne jako název společnosti s infem, že i provoz do těchto sítí je postižen.
    Pokud chcete s Danýskem rozdávat moudra a překrucovat myšlenku, ať je formulovaná šťastně či ne, nabízím vám, že si můžete na jeden den sednout na naši hotline, abyste věděli, jakým lidem se ten výpadek vysvětloval. Stejné kecy jako vy umím od počítače rozdávat taky. Nemám nejmenší problém s tím, jak to kolega napsal a kdybyste z akademické sféry a světa RFC pravidel sešli mezi normální lid, třeba byste ten mail pochopili.
    Jako @David Slížek, máš na mě číslo, známe se, fakt mě mrzí, že jste si nezavolali o bližší informace, co se děje, nemusel jsem tady číst, jak se tady do mě kdejakej jouda naváží bez znalosti časového sledu a konkrétních reálií. A navíc reálie pořádně doteď nejsou známé, CeColo neposlalo konečný Incident report, přiznalo výpadek jen jedné větve, ale spousta zákazníků stejně jako my reportuje nedostupnost elektriky na A i B větvi... Samozřejmě 24 hodin po události i já mám víc informací než v okamžiku, kdy minutu po výpadku elektriky zjišťuješ, co se děje, jak velký rozsah to je a co Ti to kde afektuje, když ještě ve 12:42 mi nebyli schopni na CeColo upřesnit rozsah výpadku, že mají hromadu alertů a sami nevědí.

  • 17. 11. 2019 21:15

    Zdeněk Polách

    1) kolegové poslali vyjádření k výpadku pro zákazníky sítě Allstar Net bezprostředně po výpadku a zjištění příčiny (tj. cca 12:3x), neboť šlo o plošný výpadek a bylo jasné, že infolinka nemá kapacitu nárazově zvládnout všechna volání.
    2) mail pro zákazníky reflektoval i situaci, kdy primární 10 Gbps a jedna ze záložních linek končí v Sitelu a pouze 2 Gbps linky směrují jinam, takže kapacita v síti Allstar Netu nebyla dostatečná
    3) nikdo nikde nenapsal, že nefungoval NIX nebo nefungoval Google, ale že "byl postižen provoz" (z pohledu zákazníků Allstar Netu). Zákazníci si obvykle Google pingají a Google znají, navíc neumějí rozlišit protistranu a tedy pingali zdroj, který byl tímto výpadkem postižen, tak jim nefungoval. Například zdejší základní škola má svůj web na konkurenční síti (která kdysi byla obecní) - je tam elektronická žákovská, objednávání obědů atp., tedy naši zákazníci zde přistupují často a protože konkurence používá přívodní linku od ČDT, která byla kvůli stejnému výpadku zcela nedostupná také několik hodin, tak nám lidi reportovali nedostupnost i na základě těchto informací (ale protože to není poprvé, tak za ta léta víme, co očekávat a jak lidem vysvětlit které problémy)...
    4) ten mail reagoval na situaci v cca 12:3x, kdy se síť chovala... Allstar Net neměl kompletní výpadek, stejně jako ho neměla Kaora, proto jsme zvolili tuto cestu pro odlehčení infolince.
    5) mail nebyl určen jako vyjádření pro tisk, bylo to oznámení od provozovatelů sítě Allstar Net pro jejich zákazníky, reflektoval situaci v síti a popisoval, k čemu a proč v síti Allstar Netu dochází. Mrzí mě, pokud globálně došlo k pochopení toho, že by se kolega odkazoval na to, že nefunguje NIX nebo Google, já v tom textu nic takového nevidím a kolega určitě nic podobného napsat ani nechtěl, protože Google do Allstaru dostáváme jak z PNI, tak z NIXu a také z Peeringu, kdy NIX i Peering jede z ASBR v TTC a tento směr postižen nebyl.

  • 18. 11. 2019 9:30

    SeaRanger

    Dovolim si doplnit ze se nejednalo pouze o vypadek ISP kteri maji zajisteno napajeni jen jednou vetvi. Nas box je pripojen do dvou napajecich vetvi a vypadl, tedy doslo k vypadku el proudu v obou napajecich vetvich.

  • 18. 11. 2019 3:56

    Michal Krsek

    Proste priste pri popisu vypadku vynechate dalsi subjekty, pokud nebudou pricinou problemu (a i potom budete ve formulacich velmi opatrni). Zabranite tim ve spatnem pochopeni toho, co jste chteli sdelit.

    Tim bych to povazoval za vyresene.

  • 18. 11. 2019 16:25

    Michal Krsek

    Mozna Te prekvapi, ale podobnych vypadku jsem jiz par odkomunikoval (v ruznych trickach). I kdyz bezne ziju v akademicke sfere, sefoval jsem provozu sluzby, ktera mela par set tisic uzivatelu :-)

    Aniz bych Ti chtel udelovat knizeci rady (coz prave cinim :-)), tak rozmazavanim vasi chyby nic neziskas a take plati, ze kdyz priznas chybu a budes tise jako myska (a pripravis si sablony pro pripad dalsich pruseru - a ty prusery prijdou, kombinace lidskych chyb a ekonomickeho tlaku je nezbytne pritahuje), tak za mesic prikryje ten vypadek pena dni. Uvolnenou kapacitu muzes fakt vyuzit smysluplneji.

    (a to jsem chtel delat hodneho policajta, kdyz Danny dela zleho)

    Jo a tim, ze budes neco vycitat novinarovi dosahnes jenom toho, ze jsi selhal v jeho informovani. Teda - selhal vas marketing, pokud ho mate.

  • 17. 11. 2019 20:38

    Danny

    Rozumim, ja to rozepsal jeste pred tim update od Adama, ktery jen kopiruje me vlastni pozorovani (oprene nejen o data z NIXu, ale tez o data z nekolika PNI)...

  • 18. 11. 2019 17:10

    RaM

    Michale, nevim jak je to autenticke - mysleno ten popis incidentu.

    Z praxe vyplyva, ze pokud doslo ke zkratu na nejnizsi urovni spotreby (napr zdroj nejakeho spotrebice), a vybavily se jistici prvky na nadrazene urovni (zde asi na jisteni az o dve urovne vyse), tak je asi:
    a.) spatne spocitana selektivita jisteni
    nebo
    b.) doslo k pomalemu zkratu
    a hlavni jistici prvek na cele vetvi to nevydrzel a sel down.
    Ja bych to typnul na spatne spocitana nebo provozovana selektivita jisteni - celkem dost opimijena vec v provozu datovych center.

    Pokud sla jedna vetev DOWN a druha byla stale UP, tak zustavame stale v beznem provoznim stavu cele napajeci soustavy.
    Pokud vsak maji zakaznici jen jednozdrojova zarizeni, tak to pro ne mohl byt problem a neco slo DOWN. Je veci zakaznika, jestli ma ci nema dvouzdrojove zarizeni.

    Ozvali se vsak i zakaznici, kteri maji v CeColo dvouzdrojova zarizeni a ty se vcera vypnuly. To muze ukazovat na to, ze sly DOWN obe napajeci vetve a to uz je problem, nebo maji zakaznici oba zdroje pripojene na jednu napajeci vetev (i takovych je dost).

    Nedelejme (mysleno vsichni) predcasne zavery a vyckejme na finalni komunikaci T-Mobile k tomuto vcerejsimu vypadku.

    RadekM

  • 18. 11. 2019 8:11

    Filip Jirsák

    Myslím, že ve vyjádření pro laické zákazníky je jmenování jiných subjektů pochopitelné. („Mně nefunguje internet!“ „…“ „No jo, ale mně nefunguje ani Seznam!!“ „…“ „Ani Google mi nejede!!!“) Problém je, když máte senzacechtivé zákazníky, kteří to obratem zveřejní jako globální problém – zvlášť, když jsou mediálně známí a začnou to od nich přebírat média.

  • 18. 11. 2019 12:05

    Michal Krsek

    Co je nesrozumitelneho na: "nase sit ma vypadek, protoze v datovem centru vypadnul proud a proto vam muze jit spatne nebo vubec Internet". A nemusite byt Mara, abyste to dokazal kvalitne obalit. Navic si tyhle majly muzete pripravit dopredu a pak jen vybrat spravnou sablonu.

    Samozrejme vzdycky je problem, kdyz se snazite svoje problemy hodit na nekoho jineho a nebo je bagatelizovat poukazovanim na "hele on ma taky problemy". A je jedno, zda to rikate jenom svym uzivatelum a nebo to utece i mimo vasi platformu.

    A ano, na vyse udelane chovani musite byt dostatecne sebevedomy, coz pohrichu vetsina subjektu v CR neni.

    A samozrejme, pokud to formulovat nedokazete, najmete si nekoho, kdo to zvladne.

  • 18. 11. 2019 13:31

    Filip Jirsák

    Já nehodnotím tuhle konkrétní zprávu. Tam je informace o tom, kdo všechno je v CE Colo, opravdu zavádějící, když se jich výpadek nedotkl. Reagoval jsem jen na to tvrzení, že se nemají uvádět jména žádných jiných subjektů. Protože:

    Co je nesrozumitelneho na: "nase sit ma vypadek, protoze v datovem centru vypadnul proud a proto vam muze jit spatne nebo vubec Internet".

    Po takovéhle zprávě vám vzápětí bude na helpdesk volat spousta lidí, že jim nejde Seznam, Google, YouTube atd. Můžete jim vysvětlovat horem dolem, že jim nejde internet, ale oni vám odpoví, že je nějaký internet nezajímá a nepotřebují ho, že se jenom potřebují dostat na svůj e-mail, na své pohádky pro děti apod.

    Nejde o to, jestli je to srozumitelné pro experty nebo lidi z oboru, ale zda je to srozumitelné pro cílové publikum.

    Mimochodem, to, že nějaká firma vydá zavádějící informaci – to se stává. Zvlášť pokud ji vydají hned na začátku, kdy ještě nevědí, co se děje – neuvědomit si, že oni jedou jen z jedné napájecí větve, zatímco většina ostatních má napájecí větve dvě, to se může stát. Ale od toho by měla být média, že zprávy ověřují. A holt si musí média uvědomit, že musí ověřovat zprávy od všech – to, že je někdo celebrita, ještě neznamená, že zprávy ověřuje, než je pustí dál.

  • 18. 11. 2019 11:50

    Filip Jirsák

    Jak chcete text formulovat tak, aby to pochopili koncoví uživatelé? Pro spoustu z nich internet je Seznam, Google, YouTube, takže když se tam tahle jména cizích subjektů neobjeví, nebudou zprávě rozumět. A budou volat na přetížené linky helpdesku.

    Ta formulace Allstar Net nebyla úplně šťastná, ovšem kdyby se to nešířilo mimo okruh jejich zákazníků, nebyl by to problém.

  • 18. 11. 2019 16:41

    Michal Krsek

    Na jednom z for se objevilo nasledujici. Zda je to autenticke nevim, nedokazu to potvrdit za zaklade zadnych sdeleni, ktere jsou mimo NDA.

    Management summary:
    UPS A1.1 AC load outage by tripped output breaker. Source of the incident is probably a shortcircuit
    in the distribution, which caused superior power-breaker to disconnect the load, but the
    investigation is still pending. UPS and breaker loads were within the normal limits in the moment
    of this incident and no maintenance was being done.
    Redundant AC power feeds B and DC feeds A+B were not affected and remained operational,
    therefore there was no availability impact.

    Timeline of the incident:
    12:27 alarm raised in our monitoring system, helpdesk operators started investigating
    12:36 problem isolated to UPS output breaker QF2
    12:42 service restoration complete
    12:50+ customer’s breakers one-by-one ON based on our monitoring data and customer
    feedback, possible short-circuit not present anymore
    equipment connected to UPS A1.1AC back operational

  • 18. 11. 2019 17:17

    Filip Jirsák

    Já jsem o NIXu nic nepsal. Ale informace, kterým BFU nerozumí, nemusí být v té zprávě na škodu – BFU je klidně přeskočí. Takže můžete jednou zprávou informovat ty poučené i BFU. Když se to šikovně naformuluje, poučený uživatel pochopí, kterou část zprávy nemá brát tak docela vážně.

    Proste kdyz budu chtit napsat, ze muzou blbe fungovat sluzby X, Y, Z - tak to napisu. Na tom preci neni nic tezkeho ;-)
    Vlamujete se do otevřených dveří. My dva se na tomhle shodneme, Michal Krsek by o X, Y a Z nepsal, protože jsou to služby jiných subjektů. To je vše.

Byl pro vás článek přínosný?

Autor aktuality

Reportér Lupa.cz a E15. O technologiích píše také do zahraničních médií.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).