Hlavní navigace

Vlákno názorů k aktualitě Pražské datové centrum CE Colo mělo výpadek, nešlo napájení od Danny - Na NIX vypadek zadny primy dopad nemel. Vypadly...

  • Aktualita je stará, nové názory již nelze přidávat.
  • 17. 11. 2019 20:30

    Danny

    Na NIX vypadek zadny primy dopad nemel. Vypadly pouze pripojky nekterych pripojenych siti. U AllStarNetu (potazmo tedy Kaory, pres ktery AllStarNet vylucne funguje) to je zajimave - ackoliv vypadek trval nekolik minut, plny provoz z jejich strany byl obnoveny az po 18. hodine - ackoliv samotne napajeni nabehlo jiz kolem 13 hodiny. A Google rozhodne postizeny take nebyl (ackoliv se to z v linkovanem vyjadreni "pro Hlidace statu" uvadi - to je ale zjevna a snadno vyvratitelna lez).

    Na jedne strane chapu snahu o honbe za senzaci - a soucasne snahu zakryt vlastni pochybeni - ale neprehani se to uz trosku?

  • 18. 11. 2019 8:55

    Danny

    Cituji: "V dusledku toho byl postizen internetovy provoz stovek poskytovatelu pripojeni, hlavniho vymenneho uzlu NIX i nejvetsiho ceskeho node pro Google". Formulovat omezenou kapacitu pripojeni vlastni site jde rozhodne lepe a nikoliv tak, ze to vyzni jako problem kdekoho v CR - kde bylo realne navenek postizeno jen par operatoru a problem tedy byl fakticky zpusoben jen nedostatecnou vnitrni zalohou je samo o sobe divny. O omezene kapacite vlastnich tras se nepise vubec, naopak je tam explicitne napsano, ze porucha se nevyskytuje v siti Allstar Net. Naopak je tam ukrok stranou k tomu, ze v CE Colo se odbavuje pulka ceskeho internetu. To sice pravda je, ale majorita operatoru v CE Colo pritomnych vypadkem vubec postizena nebyla. Provoz Kaory se do TTC rozhodne neprelil.

    Porad mi nejde do hlavy taky jedna vec: Router Kaory v CE Colo vypadl v dusledku ztraty napajeni ve 12:26 a opet spolu s dalsimi nabehl ve 12:49. Presto plna funkce byla obnovena az po 18 hodine. CDT na tom byly sice podobne, ale tam objektivne protistrana vubec nejela (nebyl ani link) - a ti to dali do kupy kolem 15h. Stat se muze ledacos - muze vypadnout koncovy jistic v dusledku sveho pretizeni - mj. proudove razy pri cold-startu spousty spinanych zdroju byvaji velke a kdyz je odber na hrane nominalni hodnoty jistice, pravdepodobnost vypadku je hodne velka.

    Z grafu na NIXu je jasne videt, ze to mezi 13-18h bylo hodne pridusene. To uz moc nesedi jen na samotny vypadek napajeni. Tech problemu muselo byt vice a nikoliv jen na strane CE Colo. Jeden zadrhel je patrny jiz z prvniho odstavce. Vazne nerozumim tomu, proc je tak tezke narovinu priznat barvu a zakryvaji se spolucinitele souvisejici s problemem. Vypadek napajeni to mozna cele odstartoval, ale to nebylo jedina pricina. Podcenena kapacita vlastnich zaloznich tras je jednoznacne faktorem, ktery z pohledu zakazniku hral svoji nikoliv nevyznamnou roli.

  • 18. 11. 2019 15:03

    Danny

    Jenze ono zminovane cilove publikum (BFU) zrovnatak nebude nic tusit ani o nejakem NIXu :-) Z pohledu laickych uzivatelu jde o zcela nadbytecnou informaci. Naopak, kdyz uz tam je teda zminka o Google, proc uz ne o Youtube, Seznamu, Facebooku a dalsich proflaklych eyeball sluzeb vyuzivanych davem lidi - kdyz uz pristoupime na tuhle hru o hloupych uzivatelich, kterym ma byt ono sdeleni tedy adresovano? :-) Proste kdyz budu chtit napsat, ze muzou blbe fungovat sluzby X, Y, Z - tak to napisu. Na tom preci neni nic tezkeho ;-)

  • 18. 11. 2019 15:17

    Danny

    I pres zalibu v cteni RFC si myslim, ze jsem normalni, mezi (z pohledu IT) normalnim/nez­kusenym lidem se bezne pohybuju. Skoda, ze v ramci rozcilovani sem rovnou nenapises veci, ktere jsi mi ve svem telefonatu rekl uz v 10 dopoledne. Ledacos se da v klidu vysvetlit a ve finale otevrenym reportingem ziskas u mnohych vice kladnych bodu. Jinak viz nize, nebudu se opakovat. A plne se ztotoznuju s Michalem, na tohle jde mit predpripravene sablony srozumitelne i pro BFU a neobsahujici pro ne zbytecne a nebo dokonce zavadejici informace. Urcite to neni naposled, co nekde neco vypadlo. Stesti preje pripravenym, tot cele :-)

    Mimochodem, tu zpravu prvotne psal Jan Sedlak a nikoliv David Slizek, mozna bych za neovereni informaci kartacoval primarne spise autora te puvodni zpravicky a ne toho, kdo ex-post sam uvadel veci na pravou miru :-)

  • 18. 11. 2019 12:23

    Zdeněk Polách

    Tak ještě jednou speciálně pro Michal Krsek, email šel zákazníkům sítě Allstar Net bezprostředně po začátku výpadku, kdy nešlo napájení na CeColo a houby kdo věděl, co bude následovat a jak dlouhý výpadek bude. Šel jim proto, že konektivita Allstaru fungovala, ale ne na plný plyn (logicky, když na CeColo končí x-linek). Koncoví uživatelé obvykle volají a řeší, že jim nejde jejich internet, stěžovali si, že mají pomalou přípojku (obvykle u WiFi kvůli zarušení třeba), cílem bylo rychle a plošně odkomunikovat, že jde o globální výpadek v Praze, Google a NIX je tam použit jako služba, ne jako název společnosti s infem, že i provoz do těchto sítí je postižen.
    Pokud chcete s Danýskem rozdávat moudra a překrucovat myšlenku, ať je formulovaná šťastně či ne, nabízím vám, že si můžete na jeden den sednout na naši hotline, abyste věděli, jakým lidem se ten výpadek vysvětloval. Stejné kecy jako vy umím od počítače rozdávat taky. Nemám nejmenší problém s tím, jak to kolega napsal a kdybyste z akademické sféry a světa RFC pravidel sešli mezi normální lid, třeba byste ten mail pochopili.
    Jako @David Slížek, máš na mě číslo, známe se, fakt mě mrzí, že jste si nezavolali o bližší informace, co se děje, nemusel jsem tady číst, jak se tady do mě kdejakej jouda naváží bez znalosti časového sledu a konkrétních reálií. A navíc reálie pořádně doteď nejsou známé, CeColo neposlalo konečný Incident report, přiznalo výpadek jen jedné větve, ale spousta zákazníků stejně jako my reportuje nedostupnost elektriky na A i B větvi... Samozřejmě 24 hodin po události i já mám víc informací než v okamžiku, kdy minutu po výpadku elektriky zjišťuješ, co se děje, jak velký rozsah to je a co Ti to kde afektuje, když ještě ve 12:42 mi nebyli schopni na CeColo upřesnit rozsah výpadku, že mají hromadu alertů a sami nevědí.

  • 17. 11. 2019 21:15

    Zdeněk Polách

    1) kolegové poslali vyjádření k výpadku pro zákazníky sítě Allstar Net bezprostředně po výpadku a zjištění příčiny (tj. cca 12:3x), neboť šlo o plošný výpadek a bylo jasné, že infolinka nemá kapacitu nárazově zvládnout všechna volání.
    2) mail pro zákazníky reflektoval i situaci, kdy primární 10 Gbps a jedna ze záložních linek končí v Sitelu a pouze 2 Gbps linky směrují jinam, takže kapacita v síti Allstar Netu nebyla dostatečná
    3) nikdo nikde nenapsal, že nefungoval NIX nebo nefungoval Google, ale že "byl postižen provoz" (z pohledu zákazníků Allstar Netu). Zákazníci si obvykle Google pingají a Google znají, navíc neumějí rozlišit protistranu a tedy pingali zdroj, který byl tímto výpadkem postižen, tak jim nefungoval. Například zdejší základní škola má svůj web na konkurenční síti (která kdysi byla obecní) - je tam elektronická žákovská, objednávání obědů atp., tedy naši zákazníci zde přistupují často a protože konkurence používá přívodní linku od ČDT, která byla kvůli stejnému výpadku zcela nedostupná také několik hodin, tak nám lidi reportovali nedostupnost i na základě těchto informací (ale protože to není poprvé, tak za ta léta víme, co očekávat a jak lidem vysvětlit které problémy)...
    4) ten mail reagoval na situaci v cca 12:3x, kdy se síť chovala... Allstar Net neměl kompletní výpadek, stejně jako ho neměla Kaora, proto jsme zvolili tuto cestu pro odlehčení infolince.
    5) mail nebyl určen jako vyjádření pro tisk, bylo to oznámení od provozovatelů sítě Allstar Net pro jejich zákazníky, reflektoval situaci v síti a popisoval, k čemu a proč v síti Allstar Netu dochází. Mrzí mě, pokud globálně došlo k pochopení toho, že by se kolega odkazoval na to, že nefunguje NIX nebo Google, já v tom textu nic takového nevidím a kolega určitě nic podobného napsat ani nechtěl, protože Google do Allstaru dostáváme jak z PNI, tak z NIXu a také z Peeringu, kdy NIX i Peering jede z ASBR v TTC a tento směr postižen nebyl.

  • 18. 11. 2019 3:56

    Michal Krsek

    Proste priste pri popisu vypadku vynechate dalsi subjekty, pokud nebudou pricinou problemu (a i potom budete ve formulacich velmi opatrni). Zabranite tim ve spatnem pochopeni toho, co jste chteli sdelit.

    Tim bych to povazoval za vyresene.

  • 18. 11. 2019 16:25

    Michal Krsek

    Mozna Te prekvapi, ale podobnych vypadku jsem jiz par odkomunikoval (v ruznych trickach). I kdyz bezne ziju v akademicke sfere, sefoval jsem provozu sluzby, ktera mela par set tisic uzivatelu :-)

    Aniz bych Ti chtel udelovat knizeci rady (coz prave cinim :-)), tak rozmazavanim vasi chyby nic neziskas a take plati, ze kdyz priznas chybu a budes tise jako myska (a pripravis si sablony pro pripad dalsich pruseru - a ty prusery prijdou, kombinace lidskych chyb a ekonomickeho tlaku je nezbytne pritahuje), tak za mesic prikryje ten vypadek pena dni. Uvolnenou kapacitu muzes fakt vyuzit smysluplneji.

    (a to jsem chtel delat hodneho policajta, kdyz Danny dela zleho)

    Jo a tim, ze budes neco vycitat novinarovi dosahnes jenom toho, ze jsi selhal v jeho informovani. Teda - selhal vas marketing, pokud ho mate.

  • 17. 11. 2019 20:38

    Danny

    Rozumim, ja to rozepsal jeste pred tim update od Adama, ktery jen kopiruje me vlastni pozorovani (oprene nejen o data z NIXu, ale tez o data z nekolika PNI)...

  • 18. 11. 2019 8:11

    Filip Jirsák

    Myslím, že ve vyjádření pro laické zákazníky je jmenování jiných subjektů pochopitelné. („Mně nefunguje internet!“ „…“ „No jo, ale mně nefunguje ani Seznam!!“ „…“ „Ani Google mi nejede!!!“) Problém je, když máte senzacechtivé zákazníky, kteří to obratem zveřejní jako globální problém – zvlášť, když jsou mediálně známí a začnou to od nich přebírat média.

  • 18. 11. 2019 12:05

    Michal Krsek

    Co je nesrozumitelneho na: "nase sit ma vypadek, protoze v datovem centru vypadnul proud a proto vam muze jit spatne nebo vubec Internet". A nemusite byt Mara, abyste to dokazal kvalitne obalit. Navic si tyhle majly muzete pripravit dopredu a pak jen vybrat spravnou sablonu.

    Samozrejme vzdycky je problem, kdyz se snazite svoje problemy hodit na nekoho jineho a nebo je bagatelizovat poukazovanim na "hele on ma taky problemy". A je jedno, zda to rikate jenom svym uzivatelum a nebo to utece i mimo vasi platformu.

    A ano, na vyse udelane chovani musite byt dostatecne sebevedomy, coz pohrichu vetsina subjektu v CR neni.

    A samozrejme, pokud to formulovat nedokazete, najmete si nekoho, kdo to zvladne.

  • 18. 11. 2019 13:31

    Filip Jirsák

    Já nehodnotím tuhle konkrétní zprávu. Tam je informace o tom, kdo všechno je v CE Colo, opravdu zavádějící, když se jich výpadek nedotkl. Reagoval jsem jen na to tvrzení, že se nemají uvádět jména žádných jiných subjektů. Protože:

    Co je nesrozumitelneho na: "nase sit ma vypadek, protoze v datovem centru vypadnul proud a proto vam muze jit spatne nebo vubec Internet".

    Po takovéhle zprávě vám vzápětí bude na helpdesk volat spousta lidí, že jim nejde Seznam, Google, YouTube atd. Můžete jim vysvětlovat horem dolem, že jim nejde internet, ale oni vám odpoví, že je nějaký internet nezajímá a nepotřebují ho, že se jenom potřebují dostat na svůj e-mail, na své pohádky pro děti apod.

    Nejde o to, jestli je to srozumitelné pro experty nebo lidi z oboru, ale zda je to srozumitelné pro cílové publikum.

    Mimochodem, to, že nějaká firma vydá zavádějící informaci – to se stává. Zvlášť pokud ji vydají hned na začátku, kdy ještě nevědí, co se děje – neuvědomit si, že oni jedou jen z jedné napájecí větve, zatímco většina ostatních má napájecí větve dvě, to se může stát. Ale od toho by měla být média, že zprávy ověřují. A holt si musí média uvědomit, že musí ověřovat zprávy od všech – to, že je někdo celebrita, ještě neznamená, že zprávy ověřuje, než je pustí dál.

  • 18. 11. 2019 11:50

    Filip Jirsák

    Jak chcete text formulovat tak, aby to pochopili koncoví uživatelé? Pro spoustu z nich internet je Seznam, Google, YouTube, takže když se tam tahle jména cizích subjektů neobjeví, nebudou zprávě rozumět. A budou volat na přetížené linky helpdesku.

    Ta formulace Allstar Net nebyla úplně šťastná, ovšem kdyby se to nešířilo mimo okruh jejich zákazníků, nebyl by to problém.

  • 18. 11. 2019 17:17

    Filip Jirsák

    Já jsem o NIXu nic nepsal. Ale informace, kterým BFU nerozumí, nemusí být v té zprávě na škodu – BFU je klidně přeskočí. Takže můžete jednou zprávou informovat ty poučené i BFU. Když se to šikovně naformuluje, poučený uživatel pochopí, kterou část zprávy nemá brát tak docela vážně.

    Proste kdyz budu chtit napsat, ze muzou blbe fungovat sluzby X, Y, Z - tak to napisu. Na tom preci neni nic tezkeho ;-)
    Vlamujete se do otevřených dveří. My dva se na tomhle shodneme, Michal Krsek by o X, Y a Z nepsal, protože jsou to služby jiných subjektů. To je vše.