Výpadek u hostingové firmy Ignum vyřadil na několik hodin weby klientů

21. 2. 2014

Doba čtení: 2 minuty

Několikahodinový výpadek hostingových služeb firmy Ignum omezil provoz řady webů. Z původně avizovaných 20 minut se nakonec v nekterých případech staly dlouhé hodiny.

Přidat mezi oblíbené zdroje na Googlu

„Omluvte prosim rozsahly vypadek sluzeb. Intenzivne pracujeme na naprave. Ocekavejte nasledne vyjadreni,“ objevilo se ve čtvrtek odpoledne na facebookové stránce firmy Ignum. Ta kromě registrování domén poskytuje také hostingové a serverhostingové služby.

Podle prvních informací mělo jít o problém switchů v datovém centru společnosti a čas jeho odstranění se odhadoval na 20 minut. Opravu většiny potíží ale firma nakonec oznámila na Twitteru až po několika hodinách: „V tuto chvíli je obnovena konektivita významné části sítě. Prozatím trvá nedostupnost VDS. Pokračujeme v konfiguraci switchů.“

Co tedy výpadek způsobilo? Podle technického ředitele firmy Marka Ernekera došlo k potížím při výměně switchů: „Příčinou výpadku sítě je rozpadnutí protokolu, zajišťujícího fungování okruhů a redundantních propojů, které v naší síti zajišťují funkčnost i v případě výpadku některé z komponent. K této situaci došlo v průběhu rutinního připojování nových switchů a za běžné situace tato mechanika v podstatě bez jakéhokoliv pozorovatelného výpadku síť zpět sestaví. V tomto případě však nedošlo k výpadku žádné z komponent a vzniklá nestabilita sítě postupně přetížila veškeré její klíčové prvky. Náš dohledový systém zachytil první příslušné okolnosti v 16:08, kdy jsme jej také začali okamžitě analyzovat. Díky vzniklému lavinovému efektu došlo v síti ještě k několika menším problémům, které v důsledku prodloužily dobu jejího odstraňování,“ napsal Lupě.

Erneker také potvrzuje, že firma při řešení problémů odpojila části sítě: „Abychom umožnili stabilizaci sítě, dočasně jsme odpojili některé její části, a to tak, že se jednotlivé prvky postupně stabilizovaly. To umožnilo opětovné sestavení protokolu a znovupřipojení odpojených částí sítě. Přibližně pak od půl šesté evidujeme funkčnost páteřních prvků sítě. Současně s tím bylo nutné většinu koncových switchů postihnutých předchozím přetížením kompletně restartovat tak, aby došlo k opětovnému získání správné konfigurace. Z toho důvodu byly jednotlivé servery postupně oživovány tak, jak docházelo k postupnému oživení switchů v rozsahu od 18. do přibližně 19. hodiny.“

Podle některých klientů ale potíže s částí služeb přetrvávaly ještě dnes. „Včera 3 hodiny nefungovaly, mně třeba nejede VDS server doteď, nefunguje jim ani support a slibované vyjádření stále nikde,“ napsal Lupě dnes dopledne jeden z nich.

„V současné době se počet nefunkčních VDS pohybuje okolo 20. Počet je proměnlivý, jelikož VDS reagují na změny v konfiguraci sítě a proto je třeba vše odladit,“ potvrzuje mluvčí firmy Jiří Jaroš.

Klienti si zároveň stěžovali, že v době výpadku nedostávali dostatek informací o tom, co se děje. Nefungoval totiž ani helpdesk, což firma na Twitteru sama přiznala. Podle mluvčího helpdesk nebyl zasažen výpadkem, protože se nachází mimo firemní síť. Nestačila ale jeho kapacita: „Na vině byl rozsah výpadku, na který reagoval počet zákazníků větší, než byla zákaznická podpora schopna obsloužit. Vyvarování se opakování této situace je v řešení,“ uvádí mluvčí.

Vstoupit do diskuse (17 názorů)

David Slížek

Šéfredaktor Lupa.cz a externí spolupracovník Českého rozhlasu Plus. Dříve editor IHNED.cz, předtím Aktuálně.cz a Českého rozhlasu. Zaměřuje se na telekomunikace, umělou inteligenci i na média. Najdete ho na Twitteru nebo na LinkedIn.

Témata:

Ale ne, operator horko tezko vysvetlovel, ze tam vazne voda netece ... a nikdo mu to nechtel verit.

bez přezdívky

Sdílet

Autor článku

David Slížek

Témata:

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?