„Omluvte prosim rozsahly vypadek sluzeb. Intenzivne pracujeme na naprave. Ocekavejte nasledne vyjadreni,“ objevilo se ve čtvrtek odpoledne na facebookové stránce firmy Ignum. Ta kromě registrování domén poskytuje také hostingové a serverhostingové služby.
Podle prvních informací mělo jít o problém switchů v datovém centru společnosti a čas jeho odstranění se odhadoval na 20 minut. Opravu většiny potíží ale firma nakonec oznámila na Twitteru až po několika hodinách: „V tuto chvíli je obnovena konektivita významné části sítě. Prozatím trvá nedostupnost VDS. Pokračujeme v konfiguraci switchů.“
Co tedy výpadek způsobilo? Podle technického ředitele firmy Marka Ernekera došlo k potížím při výměně switchů: „Příčinou výpadku sítě je rozpadnutí protokolu, zajišťujícího fungování okruhů a redundantních propojů, které v naší síti zajišťují funkčnost i v případě výpadku některé z komponent. K této situaci došlo v průběhu rutinního připojování nových switchů a za běžné situace tato mechanika v podstatě bez jakéhokoliv pozorovatelného výpadku síť zpět sestaví. V tomto případě však nedošlo k výpadku žádné z komponent a vzniklá nestabilita sítě postupně přetížila veškeré její klíčové prvky. Náš dohledový systém zachytil první příslušné okolnosti v 16:08, kdy jsme jej také začali okamžitě analyzovat. Díky vzniklému lavinovému efektu došlo v síti ještě k několika menším problémům, které v důsledku prodloužily dobu jejího odstraňování,“ napsal Lupě.
Erneker také potvrzuje, že firma při řešení problémů odpojila části sítě: „Abychom umožnili stabilizaci sítě, dočasně jsme odpojili některé její části, a to tak, že se jednotlivé prvky postupně stabilizovaly. To umožnilo opětovné sestavení protokolu a znovupřipojení odpojených částí sítě. Přibližně pak od půl šesté evidujeme funkčnost páteřních prvků sítě. Současně s tím bylo nutné většinu koncových switchů postihnutých předchozím přetížením kompletně restartovat tak, aby došlo k opětovnému získání správné konfigurace. Z toho důvodu byly jednotlivé servery postupně oživovány tak, jak docházelo k postupnému oživení switchů v rozsahu od 18. do přibližně 19. hodiny.“
Podle některých klientů ale potíže s částí služeb přetrvávaly ještě dnes. „Včera 3 hodiny nefungovaly, mně třeba nejede VDS server doteď, nefunguje jim ani support a slibované vyjádření stále nikde,“ napsal Lupě dnes dopledne jeden z nich.
„V současné době se počet nefunkčních VDS pohybuje okolo 20. Počet je proměnlivý, jelikož VDS reagují na změny v konfiguraci sítě a proto je třeba vše odladit,“ potvrzuje mluvčí firmy Jiří Jaroš.
Klienti si zároveň stěžovali, že v době výpadku nedostávali dostatek informací o tom, co se děje. Nefungoval totiž ani helpdesk, což firma na Twitteru sama přiznala. Podle mluvčího helpdesk nebyl zasažen výpadkem, protože se nachází mimo firemní síť. Nestačila ale jeho kapacita: „Na vině byl rozsah výpadku, na který reagoval počet zákazníků větší, než byla zákaznická podpora schopna obsloužit. Vyvarování se opakování této situace je v řešení,“ uvádí mluvčí.