Část Internetu zhavarovala. Tentokrát kvůli výzkumu!

V pátek 27. srpna dopoledne testovali výzkumní pracovníci RIPE NCC, pracující na projektu RIS, zatím nepoužívaný atribut směrovacího protokolu BGP4. Některé směrovače s tím měly problém a problém se eskaloval natolik, že část Internetu byla nedostupná. Co se stalo?

Že RIPE NCC provozuje své laboratoře, je všeobecně celkem známá věc. Některé výsledky jejich práce nám slouží denně, aniž bychom si to vůbec uvědomovali. Jednou z vývojových aktivit kolem RIPE NCC je kupříkladu nameserverový software NSD, další pak služba RIS (Routing Information Services), která získává data o směrování v Internetu z řady míst po světě a na získaných datech pak provozuje řadu aplikací, z nichž nejznámější je asi BGPviz, umožňující přehledně sledovat, odkud a jak jsou oznamovány jednotlivé prefixy (směrované bloky IP adres), zda došlo v minulosti k nějakým změnám, výpadkům, změnám v routingu atd. A právě vývojáři RIS začali do části Internetu (konkrétně do nizozemských peeringových uzlů AMS-IX, NL-IX a GN-IX) v 11:41 našeho času oznamovat prefix 93.175.144.0/24 s atributem, označeným nepoužívaným kódovým číslem, kde délka dat umístěných v tomto atributu měla délku zhruba tři tisíce bajtů, obsahujících samé nuly.

Náhle se stalo cosi, co nikdo neočekával. Z amsterdamského peeringového uzlu AMS-IX, jednoho z největších na světě, se náhle ztratilo 80 gigabitů za sekundu internetového provozu. V podobné míře se ztratil provoz i z londýnského LINXu, o něco méně provozu ztratil frankfurtský DE-CIX. Pokles provozu o cca 6 Gbps postihl i NIX.CZ. Proč? Na to se nacházela odpověď až postupně. Primárně byly postiženy nejvýkonnější směrovače od Cisco Systems, používající určité konkrétní verze operačního systému IOS XR, tedy narozdíl od předchozího podobného problému, způsobeného překlepem u malého českého ISP, byly postiženy zejména větší sítě s nejmodernějšími směrovači (tedy zejména jejich „vlajkovou lodí“ CRS-1, ale kolují i informace o tom, že postiženy byly i některé směrovače GSR, tedy starší řada Cisco 12000). Mezi postižené patřil nizozemský Leaseweb, jeden z největších světových poskytovatelů hostingu (který ztratil na zhruba hodinu několik set gigabitů datového provozu), British Telecom, Proxad, německá síť Vodafone (bývalý Arcor), Portugal Telecom, z českých pak v o něco menší míře Telefonica O2 a částečně (jeden peer) GTS Novera.

Graf O2

(veřejně dostupný graf provozu na jedné z linek TO2 do NIX.CZ)

Zajímavé je, že Cisco již déle než rok ví o podobné chybě, která se kdysi v IOS XR vyskytovala a podle všeho se zdá, že oprava uvedené chyby řeší i problém z pátku 27. srpna 2010, neboť problémem nebyly postiženi zdaleka všichni operátoři používající ve své síti platformu Cisco CRS-1 (kupříkladu Deutsche Telekom zůstal problémem zcela nepostižen).

CIF16

Ihned po vzniku problému se objevily hlasy, že globální Internet by neměl být využíván jako testovací platforma pro výzkumné projekty, protože podobná chyba může způsobit rozsáhlé škody. S tímto názorem si dovolím nesouhlasit, pokud by na daný problém nepřišel výzkumník z RIPE NCC, mohl by na něj přijít někdo jiný a zneužít jej kupříkladu paralelně při útoku na jinou část internetové infrastruktury, kupříkladu současně s masivním DDoS útokem na rootovské nameservery. Proto je vlastně dobře, že se slabinu v software páteřních směrovačů podařilo odhalit, a pokud si z celé události máme odnést nějaké poučení, je jím skutečnost, že nejlepším řešením uvedeného problému je diverzita, tedy mít v sítích v roli ASBR (hraničních směrovačů) různá zařízení se zcela odlišným software, nejlépe od různých výrobců. Chyby v software totiž byly, jsou a jestli je něco v budoucnosti jisté, tak že zde i nadále budou.

Při psaní tohoto článku vycházel autor pouze z veřejně dostupných zdrojů.

70 názorů Vstoupit do diskuse
poslední názor přidán 2. 9. 2010 15:28

Školení Instagram pro firemní i osobní marketing

  •  
    Jak zakládat a používat účty.
  • Jak publikovat a vyhodnocovat.
  • Jak si poradit s hastagy.

Detailní informace o školení Instagram»