Monitoring a moderní služby sítě (1.)

25. 11. 2004

Doba čtení: 5 minut

Vývoj v oblasti síťových služeb a aplikací přináší změny ve struktuře síťového provozu. Služby, donedávna realizované pomocí dedikovaných infrastruktur, postupně směřují ke společné přenosové platformě. Jak se to promítá do oblasti monitoringu sítě a jejího provozu? Co se zdá být důležité, rozumné, smysluplné a efektivní pro běžnou praxi v této oblasti?

Co nelze měřit a sledovat, to nelze ani dobře a efektivně řídit. V obecném měřítku je snahou získat pokud možno komplexní informace o stavu, chování a vývojových trendech sítě jako celku, jejích stavebních prvků, služeb, aplikací, uživatelů. Monitorování je nezbytnou podmínku úspěšného provozu jakékoli infrastruktury.

Historicky byla oblast monitoringu vnímána především jako podpora pro zajištění elementární funkčnosti sítě (stavy linek, chybovost, směrování). V současné době se spektrum potřeb posouvá jak do oblasti specifických parametrů vyžadovaných jednotlivými typy datových přenosů (konkrétní služby, reálně časové aplikace), tak směrem k celé trase přenosu (fyzické i logické), a to postupně až ke koncovým uživatelům (end-to-end performance). Zároveň přibyla i provozně analytická potřeba. Kromě vlastního zájmu operátora na zajištění a optimalizaci funkce sítí a služeb přibývají i povinnosti vyplývající ze zákona.

Co všechno může být předmětem zájmu? Ověřování základních i specifických funkcí sítě, služeb a aplikací, optimalizace funkcí a efektivita využití zdrojů, spolehlivostní charakteristiky, řešení anomálií a bezpečnostních událostí, analýza útoků, ale také monitorování provozu na požádání oprávněných orgánů. Z dlouhodobého hlediska je důležité sledování vývojových tendencí včetně chování uživatelské komunity a příprava podkladů pro strategické plánování.

Dlouhodobý trend vývoje sítí a jejich služeb

Historicky byla naprostá většina komunikačních a informačních služeb realizována prostřednictvím více či méně nezávislých technických prostředků, a to jak na straně poskytovatelů, tak na straně uživatelů. Řízení takových sítí, mechanismy poskytování služeb i způsoby jejich zpoplatňování byly odvozené od konkrétního typu služby a jejího dlouhodobého vývoje. Dynamický rozvoj v oblasti multifunkčních komunikačních sítí s sebou přinesl možnost koexistence více služeb ve společném technologickém celku (např. sdílená páteřní infrastruktura) a od toho odvozenou i určitou míru jejich vzájemné závislosti (např. společné podpůrné prostředky – IP transport, DNS, AA mechanismy apod.). Nicméně vývoj zjevně spěje dále od koexistence k integraci služeb (např. data, hlas, obraz), a tedy k další, intenzívní konvergenci na straně sítí, ale i směrem k postupnému sjednocování technických prostředků uživatelů (např. trend ve vývoji mobilních telefonů, PDA apod.). Rozhraní mezi sítí a uživatelem se bude patrně vyvíjet směrem ke komplexnímu integrovanému prostředí, které by mělo být univerzální a transparentní jak ve smyslu rozsahu a kvality jednotlivých funkcí, tak z hlediska distribuce (mobilita v obecném smyslu). V praxi to znamená schopnost budoucích sítí poskytovat libovolnou kombinaci např. hlasových, obrazových, datových, výpočetních, skladových a dalších služeb aktuálně požadovaným způsobem (interaktivně, v reálném čase, offline apod.), konkrétnímu uživateli, a to vždy stejně, na základě jeho oprávnění bez ohledu na lokalitu.

Nárůst složitosti monitoringu

Dostatečnou vypovídací úroveň již prakticky nelze získat měřením jednotlivých veličin. Požadované výsledky je nutné často skládat z naměřených hodnot získaných naprosto odlišnými typy měření (např. SNMP (simple network management protocol), aplikační logy, měření na bázi toků dat, flow). Každý zdroj informací se přitom sám vyvíjí, a to převážně směrem k větší a větší podrobnosti. Nicméně ochota výrobců sjednocovat a standardizovat způsoby získávání informací není příliš zjevná.

Rostoucí různorodost požadavků kladených na výstupy běžně implikuje takové metody získávání primárních dat a jejich následného zpracování, které nejsou ve vzájemném principiálním souladu (např. dlouhodobé trendy vs. krátkodobé analýzy, přesné vs. agregované výstupy). Mechanismy měření a dalšího zpracování je nutné rozkládat do většího počtu kroků s větším počtem rozvětvení datových toků, takže z původně jednoduché aplikace provozované na jednom stroji se stává složitá, síťově distribuovaná záležitost se specifickými nároky na údržbu.

Následující velmi jednoduchý příklad demonstruje účelnost kombinace dvou měřicích metod. Příčina dynamického nárůstu provozu na lince měřené prostřednictvím SNMP (na vzdálenějším rozhraní) vedoucí až k její částečné neprůchodnosti byla analyzována prostřednictvím měření na bázi flow získaných ze zdroje bližšího jádru sítě.

Průběh zátěže linky- standardní SNMP měření

Část následné analýzy pomocí naměřených dat na bázi flow – hrubá agregace s cílem nalezení dominantních zdrojů a cílů.

Nárůst objemu dat

Množství informací, které je nutné sbírat kvůli dostatečné vypovídací hodnotě, je násobeno dalšími faktory. Například rozsahem infrastruktury, její rostoucí průchodností a složitostí, nárůstem provozu i množstvím uživatelů. Specifickou roli, obzvláště v oblasti měření založených na bázi flow, hraje především skladba provozu, jinými slovy jeho různorodost. Nárůst objemu údajů například z aplikačních logů je analogický, stejně jako rostoucí objemy primárních dat dané žádoucím nebo vynuceným zkracováním časových kroků měření při získávání hodnot veličin typu čítačů (např. SNMP).

Pro ilustraci: počet exklusivních kombinací zdrojová IP adresa – cílová IP adresa, sledovaných v pětiminutových intervalech na páteřních směrovačích v období provozní špičky v letech 1997–1998 (akademická síť TEN-34 CZ), se pohyboval v řádech stovek až tisíců. V roce 2004 se během jedné minuty pohybuje tato hodnota v síti stejného typu (CESNET2) v rozsahu až stovek tisíc, a to metodou, při které byl zpracován pouze jeden IP flow záznam z každých pěti vygenerovaných.

Ve zmiňovaném období (1997–1998) bylo také na základě měření přibližně 85–95 procent celkového přeneseného objemu (vzorek velikosti desítek dnů, páteř TEN-34 CZ) realizováno jen několika málo službami (http, ftp, nntp, smtp) s relativně fixními vazbami mezi reálnou aplikací a identifikátory transportních protokolů. S rozvojem služeb s komunikací realizovanou na dynamické alokaci těchto identifikátorů se situace radikálně změnila a např. údaje o skladbě provozu se opírají o statistické metody a teorii pravděpodobnosti. Výjimečné postavení si uchoval pouze http protokol, významný je podíl rsync i klasického ftp – data, ale služby z rodiny FSS (file sharing services) společně s pasivním ftp a další – z hlediska protokolární identifikace „anonymní“ – služby jsou již více či méně dominantní. Vezmeme-li v úvahu i nárůst četnosti paušálních útoků (DDoS, DoS, scany, smurf), může se v závislosti na způsobu následného zpracování dostávat množství generovaných dat typu flow (reálné špičky např. okolo 200.000/s a průměry okolo 20.000/s) do rozporu z množstvím dostupných zdrojů.

Jako příklad uvádím průběh četnosti záznamů typu flow exportovaných ze směrovače kampusového typu. Jedná se o exportní formát Cisco NetFlow v. 5, takže zjednodušeně lze konstatovat, že vznik jednoho záznamu je podmíněn exklusivní kombinací zdrojových a cílových IP adres, čísel portů služeb (mají-li význam) a transportního protokolu (pozn. pro znalé: hodnoty zbývajících klíčových flow polí verze 5 jsou v tomto případě podmíněny hodnotami IP adres). Demonstrovaný průběh nekoresponduje s průběhem objemu provozu, je především závislý na jeho skladbě. Obdobné anomálie mohou indikovat série DoS útoků, ale nemusí tomu tak být vždy. Podstatné je, že pro pozdější analýzu možných incidentů je nutné data uchovávat v neagregované podobě poměrně dlouho (zpravidla týden, nejlépe měsíc) a způsobem, který umožní jejich efektivní prohledávání. Při této četnosti a délce jednoho záznamu cca 50 B to nemusí být triviální úloha ani při hrubém „zředění“ dat vzorkováním na vstupu (viz červený průběh).

Průběh četnosti exportovaných flow záznamů

V příštím pokračování se podíváme na monitoring v souvislosti s moderními službami v reálném čase, na důležité místo monitoringu v souvislosti s bezpečností sítí a také na otázky kolem zdrojů.

Zajímáte se o to, zda váš operátor sleduje stav svých služeb s cílem udržet souvisle jejich avízovanou kvalitu ?

Vstoupit do diskuse (5 názorů)

Líbí

Nelíbí

Tomáš Košňar

Autor se dlouhodobě specializuje na sledování infrastruktury rozsáhlých sítí, analýzu jejich provozu a vývoj nástrojů k tomu vhodných. Jeho domácí půdou je sdružení CESNET a síť CESNET2.