“Bez kvalitních dat se AI v bezpečnosti neposune,“ míní Tomáš Čejka

Shutterstock.com
Autor: Shutterstock.com
Jak se metody umělé inteligence v síťovém monitoringu uplatňují v praxi?
Dnes
pr článek

Sdílet

CESNETDoc. Ing. Tomášem Čejkou, Ph.D., předním odborníkem na monitoring a bezpečnost ze sdružení CESNET

S rostoucí rychlostí sítí a objemem přenášených dat se monitoring síťového provozu proměnil z prostého měření v komplexní analytickou disciplínu. V prostředí vysokorychlostních linek a převážně šifrované komunikace už nestačí sledovat provoz pomocí pravidel nebo jednoduchých statistik. Do popředí se dostávají metody umělé inteligence, jejichž využití je však podmíněno dostupností kvalitních, dobře připravených dat. Rozhovor s doc. Ing. Tomášem Čejkou, Ph.D., předním odborníkem na monitoring a bezpečnost ze sdružení CESNET, který se se svým týmem dokázal prosadit i v prestižním časopise Nature Scientific Data, přibližuje, jak se metody umělé inteligence v monitoringu uplatňují v praxi. Kde skutečně pomáhají a kde narážejí na své limity?

CESNET si letos připomíná třicet let své existence. Jak se za tu dobu proměnil monitoring síťového provozu, od prvních nástrojů až po dnešní analýzu vysokorychlostních linek?

Každého asi na první pokus napadne nejviditelnější parametr, a to je rychlost komunikace a související objem provozu. Z technologického pohledu je velký rozdíl, jestli monitorujeme pakety na lince 1 Gb/s nebo 100 Gb/s. Čas na zpracování se při vyšších rychlostech zkracuje a pokud analyzátor nepracuje dostatečně rychle, začne pakety ztrácet. Výzvy představuje samozřejmě i množství metadat, která potřebujeme zpracovávat a ukládat pro zpětné vyhodnocení nebo dohledání kontextu k bezpečnostním incidentům.

I náš výzkumný tým se v posledních letech zaměřoval na zajímavou výzvu v podobě monitorování šifrovaného provozu. Šifrování je zásadní pro ochranu důvěrnosti komunikace, zároveň však činí provoz pro monitorovací a bezpečnostní systémy nečitelným. Proto dlouhodobě zkoumáme možnosti, jak pomocí strojového učení a umělé inteligence analyzovat provoz bez nutnosti jeho dešifrování, samozřejmě za cenu rostoucích nároků na výpočetní výkon monitorovací infrastruktury.

Jakou roli hraje monitoring síťového provozu v ochraně a provozu výzkumné infrastruktury a proč se bez něj dnes neobejdou ani velké instituce?

Osobně bych se neomezoval na velké nebo malé instituce. V České republice máme špičkový výzkum a vývoj, unikátní technologie a produkty, které se dokáží prosadit i celosvětově. To znamená spoustu informací, které potřebujeme bránit. Pro bezpečnost je monitorování velmi důležité, pokud hrozbu nevidíme nebo neměříme, nedokážeme se proti ní efektivně bránit. Naše výzkumné oddělení se soustředí primárně na monitorování vysokorychlostního síťového provozu, ale užitečné informace poskytuje i monitorování koncových zařízení. Bezpečnostní hrozby se neustále vyvíjí, a proto i zlepšování zabezpečení a schopností obrany musí být kontinuální proces. Jako sdružení CESNET se snažíme přispět výzkumnými aktivitami a vyvíjenými nástroji, které jsou z většiny zveřejňovány jako open source.

Kdy se v oblasti monitoringu a bezpečnosti vysokorychlostních sítí ukázalo, že pravidlové a statistické přístupy přestávají stačit a je potřeba pracovat s metodami strojového učení, které se dnes často shrnují pod pojem “AI”?

Metody strojového učení v oblasti síťové bezpečnosti jsou předmětem výzkumu už dlouhou řadu let a každá má své výhody, nevýhody a oblast uplatnění. Pokud bychom se snažili v síťovém provozu hledat konkrétní vzor podle nějakého přesného pravidla, například “spusť DDoS útok”, který by jednoznačně identifikoval konkrétní hrozbu, u šifrovaného provozu nám to nebude správně fungovat. Většina reálného provozu se již posílá šifrovaně, a proto výzkumníci hledají jiné způsoby, často probabilistické, které by dokázaly alespoň přibližně vyhodnotit, zda je provoz hrozbou nebo se jedná o neškodnou komunikaci. Tady nastupují statistické přístupy a hledání charakteristických vlastností, které můžeme u provozu počítat nebo měřit a vyhodnocovat. Na statistice jsou postavené i metody strojového učení. 

Jak se dnes v praxi rozděluje role mezi lidský dohled a automatizované metody při správě a ochraně výzkumných sítí?

V ideálním případě bychom rádi automatizovali všechny rutinní úkoly tak, aby lidským operátorům zbylo jen malé zvládnutelné množství důležitějších případů, které vyžadují zkušenosti a kreativitu odborníků. Reálná situace je samozřejmě individuální a záleží na konkrétním prostředí a použitých technologiích. V oblasti monitorování provozu a detekce bezpečnostních hrozeb se snažíme co nejvíce přispívat nástroji, které lidskému personálu pomáhají anebo provádí analýzu automaticky na pozadí. Drtivá většina bezpečnostních událostí se v rámci síťové infrastruktury CESNET3 detekuje automaticky.

Pracujete s reálnými síťovými daty a sami vytváříte datové sady pro výzkum. Co je v tomto kontextu největší problém: objem dat, jejich proměnlivost, anonymizace nebo fakt, že „správná“ data pro učení často vůbec neexistují?

Pokud se chceme něco naučit, potřebujeme k tomu správný návod a stejně tomu je i u strojového učení / umělé inteligence. Trénování potřebuje správná, a především kvalitní data.

Etické vytváření datových sad vyžaduje zvýšenou opatrnost a pečlivou anonymizaci. To se však dá vyřešit nastavením správného procesu. Horší je to s určením, jak velkou datovou sadu vlastně potřebujeme. Obecně nemusí platit, že čím je datová sada větší, tím je lepší. Změny chování síťového provozu, které se označují jako drifty, mohou ovlivňovat výkon detekce. Proto je nutné hledat modely odolné vůči driftům nebo modely průběžně přetrénovávat.

V oblasti obrany proti DDoS útokům hraje klíčovou roli rychlost reakce. Jaký přínos zde dnes mají metody strojového učení a kde naopak narážejí na své limity?

Strojové učení může pomoci lépe a rychleji identifikovat pakety, které přispívají DDoS útoku. Toto je klíčové, protože kdybychom dopředu věděli, které pakety jsou “škodlivé”, a měli jejich popis, samotné zahazování by už bylo relativně snadné. Bohužel to tak přímočaré není, protože “škodlivé” pakety vypadají stejně nebo velice podobně jako ty legitimní.

Vaše oddělení stojí na pomezí výzkumu a ostrého provozu. Jak náročné je převádět metody umělé inteligence z výzkumného prostředí do infrastruktury, která musí fungovat spolehlivě a bez výpadků?

Přirovnal bych to k cestě, která je náročná už od fáze příprav až po dosažení cíle výpravy. Kvalitní výzkum vyžaduje hodně pečlivosti, studia, experimentů a vývoje prototypů, které musí správně fungovat. Zároveň potřebujeme přemýšlet, které konkrétní nápady má smysl realizovat až do stavu, kdy je z nich produkční komponenta, kterou nasadíme a budeme udržovat v provozu. Spoustu experimentů není třeba dotahovat až do produkční verze nástroje, ale jsou užitečné k ověření použitelnosti nápadů a směru výzkumu a na jejich výsledky následně lze navazovat.

Historicky se snažíme funkční výsledky výzkumu nasazovat v rámci naší infrastruktury. U vybraných vyvinutých technologií silně podporujeme i myšlenku komerčního využití, což přirozeně vyžaduje nejdelší cestu. 

Z pohledu správy a bezpečnosti výzkumných sítí: v čem jsou dnes očekávání spojená s umělou inteligencí realistická a kde je naopak potřeba je korigovat?

Celosvětově vidíme a čteme o obrovských investicích do oblasti umělé inteligence. To bezesporu umožňuje velmi rychlý a výrazný posun kupředu a možná i postupné naplňování různých očekávání. Optimisticky si myslím, že bude vývoj dále pokračovat a výstupy budou přesnější a důvěryhodné. Stále je však podle mého názoru nutné přemýšlet kriticky a ověřovat fakta. Z pohledu bezpečnosti a suverenity bohužel stojíme před prohlubující se situací, kdy nové technologie začínáme potřebovat, protože usnadňují a zefektivňují naši práci, čímž se však stáváme více závislými na externích, většinou mimoevropských, poskytovatelích služeb. Otázkou zůstává, jaká citlivá data nebo informace můžeme a chceme zadávat do externích služeb?

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).