Fakulta informačních technologií ČVUT a CESNET zveřejnily datovou sadu pro detekci hrozeb a predikci síťového provozu. Podle tvůrců jde o největší dataset svého druhu. Josef Koumar, Karel Hynek, Tomáš Čejka a Pavel Šiška svoji práci publikovali v časopise Nature.
Dataset obsahuje přes 800 tisíc časových řad zachycujících anonymizovaný síťový provoz z reálné akademické sítě. Ta zahrnuje počítače, servery, routery a síťovou aktivitu celých institucí.
Zveřejněný dataset má posloužit pro výzkum predikce síťového provozu, detekci anomálii a správu počítačových sítí pomocí prvků umělé inteligence.
Detaily o datové sadě jsou k dispozici zde. Open source knihovna TS-Zoo pro práci s datasetem je na GitHubu. Dokumentace je pak tady.
“Na rozdíl od běžně používaných uměle vytvořených laboratorních datových sad, které měla vědecká komunita dosud k dispozici, zachycuje tento dataset rozsáhlý a různorodý provoz reálných počítačových sítí. Jde o bezprecedentní počin, který výrazně posouvá možnosti výzkumu v oblasti kybernetické bezpečnosti a správy sítí. Umožňuje vývoj vysoce přesné umělé inteligence pro detekci anomálií, a hlavně její komplexní a robustní testování v reálných podmínkách s různorodým provozem. Výrazně tak zvyšuje věrohodnost výsledků detekce, například útoků typu DDoS nebo podezřelého chování infikovaných zařízení,” shrnuly CESNET a FIT ČVUT.
“Význam přínosu posiluje také publikování open-source knihovny CESNET TS-Zoo, která usnadňuje práci s datovou sadou a zároveň umožňuje snadné sdílení metodologie prostřednictvím benchmarků. Kombinace realistického datasetu a open-source nástroje přispívá k vyšší transparentnosti metod a reprodukovatelnosti experimentů – tedy ke kvalitnějším a ověřitelným výsledkům v celém výzkumném ekosystému.”