Hlavní navigace

Rajarshi Gupta (Avast): AI malwaru bude bojovat proti AI antivirů

Autor: Jan Sedlák
Jan Sedlák

Útočníci budou používat AI a budou přicházet s novými malwary, které zmatou současné klasifikátory, předpovídá šéf sekce umělé inteligence v Avastu.

Doba čtení: 13 minut

Sdílet

Rajarshi Gupta je ředitelem sekce umělé inteligence (Head of AI) v Avast Software, kde zodpovídá za produkty a výzkum v oblasti umělé inteligence a řídí výzkumné týmy v Silicon Valley a v Evropě. Společně pracují na AI řešeních pro detekci škodlivého softwaru, ochranu mobilních zařízení i zabezpečení sítí. Před nástupem do Avastu pracoval ve společnosti Qualcomm Research, kde stál za vytvořením technologie Snapdragon Smart Protect, která jako vůbec první využívala k zabezpečení strojové učení přímo v zařízení.

Gupta v rozhovoru pro Lupu popisuje, proč je umělá inteligence pro Avast a celou branži zásadní a proč skutečně mluví o AI, a nikoliv statistice.

Ve své kariéře jste zvládl vytvořit několik patentů a pracoval třeba v Qualcommu. Proč jste se nakonec připojil k Avastu?

Už nějakou dobu se zabývám strojovým učením a v Qualcommu jsem dělal na projektu, který strojové učení používá přímo na koncovém zařízení pro účely kybernetické bezpečnosti. Pro Qualcomm se z toho stal poměrně velký produkt a já si vybudoval solidní povědomí o protnutí strojového učení a bezpečnosti. Vždy mi tato oblast přišla zajímavá, takže když mi Avast nabídl, abych v něm vedl aktivity kolem AI zaměřující se na bezpečnost 450 milionů lidí, byla to pro mě velmi zajímavá technologická a intelektuální výzva. AI je dle mého nejkritičtější součástí kybernetické bezpečnosti budoucnosti.

V čem se liší umělá inteligence tak, jak ji děláme dnes, od toho, co už je známé řadu let? Máme nyní pouze více dat a výpočetní síly?

To je dobrá otázka a věřím, že komunita kolem AI je upřímná v tom, že mnoho fundamentálních algoritmů bylo ve skutečnosti vyvinuto v 60. a 70. letech minulého století. V té době ovšem tyto algoritmy byly zajímavé v teorii, nebylo je ale možné zcela využívat, protože se tehdy dalo pracovat s neuronovými sítěmi, které měly tak dvě vrstvy.

V posledních deseti letech se staly tři věci, a to v podstatě náhodně. Máme k dispozici ohromné množství označených dat, která jsou v podstatě dostupná pro každého. Stačí se podívat na Flickr, YouTube a podobně. To jsme dříve neměli. Druhou věcí je „exploze“ kolem GPU, takže místo toho, abychom měli neuronové sítě se třemi vrstvami, se kterými toho nejde moc udělat, najednou můžeme mít třeba 300 vrstev. Tyto dvě věci zajistily, že se lidé začali AI více zabývat. Což má za následek to, že se začalo značné množství chytrých lidí do branže přidávat, a to přináší i peníze. Díky tomu vznikají nové věci. Takže je to kombinace označených dat, strojů a lidí.

Rajarshi Gupta, Avast Software
Autor: Jan Sedlák

Rajarshi Gupta, Avast Software

A opravdu se bavíme o AI, a ne „pouze“ o statistice, regresi a spol.?

AI je takový širší deštník, který zastřešuje více technologií. Třeba robotika je specifická technologie spadající pod širší pojem AI. Strojové učení je oblast, která se zde vyvíjí nejrychleji, ale celkově se obecně skutečně bavíme o AI. Namísto toho, abychom psali software a říkali mu, že „IF něco THEN něco“, dáváme mu příklady a ukázky. Systém pak sám vyřeší, co má dělat. Stroje už samozřejmě dobře umí samostatně fungovat třeba ve výrobní lince, kde něco vezmou, dají jinam a podobně. Vypadá to jako ve filmu Modern Times od Charlieho Chaplina. Dnes už ale můžeme mít robota s kamerou, který dokáže poskládat křeslo z IKEA. Zvládne to pomocí učení. Takže toto je umělá inteligence.

Jistě se najde řada lidí z branže, kteří by s tímto pohledem nesouhlasili…

Tím jsem si jistý. Také se na to můžeme dívat tak, že tomu budeme říkat rozšířená inteligence (augmented intelligence). Rozšiřujeme inteligenci lidí tím, že řadu věcí předáváme strojům.

Proč je podle vás AI nejdůležitější součástí budoucnosti kybernetické bezpečnosti?

Děje se to, že množství a rychlost útoků velice rychle narůstají. Škodlivý kód je vytvořen, rozšířen, udělá špatnosti a během deseti minut se vypaří. V podstatě ani nemáte čas napsat kód, který by ho dokázal detekovat. Musíte tedy mít software, který je schopný se učit a detekovat v reálném čase. A zde se tedy bavíme o AI. Musíte vidět data, rozumět tomu, co se děje, rozšířit současné detektory o rozpoznávání nových patternů a pak škodlivý kód zastavit. Tohle jde reálně dělat pouze pomocí AI. Nejenom Avast, ale celá naše branže do toho hodně investuje.

Šlo by tedy přiblížit, na co u vás AI používáte?

AI je vloženo do mnoha věcí, na kterých děláme. Jednou z věcí je detekce malwaru, kde AI používáme v podstatě na každé vrstvě – je na vašem počítači, kde uděláte základní volání do cloudu a tam postavíme velké detekční modely. Další věcí, kterou Avast dělá, je internet věcí. Myšlenkou je mít software, který „sedí“ nad domácí sítí, dívá se na traffic a statistiky posílá do cloudu, kde se vyhodnocuje, zda je provoz dobrý, či špatný. To je rovněž řešeno skrze AI. Umělou inteligenci rovněž používáme v rámci naší společnosti na vyhodnocování prodejů a podobně. To je v podstatě moje role, abychom vyřešili, jak AI nasadit všude možně skrze celou firmu.

V Avastu máme velký data lake, který už byl vybudován před řadou let. Je distribuovaný přes více lokalit ve více zemích. Nad tím pak používáme tradiční nástroje, jako jsou Kafka, Hadoop a další. Tam dáváme více méně všechna data, která máme, vyjma těch, kde je třeba řešit legislativu a podobně. Skladujeme PB dat. Jen data pro malware mají 8 až 10 TB. V tom nejsou započtena data ze síťového trafficu a další. Používáme desítky tisíc serverů.

Rajarshi Gupta, Avast Software
Autor: Jan Sedlák

Rajarshi Gupta, Avast Software

Jedním z problémů datových vědců a AI inženýrů je to, že sice mají obrovské množství dat, ale často nejsou schopní zcela vytěžit jejich potenciál – pokud tam nějaký vůbec je…

Ano, to je velmi rozšířený problém. Mám třeba kamaráda v Tesle, který říká, že když byl Ph.D. studentem, 20 procent času trávil probíráním se daty a 80 procent času vytvářením algoritmů. A teď, když je v Tesle, se poměr zcela obrátil. Data jsou jen zřídka vyčištěna a musíte trávit velmi hodně času kompletací, čištěním a tak dále. Teslu jsem použil jako příklad, ale v branži je to zcela běžná věc.

Kolik procent dat, která v Avastu máte, jste schopni vytěžit?

To je velmi dobrá otázka a záleží na tom, jaký řešíte problém. Jsou oblasti, kde data proudí pomalu a už jsou v podstatě zastaralá, a někde jich je zase tolik, že je problém je vytěžit. Nelze říci, kolik přesně dat dokážeme využít a je to opravdu případ od případu. Někde zvládneme 100 procent, někde jsou v podstatě nepoužitelná.

Zjistěte víc na konferenci

Umělá inteligence a její využití pro kybernetickou bezpečnost bude tématem konference CyberSec & AI Prague 25. října 2019 v pražském Centru současného umění DOX:

  • 14 předních světových odborníků
  • zástupci Kalifornské univerzity v Berkeley, Michiganské univerzity, Švýcarského federálního technologického institutu v Lausanne, Stanfordovy univerzity, NYU, italské Univerzity v Cagliari, Torontské univerzity, ČVUT v Praze, Avastu a dalších
  • více než 6 hodin odborných přednášek a příspěvků a panelová diskuze
  • registrovat se můžete na www.cybersecprague.ai.

Avast sbírá data z koncových zařízení, kde je nainstalovaný, ze síťového provozu či IoT. Musíte ale také nakupovat informace od třetích stran?

Ve skutečnosti ani ne. Máme výhodu v tom, že máme silnou uživatelskou základnu, aktuálně kolem 450 milionů lidí. Ty ani tak nepovažujeme za zákazníky, jako spíše za součást naší sítě. Vás notebook či chytrý telefon jsou to, co nám dává data, která potřebujeme. Jde o kolaborativní proces mezi každým počítačem, telefonem či cloudem, který s námi komunikuje. Samozřejmě sdílíme informace a soubory s dalšími společnostmi v branži, to je zcela standardní. Ale neděláme to, že bychom za miliony dolarů kupovali data jinde.

Avast se stal součástí projektu Chronicle spadajícího pod Alphabet, mateřský podnik Googlu. Co přesně to znamená?

Chronicle dělá to, že se dívá na hromady dat, která mají enterprise zákazníci, a z nich zjišťuje, co se děje. K tomu potřebuje takzvanou expertní znalost – jak například poznat, jestli je daný soubor dobrý, nebo špatný? My na data máme jiný pohled než Chronicle. Ten je vidí z pohledu veliké banky, my z pohledu zákazníka té banky. Takže sdílíme naše informace a Chronicle je pak schopný lépe své zákazníky chránit. Děláme rovněž společný výzkum. Více detailů nemohu sdělovat, ale je to oboustranně výhodné.

Novým technickým ředitelem Avastu se stává Michal Pěchouček, který si zároveň ponechá pozici profesora na ČVUT. V Česku není zcela běžné, aby jedna osoba zastávala vysokou pozici v komerčním sektoru a zároveň působila v akademické sféře. Ve Spojených státech je to ale poměrně běžné a propojují se tak dva světy, které by spolu měly spolupracovat. Co od Michalova zapojení očekáváte?

S Michalem už se nějakou dobu známe, a to i díky spolupráci s ČVUT. Akademický sektor vždy v AI dělal velice zajímavé výzkumy, které se pak dostávaly do praxe. Důvod toho, proč v poslední době dochází k většímu propojování, je to, že se doba dostávání těchto výzkumů do praxe výrazně zkracuje – klidně z deseti let na deset týdnů. Průmysl jasně vidí výhody spolupráce s akademickým sektorem a ten zase miluje to, když má k dispozici reálná data a podobně. Michal může přinést perspektivu z obou těchto světů.

Předpokládám, že angažování Michala Pěchoučka, který spoluvybudoval Cognitive Security (startup využívající AI pro detekci anomálií) a prodal jej Ciscu, je potvrzením toho, že je nyní AI pro Avast zásadně důležité.

Ano. Ještě předtím, než jsem se do Avastu připojil, už Ondřej Vlček hodně nahlas říkal, že AI je budoucnost. To byl ostatně i důvod toho, proč firma najala mě. Michal je dalším krokem.

Je možné nějak kvantifikovat, jak vypadají výsledky bez AI a s AI?

Připadá mi, že lidé často mají tendenci vnímat AI jako jednu „krabici“, do které se něco „zapojí“ a něco se pak zlepší o tolik a tolik procent. Tak to nefunguje. Není zde jeden klasifikátor, je to mišmaš mnoha klasifikátorů, detektorů a podobně, které jsou spojeny dohromady a vše funguje velice komplexně. Avast má asi třicet různých detektorů a kolem 14 z nich používá na různé úrovni AI. Jsou detektory, které bez AI nelze použít, a jsou detektory, které žádné AI nemají. A vše spolupracuje dohromady.

Na horizontu je několik věcí, které vidíme jako trend a kde bude AI třeba. Jednou z nejviditelnějších je to, že IoT zařízení po celém světě vytvoří velice velké prostředí, které půjde jednoduše napadnout a zneužít. My a celá branže do této oblasti opravdu hodně investujeme a během následujících pěti let se uvidí, jak tato bitva bude vypadat. Dalším trendem bude něco, čemu se říká deep attacks. Útočníci budou používat AI a budou přicházet s novými malwary, síťovým trafficem a tak dále. Bude možné vytvořit kód, který zmate současné klasifikátory. Boj s něčím takovým je velice zajímavá technologická výzva.

Takže lze očekávat souboje AI versus AI?

Rozhodně. Mnoho dnešních AI algoritmů je open source, což je relativně nová věc. Windows a podobně byly historicky uzavřené systémy, ale nyní je řada věcí open source, z čehož lze těžit, ale také to znamená to, že je stejný software dostupný dobrým i špatným lidem. Kdykoliv se objeví nový open source, je třeba počítat s tím, že ho budou používat i bad guys.

V bezpečnosti běžně vezmeme kód či soubor a klasifikátor rozhodne, zda je dobrý, nebo špatný. To je v základu to, co děláme. Útočníci mají před sebou výzvu, aby špatné věci vypadaly jako dobré. Je zde mnoho způsobů, jak toho dosáhnout. Můžete použít jiný header a tak dále. Když máte jako útočník nějaký vzorek a klasifikátor na druhé straně řekne, že je to špatný kód, získáte nějaké nové informace, vzorek upravíte, zase vyzkoušíte a tak dále. Naše odpověď na to bude taková, že nedovolíme na nás dělat tolik dotazů. To je příklad toho, jak takový svět vypadá.

Dalším může být to, že útočník vytvoří vzorek, který musí být vyhodnocen. Vytvoří ho pomocí nástrojů a softwarových balíků. My tyto softwarové balíky známe a můžeme na základě jejich prvků zjistit, že jde o útok. Je to boj, který neustále pokračuje a postupně se vyvíjí. Na začátku se psaly a prováděly útoky ručně, pak přišly automatizované skripty a tak dále.

Je v případě AI detekcí úspěšnost 99 procent dostatečná?

S 99% úspěšností detekce se potýkáme v podstatě pořád. Nemůžete být dokonalí. Je 99 % dost? Pravděpodobně ano, protože když odchytíte 99 % věcí včas, naučíte se z toho a řeknete to ostatním. Takže lze říci, že 99 % je dobrých na první detekci a o pět minut později už je to 100 %. To je asi docela dobré.

Ve světě detekce malwaru máme ve skutečnosti jiný problém. Představte si klasifikátor, který má úspěšnost detekce přes 90 %, ale čtyři procenta false positive. My musíme žít ve světě s velmi nízkým procentem těchto falešných detekcí. Průměrný telefon má dejme tomu kolem 200 aplikací. Jednoprocentní false positive tedy znamená, že zablokujeme dvě legitimní aplikace. My musíme operovat s 0,1 procenta. To znamená, že způsob, jak navrhujeme klasifikátory a jak trénujeme strojové učení, se mění. Pro technické lidi je zde ROC křivka mezi true a false positive detekcemi. To, kde „sedíte“ na ROC křivce, mění to, jaké algoritmy je možné použít.

Rajarshi Gupta, Avast Software
Autor: Jan Sedlák

Rajarshi Gupta, Avast Software

Jak se díváte na „záležitost černé skříňky“ a vysvětlitelnost rozhodnutí AI?

To je výzva, která se dotýká mnoha částí AI, a oblast bezpečnosti je jedna z těch důležitějších. Máme třeba detektor, který je velmi dobrý a má úspěšnost 98 až 99 procent. Všechny naše testy ukáží, že je dobrý. Ale když detektor řekne, že je něco špatně, můžeme to zablokovat, ale nemůžeme to publikovat.

Danou věc můžeme zablokovat na uživatelově přístroji, což je dobrá věc, ale zároveň tuto věc chceme publikovat a říci dalším lidem, že je to špatná věc. Jenže to není možné, protože detektor neřekl, proč danou věc zablokoval. Můžeme výsledek z popisovaného klasifikátoru vzít s tím, že jde o špatnou věc, a dát to do dalšího klasifikátoru a tam zjišťovat, v čem je ta věc špatná. To už je zcela jiný typ klasifikátoru a je to jedna z možností, jak se s danou problematikou vypořádávat. Ale není to úplné řešení problému. Touto věcí se v našem týmu v Avastu i v akademickém sektoru hodně zabýváme.

Kyberbezpečnostní společnosti jsou něco, co se nazývá frenemies, tedy přátelé i nepřátelé dohromady. Přirozeně si konkurují v byznysu, ale zároveň si velice aktivně vyměňují data a informace. Bude tento trend s nastupující AI zesilovat?

Jsem rád, že se na toto ptáte. Mnoho lidí si totiž neuvědomuje, že jednotlivé subjekty v naší branži blízce spolupracují. Jsme společně na té samé straně. Společně sdílíme informace a pýcha či hrdost jsou v tom, že něco detekujeme jako první. Když někdo něco takto zjistí, vždy se pak jasně uvádí, od koho původní detekce přišla, a lidé pak výsledky a informace sdílí. Konkrétně sdílíme soubory, detekce a výsledky. Konkurujeme si pak našimi detektory.

A je tedy možné, že trend sdílení dat bude ještě více zesilovat a vytvoří se řekněme více centralizovaný data lake?

V oblasti strojového učení je jedna velmi dobrá teorie, která říká, že současný stav je lepší (ensemble learning – poznámka redakce). Řekněme, že chcete něco klasifikovat. Jednou možnost je postavit jeden velký klasifikátor, nejlepší, jaký můžete mít. Druhou možností je pak postavit pět různých menších klasifikátorů, které nejsou tak dobré. Ale když pak jejich výsledky spojíte, je možné statisticky zjistit, že je výsledek lepší. Takže Kaspersky má klasifikátor, Symantec má klasifikátor, my máme klasifikátor a tak dále, díky čemuž lze získat lepší informace.

EBF19

Je kyberbezpečnostní obor lákadlem pro lidi kolem AI?

V AI oblasti kolem 75 procent lidí pracuje v oblasti vision. Dalších 10 procent se zabývá zpracováním jazyka a dalších 10 procent se pak věnuje audiu. Na všechno ostatní pak zbývá pět procent lidí. Když se podíváte na to, jak je kybernetická bezpečnost pro svět důležitá, nemyslím si, že by AI komunita pro tyto účely dodávala dostatek mozků. Rádi bychom, aby takových lidí bylo mnohem více. To je i jedním z důvodů toho, proč v Praze budeme 25. října pořádat konferenci CyberSec & AI Prague, kde budeme problematiku kolem celé oblasti řešit, a soustředit se hodně chceme na spolupráci akademického a soukromého sektoru.