Hlavní navigace

Walter Pavliš (Cogniware): Poznat deep fake video je snadné, nejhorší je analýza polopravd

13. 1. 2021
Doba čtení: 16 minut

Sdílet

 Autor: Cogniware
Obchodní ředitel firmy Cogniware Walter Pavliš vysvětluje, jak nový modul systému Insights detekuje dezinformace.

Česká firma Cogniware od roku 2014 vyvíjí specializovaný software Insights pro bezpečnostní složky států, který pomáhá při vyšetřování kriminální činnosti. Na konci loňského roku představila modul na odhalování fake news, který označuje jako „kladivo na dezinformace“.

Systém dokáže propátrat veřejně přístupný obsah na sociálních sítích nebo vybraných serverech a určit, zda jsou zprávy pravdivé, nebo ne. Jak vysvětluje obchodní ředitel Cogniware Walter Pavliš, zejména v loňském roce se množství dezinformačního obsahu výrazně zvýšilo, ale odhalit některé polopravdy není vůbec snadné.

Co je cílem vašeho nového modulu na rozpoznávání fake news?

Je to systém postavený na neuronových sítích a skládá se z několika subsystémů. Tím prvním, poměrně robustním a velkým, je subsystém jménem MEDUSA od našeho italského partnera. MEDUSA slouží k monitorování vybrané části sociálních sítí. Zákazník si řekne, jakou část internetu a trafficu na sociálních sítích chce sledovat, a systém pak sbírá data. Vždy jde jen o veřejné informace, žádné soukromé zprávy nebo e-maily. Vyberete si třeba Twitter, Facebook, Instagram, v nich výběr zúžíte na zájmové skupiny nebo konkrétní lidi. A po tomto zúžení přichází na řadu druhá část systému postavená na neuronkách, tu už dodáváme my. Tento subsystém umí oskórovat jednotlivé zprávy ze sociálních sítí. Na tuto činnost máme natrénovaných několik desítek neuronek. Subsystém pak prozkoumá zprávy a ohodnotí, zda jde o dezinformace, dezinformační kampaně, úplné lži a podobně.

Z čeho vaše neuronové sítě při hodnocení zpráv vycházejí?

Hodnocení stojí na dvou oblastech. První se týká toho, jak obsah vypadá, jakou má charakteristiku, jak je text postavený stylisticky, zda autor používá kapitálky, jaké používá nadpisy, jak moc bombasticky se tváří a podobně, zkrátka hledá, zda zpráva odpovídá tomu, jak běžně vypadají dezinformace. A druhá oblast, ze které vycházejí naše neuronové sítě, je analýza sociální interakce kolem zveřejněných zpráv. Systém tedy zkoumá, kdo zprávu přeposílá, jak rychle a kam se informace šíří. A cílem naší služby je najít a ohodnotit zprávu podle toho, zda je pravdivá, nebo ne. Přesněji máme čtyři kategorie, do kterých zprávy zařadíme. Tou první jsou zjevně pravdivé zprávy, dále že se jedná o jasně rozpoznatelnou lež cílící na konkrétní oblast čtenářů, případně zatřetí, a to je bohužel časté, že zpráva leží na pomezí pravdy a nepravdy, tedy že je částečně pravdivá a částečně smyšlená. To je ostatně nejčastější způsob dezinformování čtenářů. Poskytnete jim kousek pravdy a kousek lži a tím je uvedete v omyl. A nakonec máme kategorii neověřitelných zpráv. Nejčastěji to jsou nějaké číselné údaje, třeba počet mrtvých při nějaké události. Jde zpravidla o údaje, které vůbec neznáme. A když to shrnu, tak náš systém se snaží zprávy obodovat na stupnici od nuly do stovky a tím poskytne zákazníkovi přehled o tom, kolik a jakých dezinformací se po sociálních sítích šíří.

Pojďme si tedy vysvětlit, jak to rozpoznávání konkrétních dezinformací přesně funguje.

V první řadě potřebujeme velký dataset, na kterém neuronové síti vysvětlíme, jak vypadají dezinformace. Referenční vzorek toho, jak vypadají dezinformace, obvykle dodá zákazník, to jsou v našem případě většinou státní organizace, třeba bezpečnostní služby. Datasety se obvykle liší podle sociální a kulturní oblasti, kterou má systém mapovat. Dezinformace na Středním východě vypadají úplně jinak než ve Velké Británii nebo v Evropě. A vzorky se liší i podle kulturní a sociální oblasti, úplně jinak vypadají zprávy ze Středního východu, jinak zase z Evropy. Odlišnosti najdeme i v konkrétních oblastech, které máme sledovat, ať už jde o politiku, volby, zdravotnictví, nebo třeba sportovní utkání. Pokud bychom stejný systém nasazovali tady v Čechách, tak bychom ho museli kompletně přetrénovat, ideálně podle nějakého státu, který je blízký České republice. Nejde ani tak o jazykovou sadu, ale právě o místní zvyklosti ve vztahu k dezinformacím, protože dezinformace vypadají všude úplně jinak.

Jak velký musí být vstupní dataset, aby se neuronová síť naučila správně poznávat dezinformace?

Musíme do ní nahrát desetitisíce zpráv a ručně říct, že tyto zprávy jsou pravdivé, tyto lživé, tyto těžko ověřitelné a podobně. Pro úplnost, náš systém sám o sobě nerozpozná pravdu a lež, nekontroluje faktickou správnost zpráv, ale s jistou pravděpodobností určí, zda se charakter zprávy blíží dezinformaci, nebo ne.

Takže to není žádný fact-checking, ale sledujete skutečně jen to, zda zpráva stylisticky odpovídá tomu, co my chápeme jako dezinformace?

Ano, fact-checking neděláme, protože je pro strojové učení příliš složitý. Když si vezmete třeba iniciativu Demagog.cz, tak ta vezme zprávu a snaží se dohledat, zda je skutečně pravdivá, nebo ne. To by ve strojovém zpracování prostě nešlo. A i kdyby ano, bylo by to velmi pomalé. Fact-checking není účelem naší služby. My se snažíme zprávy zařadit do nějaké kategorie a pak je dát finálnímu uživateli k vlastnímu hodnocení. Na konci je stejně vždy člověk, který má sadu zpráv a vybírá si z nich ty, které jsou nebezpečné. Dezinformace a hlouposti je dnes schopný vymyslet a dát na internet každý. A naším úkolem je takové zprávy najít.

To je tedy analýza textových zpráv a sdělení. Vy se ale věnujete i hledání obrazových a videodezinformací. Jak se taková práce liší od analýzy textu?

Při analýze obrazových zpráv hledáme, jestli snímek nebyl použit už někde jinde. Dezinformátoři často vezmou část snímku, třeba záběru autonehody se spoustou zraněných, a tyto snímky přiřadí třeba ke zprávě o demonstraci. Náš systém je schopný to odhalit na základě analýzy objektů na snímku a zjistit, zda obrázek nebyl už použitý na zpravodajských serverech. Úspěšnost neuronky ale zase závisí na tom, jak robustní nám zákazník dodá databázi. A stejně to funguje u videa, protože je to vlastně série snímků, Pro tyto případy máme i facial recognition modul, který mimochodem používá i české Ministerstvo vnitra. Vyhráli jsme s ním docela zajímavě postavené výběrové řízení, ve kterém se nesoutěžilo o cenu, ale pouze o kvalitu. Náš modul musel na 20 milionech fotografií identifikovat stovku lidí. A tento facial recognition modul používáme i tak trochu na fact-checking v tom smyslu, že zkoumáme, zda člověk na záběru je skutečně tím, za koho vydává, nebo naopak jde o podvod. Při fotomontážích cizích obličejů na fotku dost často dochází k poměrně zásadní deformaci markerů na tváři a snižuje se pravděpodobnost, že systém vyhodnotí obličej jako podobný předloze. Fotomontáž se tedy pozná tak, že systém vyhodnotí podezřele nízkou shodu obličeje se snímkem v databázi. Místo 95% shody je třeba jen 80%. Spíš než obličeje ale na snímcích hledáme jiné objekty, případně výřezy, a ověřujeme, zda už nebyly použité jinde.

Jakým způsobem získáte referenční databázi? Máte vlastní fotobanky a videobanky, nebo vám tato data opět dodá klient?

Vlastní databanky nevytváříme. Musím ale říct, že zrovna tato úloha není tak častá. Zákazníka (Spojené arabské emiráty, pozn. red.) nejvíce zajímá textový obsah a co týče obrazu, jde zpravidla jen o doprovodné snímky, které slouží jako jeden z parametrů pro zhodnocení celé zprávy. Málokdy je dezinformace šířena jenom za pomoci obrázků.

Čím myslíte, že to je? Vyrobit fake obrázky je těžší? Nebo hůř fungují na příjemce?

Těžko říct. Pouhý obrázek možná neřekne zdaleka tolik jako alespoň krátký doprovodný text. Když napíšete dezinformační zprávu, že policie mlátí v Praze demonstranty, bude to mít nejspíš větší dosah než pouhý obrázek bez kontextu.

A jak složité je vytvořit fake video?

Je to úplně triviální, sám jsem byl překvapen, jak jednoduché to je udělat. Každý, kdo se tím třeba 14 dní bude zabývat, tak zvládne vytvořit velmi kvalitní deep fake, a to jen za pomoci freeware nástrojů. Nejtěžší je nahradit hlas správným mluvčím. Schopnosti našeho systému jsme prezentovali fake videem s projevem Andreje Babiše, přičemž jako mluvčího jsme sehnali imitátora Petra Jablonského. Systém to odhalil poměrně snadno, protože i při imitaci lze velice snadno odhalit rozdíly v hlasovém otisku. Ale kdybyste to chtěl udělat sám, tak nejspíš vyberete nějakou ukázku hlasu mluvčího, kterého chcete napodobit, a zkusíte ji strojově upravit tak, aby říkala to, co chcete. A to půjde odhalit už docela těžko. Pro ověřování hlasu využíváme software české firmy Phonexia, která se zabývá vývojem nástrojů na analýzu hlasových otisků. A stačí vám jen zhruba 20 vteřin nahrávky na to, abyste na 99 % určil, zda mluvčí odpovídá hlasovému záznamu, nebo ne.

Implementaci podle hlasu jste do svého systému zavedli poměrně nedávno. Co to přesně znamená v praxi? Jak funguje ověřování pomocí hlasu?

Jde o technologii Deep Embedings, kdy hluboké neuronové sítě vygenerují vysoce reprezentativní matematické modely lidského hlasu, takzvané voiceprints. Pro ověření identity je třeba mít asi dvacetivteřinovou nahrávku hlasu mluvčího. Z té uděláme biometrický otisk hlasu a pro následnou identifikaci nám stačí jen 3 nebo 4 vteřiny dlouhý kontrolní záznam. Hlas je jedinečný, poznává se dokonce lépe než obličej. Člověk stárne, může mít vousy nebo brýle. Hodně to komplikuje i třeba záběr obličeje ze strany místo zepředu. Hlas funguje při poznávání lépe a s větší pravděpodobností, je to velice šikovná technologie, která se velmi často nasazuje v silových složkách. Proto analýzu hlasu nasazujeme právě u deep fake videí, když chceme poznat, zda hovoří skutečný mluvčí, nebo jeho imitátor.

Představili jsme si tady několik základních forem dezinformací. Které z nich je nejtěžší rozeznat? Je to text, nebo jsou to obrázky, video, hlas?

Video a hlas se poznávají snadno, v tom nám pomáhá technika, o které jsme už mluvili. Nejtěžší je text, obzvlášť pokud je to text obsahující polopravdy. Často si u toho představuji Goebbelse nebo schopného novináře, který řekne nějakou částečnou pravdu a z ní udělá vývod totální lži. Tím oklame diváka nebo čtenáře a je velmi těžké takovou dezinformaci detekovat, protože zprávě systém neudělí plné skóre. A roli v takovém případě už hraje jen autor. Pokud mluví Goebbels, tak nezbývá než vztyčit prst a říct „tady pozor“. A kromě autora jsou důležité i kanály, kterými se zpráva šíří. Pokud putuje přes různé sociální skupiny a dezinformační struktury, zanechá charakteristickou stopu. Než se dezinformace dostane do širokého povědomí, většinou projde jakýmsi sítem šiřitelů, kteří naskočí na vlnu a rádi šíří různé bombastické zprávy založené na polopravdách. Nebo zprávu převezmou z dezinformačního serveru, kterému věří, případně s ním přímo spolupracují. Taková stopa je pro detekci mnohem lepší než rozpoznávání obsahu.

Takže vy jste schopní vystopovat i cestu dezinformace od zdroje k publiku?

Ano, tuto funkci jsme vyvinuli na základě požadavku zákazníka, který nejenže chce být upozorněn na dezinformační kampaně, ale snaží se i dopátrat, kdo za falešnými zprávami stojí. Pro silové složky je důležité vědět, kdo se snaží ovlivňovat chování příjemců zpráv.

A co myslíte tím zdrojem dezinformace? Dokážete vystopovat například konkrétního člověka nebo instituci, která za tou zprávou stojí?

Záleží to samozřejmě na mnoha a mnoha aspektech. Pokud se jedná o šíření dezinformace, kterou vymyslí běžný člověk, tak ji asi dohledáme. Ale když to bude profík, který nechce být odhalen, tak jsme bez šance. Zjistíme jen, kde se to poprvé objevilo, v horším případě najdeme jen první linii šiřitelů. Ale když autor nebude chtít, abychom ho našli, a bude šikovně zametat stopy, tak ho prostě nenajdeme. Přece jenom, pohybujeme se ve světě internetu, kde založíte server, vypustíte jednu zprávu a zase ho smažete. Nicméně pro běžnou práci i tohle stačí.

A poslední otázka k technologické stránce věci, prohledáváte jen sociální sítě, nebo jste schopni mapovat i další konkrétní části internetu?

Naše úloha zní „sledujte a hledejte dezinformace veřejného charakteru“, tudíž se ani nepotřebujeme dostat do jiných částí internetu, natož třeba do soukromé pošty, to není naším cílem. Naše zdroje tvoří zpravidla zmíněné sociální sítě a pak různé zpravodajské weby.

Dokážete zákazníkům nabídnout i strategii, jak s fake news bojovat?

Ne, to neděláme, není to naší úlohou. Jsme technologická firma. Umíme najít dezinformace, zjistit, odkud pochází, jsme schopní rychle rozpoznat, zda se jedná jednoznačně o fake, nebo je to někde na pomezí, dáme uživateli podklady pro jeho vlastní rozhodnutí, ale tím to pro nás končí.

Když se ohlédnete za loňským rokem, který byl kvůli pandemii koronaviru sám o sobě dost komplikovaný, byl také bohatý právě na dezinformace související ať už s nemocí samotnou, nebo i možnostmi léčby, vakcinací a podobně. Vnímal jste to stejně?

Osobně si myslím, že to byl v oblasti dezinformací zdaleka nejplodnější rok, jaký jsme kdy zažili. Jedním z důvodů může být to, že obrovská část populace začala doslova žít na sociálních sítích. Rok 2020 je pro mě rokem, kdy všichni najednou začali trávit velké množství času na Facebooku, Twitteru a Instagramu a ze sociálních sítí se pro ně stal hlavní zdroj informací. O tomto trendu se mluví dlouho, ale loni to bylo mnohem výraznější než kdy dřív. Hlavním zdrojem zpráv byla dřív televize, ale když se na to dnes podíváte, tak i televizní zpravodajství od rána do večera kopíruje dění na Twitteru. Chápu, že pro novináře je to nejsnadnější způsob, jak získat nové informace, ale pak vidíte, že co se ráno objeví na Twitteru, to je v poledne ve zprávách. A je jedno, jestli se díváte na Českou televizi, nebo na Novu. Sociální sítě vládnou informačnímu toku a naprosto přebraly úlohu informování lidi o událostech. Samozřejmě, zpravodajství pořád tvoří korektní novináři třeba z ČTK nebo Hospodářských novin, ale mezi nejsledovanější profily patří třeba Poslední skaut, který, kdyby chtěl, tak mezi tisíce lidí rozšíří dezinformaci, kterou pomocí fact-checkingu vyvrátíte až za několik dní a v hlavách ta zpráva i tak už zůstane. Rok 2020 neuvěřitelně přispěl k tomu, jak mocným médiem jsou sociální sítě a lidé, kteří na nich sdílí své „pravdy“.

Pojďme se teď na Cogniware podívat z hlediska podnikání. Váš modul na rozpoznávání dezinformací jste v listopadu začali nabízet i zákazníkům. Jaký je o něj zatím zájem?

Zájem je zatím spíš opatrný. Náš software nebudou využívat soukromé firmy nebo běžní uživatelé, je určený pro silové složky států. Momentálně ho využívá náš zákazník ze Spojených arabských emirátů, dále máme první zájemce z Evropy a jsme teď ve fázi, kdy potenciálním uživatelům vysvětlujeme, co náš systém umí, ale hlavně co neumí. Nechceme vyvolat žádná přehnaná očekávání nebo pocit, že si zákazník pořídí náš systém a s dezinformacemi bude mít vystaráno. Musíme hlavně vysvětlovat, že boj s dezinformacemi je nikdy nekončící běh a že je potřeba neuronové sítě krmit stále novými daty, aby dokázaly vyhledat aktuální fake news, jinak za dva měsíce systém zestárne a je k ničemu.

Dezinformace, alespoň z mého pohledu, nejsou žádná novinka, k dění na internetu patří už řadu let. Proč jste se tomuto tématu začali věnovat až teď?

S tímto nápadem přišel náš zákazník, přičemž my jsme navrhli řešení, jak dezinformace hledat. Problém je, že musíte rychle vyhodnocovat obrovské množství informací. A našim vývojářům se podařilo přijít s řešením, které je funkční. Vývoj trval asi tři čtvrtě roku a ze začátku dlouho trvalo, než jsme našli správné modely na trénink detekce dezinformací. Postupně se nám podařilo pomocí jednotlivých mikromodelů nastavit systém tak, aby dokázal relevantně oskórovat zprávy podle jejich pravdivosti.

A kdy přesně přišel váš zákazník s tímto zadáním?

Někdy na začátku loňského roku. Zájem projevoval už dřív, přičemž naše firma je postavená na tom, že neustále nabízíme inovativní využití umělé inteligence. Zabýváme se hodně systémy pro vyšetřování a analýzu důkazů. To je hlavní gró práce Cogniware, na kterém firma vyrostla. Máme systém, který když nakrmíte správnými daty, dokáže pomáhat při vyšetřování. Například odhalí, jestli se nějací lidé potkali ve stejný čas na stejném místě. Případně jaké mají mezi sebou lidé vztahy, kdo komu posílá peníze, kdo s kým telefonuje a podobně. To se dá ostatně využít i při odhalování šiřitelů dezinformací.

Jak těžké bylo přidat k vašemu původnímu systému Cogniware Insights nový blok na rozpoznávání dezinformací?

Oba systémy se docela dost liší a bylo složité to celé dát nějak dohromady. Insights je systém pro vyšetřování důkazů, je to celek různých programů pro práci ve strukturovaných a nestrukturovaných datech. Strukturovaná jsou například data od operátorů o pohybu jednotlivců nebo skupin lidí, kdy potřebujete říct, zda dvě osoby byly mezi červencem a srpnem na jednom místě. Když to budete dělat ručně, strávíte nad tím týden, systém to má vyhodnocené v podstatě okamžitě. K těmto strukturovaným datům se přidávají nestrukturovaná, kdy zkoumáte sadu neutříděných dokumentů. Nelze tam moc uplatnit klíčová slova nebo analýzu kontextu, protože obsahu je tolik, že nedostanete dobrý výsledek. Systém tak musí pochopit spíš smysl dokumentu než samotný obsah. Pokud se v něm často objevují výrazy jako smlouva nebo IČO, systém odhalí, že dva lidé spolu řeší nějakou dodávku. A to už je podobné jako rozpoznávání dezinformací, protože zkoumáte celé objekty, smysl sdělení, nikoli vybraná klíčová slova.

Zmiňoval jste, že jste technologická firma a pracujete hlavně s analýzou pomocí neuronových sítí. Na druhou stranu, odhalování dezinformací není jen čistě technologická záležitost, je třeba mít také informace o místních poměrech a fungování sociálních sítí. Museli jste kvůli modulu na fake news kromě programátorů zaměstnat také nějaké humanitně vzdělané odborníky?

Ano, pro projekt v Emirátech jsme museli přibrat pár konzultantů, kteří nám poradili, jakou cestou se vydat a jaké hlavní znaky při hledání dezinformací sledovat. Šlo hlavně o analytiky, kteří už pracují pro tamní silové složky a znají oblast sociálních sítí a dezinformací. Radili nám, na co se zaměřit a který směr naopak znamená spíš slepou uličku.

Máte zákazníky převážně v zahraničí. Jak na vaše podnikání dopadla opatření v souvislosti s koronavirem?

Co se obratu týče, zaznamenáváme růst, byť konec fiskálního roku máme až v dubnu, takže nemůžu nabídnout přesná čísla. Očekáváme ale růst zhruba ve výši 10 až 20 %. Nicméně, kritické pro nás bylo omezení možnosti cestovat za zákazníky. Většinu zákazníků máme na Středním východě, v Čechách pouze dva. A restrikce v cestování plus různé obavy z nákazy nám hodně zkomplikovaly byznys. Ne snad že bychom přicházeli o zakázky, ale celý proces se protahuje. Místo jednoho měsíce řešíte všechno čtvrt roku, do toho pořád někdo chybí a věčně sháníte konzultanty z Austrálie nebo Anglie a Itálie. A pro zahraniční spolupracovníky je často problém dotahovat projekty do konce. Nutnost vídat se na dálku zamávala i s obchodem. Dříve bylo nemyslitelné vidět obchodního partnera online, vždy jsme museli přijet osobně, protože jinak by to chápali jako urážku. Postupně si už ale všichni na ty videohovory a jednání na dálku zvykají a myslím, že se to stane pravidlem.

DT2021

Jaké další moduly se chystáte letos přidat do systému Cogniware Insight?

Chystáme systém na rozpoznávání podpisů. Nepůjde ale o biometrické podpisy, jaké používají třeba banky, ale skutečně o běžné podpisy na papíře. Fungovat to bude tak, že do databáze nahrajete podpisové vzory a my je pak porovnáme s podpisy na fyzických dokumentech. Systém následně vyhodnotí, s jakou pravděpodobností jde o padělek, nebo originální podpis. Systém by měl sloužit bankám nebo různým institucím pro kontrolu pravosti podpisů. Zveřejnili jsme už demoverzi, můžete si ji vyzkoušet na našem webu. To je jedna věc. Dále pracujeme na odhalování událostí ve videu. Kolegové se zabývají rozpoznáváním toho, co se na záběrech děje, zda došlo třeba k nějaké rvačce, jestli někdo zkolaboval, nebo jen upadl a nemůže se zvednout. Dobře využít by to šlo třeba v metru, kde máte hodně kamer, ale málo strážníků. A chceme, aby náš systém dokázal analyzovat události na videu a v případě nouze automaticky zavolal policii. Velká budoucnost je i v biometrických detekčních systémech. Pracujeme na technologii rozpoznávání lidí podle chůze a cílem je nabídnout ucelené řešení, které dokáže najít osobu podle obličeje, hlasu, ale i chůze, takže i když bude mít zakrytý obličej, systém ho najde.