Hlavní navigace

Výzkumníci vyvíjejí AI nástroj na fact-checking. Ověří informace ve zprávách nebo tweetech politiků

1. 9. 2021
Doba čtení: 7 minut

Sdílet

 Autor: Jan Drchal, FEL ČVUT
Vědci z FEL ČVUT a dalších českých univerzit ve spolupráci s ČTK vytvářejí nástroj na usnadnění práce s ověřováním faktů.

Několik vysokých škol a Česká tisková kancelář (ČTK) spolupracují na projektu, který nemá v Česku obdoby. Jde o výzkum prakticky využitelné robotické žurnalistiky, kdy algoritmy pomůžou přehlceným novinářům ulehčit práci nebo poskytnout služby, které by jinak v takovém rozsahu a zároveň rychlosti byly pro novináře nedosažitelné. Výzkum finančně podporuje Technologická agentura České republiky v rámci programu ÉTA pod názvem "Proměna etických aspektů s nástupem žurnalistiky umělé inteligence“.

Projekt je unikátní ještě v jednom ohledu. Technicky orientovaní výzkumníci z Českého vysokého učení technického (ČVUT) a Západočeské univerzity v Plzni se zde míchají se studenty žurnalistiky a akademiky pod vedením moderátora Václava Moravce z Fakulty sociální věd Univerzity Karlovy, což je nečekaná kombinace.

„Spolupracujeme s ČTK, která je pro nás tzv. aplikační partner a dodává nám své kompletní články. Reálně pracujeme s texty od roku 2000 a hrajeme si s objemem kolem 2,5 milionu článků. My za ČVUT v rámci této spolupráce děláme automatizovaný fact-checking,“ vysvětluje Jan Drchal z Centra umělé inteligence FEL ČVUT.

Projekt zaměřený na fact-checking odstartoval zhruba před rokem a cílem je nabídnout novinářům nástroj, který bude v reálném čase ověřovat fakta v materiálech, které ČTK poskytuje ostatním médiím. 

„V českém jazyce je fact-checking obecně problém, protože na rozdíl od angličtiny máme málo dat. Moderní výzkum je postavený vesměs na neuronových sítích, které potřebují data, aby se mohly učit. Fact-checking může pro každého znamenat něco trochu jiného. Něco jiného to znamená třeba pro Demagog.cz, kteří ověřují fakta ručně a se kterými budeme spolupracovat v rámci jiného projektu. My fact-checking bereme jako technické zadání. Někdo řekne nějaké tvrzení, větu nebo dvě, a my chceme určit, jestli je to pravdivé, nebo ne,“ dodává Drchal.

Inspirace v Cambridge

Pravda může mít v post-moderním světě mnoho podob. Výzkumníci v tomto případě odkazují na tzv. ground truth, tedy databázi ověřených textů. „Systém v první fázi vyhledá relevantní dokumenty, protože nemůžeme na 2,5 milionu textů koukat najednou. Je potřeba vyselektovat dokumenty, které jsou vhodné k tomu, aby se potvrdilo, nebo vyvrátilo konkrétní tvrzení, třeba počet kilometrů dálnic postavených v nějakém roce. Druhá část, které jsme se začali věnovat až teď později s tím, jak přibývala data, je samotné rozhodnutí. Vyselektované dokumenty – může jich být třeba 500 – dám dohromady a rozhodnu, jestli je to potvrzené, vyvrácené, nebo se to nedá určit.“

Výzkumníci teď přes prázdniny doučovali příslušné neuronové sítě a zároveň řešili nedostatek dat. „Vědci z Cambridge University v podobném projektu vzali anglickou Wikipedii a anotovali asi 150 tisíc tvrzení. Nám se to podařilo přeložit do češtiny, máme tím pádem výchozí věc, docela velký soubor dat, na kterých bylo možné různě natrénovat modely, otestovat to a porovnat s angličtinou. Hlavně jsme ale v roce 2019 navázali spolupráci s FSV UK a od konce loňského roku nám studenti žurnalistiky anotovali ČTK dataset. Je to poměrně složité, nejdřív musíme nějakým způsobem vymyslet tvrzení, která se budou dokazovat, tak, aby byla realistická. To znamená, že my najdeme článek, který bude tématem toho tvrzení, a pak ho obohatíme o další texty. Studenti na to vymýšleli základní tvrzení.“

„Aby nebyla jen pravdivá, tak se pak dělaly tzv. mutace, negovaná tvrzení, zaměnily se entity. Podobné změny se dělají, aby byla daná tvrzení co nejširšího charakteru. V druhé fázi to opravdu anotovali. Hledali texty, které sloužily k dokázání. Máme tým magisterských studentů a jednoho doktoranda, se kterými na tom pracujeme ten rok a budeme nadále. Docela to lidi na žurnalistice chytlo, teď k nám přišla studentka, která nám pomáhá lidsky klasifikovat výstupy modelů, abychom viděli například to, v jakých případech systém chybuje.“

Cílem je, aby novinář při publikaci zprávy dostal informaci nejen o tom, zda jsou uvedená tvrzení pravdivá, nepravdivá, či sporná, ale zároveň i odkazy na relevantní dokumenty. Systém nyní umí ověřit jednotlivé věty. Do budoucna by měl zvládnout zpracovat celé texty a označit v nich pasáže, které jsou potenciálně špatně ověřitelné či přímo nepravdivé.

„Teď se zabýváme i ověřováním tweetů. Zatím jsme ve fázi předzpracovávání dat. Postahovali jsme profily exponovaných lidí, hlavně politiků. Tweety jsou pro nás dobré, protože ty texty jsou krátké. Čím je text kratší a údernější, tím je pro náš výzkum vhodnější. Ale hodně tweetů má neurčitý charakter, neobsahují fakta. Často to není nic, co by člověk chtěl dokazovat, takže je třeba je profiltrovat. Na tom lze pak i sledovat různé trendy, třeba témata, o kterých se mluví,“ vysvětluje Drchal.

S fact-checkingem pomůžou neuronové sítě a grafické procesory

Celý systém běží na neuronových sítích, přičemž výzkumníci využívají předtrénované multilinguální sítě z databáze Hugging Face. Jde zejména o model BERT a jeho odvozeniny. „Multilinguálních modelů je méně k dispozici, nicméně se na nich pořád pracuje. Nevýhodou je, že zejména nejnovější složité modely vyžadují výkonný hardware. Je takřka vyloučené pouštět takové sítě doma na notebooku, protože by počítání trvalo neuvěřitelně dlouho. Respektive, počítat na CPU lze, ale je to řádově pomalejší. Není reálné takové modely učit, nebo doučovat. To bez GPU s velkou pamětí nejde.“

Co se výpočetního výkonu týče, vědci zapojení do fact-checkingového projektu nyní využívají nový cluster RCI projektu umístěný v budově FEL ČVUT na Karlově náměstí. Cluster se skládá ze serverů s procesory Intel Xeon a každý má čtveřici GPU Nvidia Tesla s 32 GB RAM. Cluster je připojený k vysokorychlostnímu internetu, takže se při propojení více nodů v síti výkon ještě násobně zvýší.

„Ale stejně nejsme ve stavu, kdy bychom byli schopní učit takovéto modely úplně od nuly. Ve skutečnosti se to dělá tak, že vezmete obrovské gigabajty textů a necháte sítě nejdřív předučit na obecných textech, jako jsou například články z Wikipedie. Dost často to předučí nějaký gigant typu Google nebo Facebook. Pak vezmete tuto předučenou síť a již s relativně menším počtem dat, která máte k dispozici, si ji přiohnete na úlohu, kterou chcete řešit. Doučíte ji to. Vybíráme tedy vhodné předtrénované modely, které jsou naučené na stovce jazyků, mezi nimiž je i český jazyk, a potom vymýšlíme, jak sbírat a čistit data, aby se to dalo přiučit třeba pro fact-checking.“

Předučené modely ohnuté pro konkrétní využití ve zpravodajství už teď v kombinaci s výkonným clusterem dokáží ověřovat tvrzení doslova bleskurychle. U jednotlivých vět trvá fact-checking stovky milisekund. „A to jsme zatím neřešili optimalizaci, pro kterou je pořád velký prostor. Zatím jsme se zaměřili hlavně na přesnost, ale cílem je ověřování v rámci milisekund. Vtip je v tom, že nejdřív celou databázi textů předzpracujete, což se dá krásně paralelizovat, dělat na těch strojích naráz. Máme balík zpráv od roku 2000 do roku 2020, což nám stačí, abychom systém nastavili. Na tom se předpočítají číselné reprezentace textů a potom musíme prohnat neuronovou sítí samotné tvrzení, když chceme něco ověřit,“ dodává Jan Drchal.

Zatím ve fázi testování

„Vytvořili jsme zatím rozhraní spíš pro nás, abychom mohli pohodlně zkoušet, jak systém funguje,“ říká Drchal a ukazuje webovou stránku s polem pro zadání vyhledávaného výrazu a několika ovládacími prvky. Výzkumníci takto testují, jaké výsledky ukazují konkrétní zvolené metody. Finální nástroj pro pracovníky ČTK bude mít odlišnou podobu a umožní i ověřování informací přímo formou anotace jednotlivých sdělení v těle konkrétní vydané zprávy. Prakticky použitelné řešení má být k dispozici na konci letošního roku. V dalších letech pak výzkumníci chtějí dílčí modely dále vylepšovat.

Systém po zadání hledané věty nabídne články z databáze ČTK, které považuje za relevantní, a zobrazí konkrétní odstavce, ve kterých se tvrzení nachází. K zobrazeným článkům přidá i informaci, nakolik je podle něj vyhledávané sdělení na základě informací z databáze pravdivé. A v případě, že informaci nemůže ověřit, zobrazí štítek NEI (not enough information). Jak systém vypadá, můžete vidět z přiložených screenshotů.

KL22 hlasovani

Ukázka nástroje na fact-checking.
Autor: Jan Drchal, FEL ČVUT

Ukázka nástroje na fact-checking.

Nástroj umí vyhledávat jak pomocí neuronové sítě, tak prostřednictvím klíčových slov. Vyzkoušeli jsme neuronku MBERT, která zatím bohužel není naučená přímo na databázi ČTK, ale pouze českou Wikipedii. V databázi ale i tak zvládá vyhledávat. Při zadání pokusného tvrzení „V roce 2018 se zdvojnásobil počet studentů IT oborů,“ síť vyhodnotila, že v dostupných zdrojových datech nemá pro ověření tvrzení dostatek informací.

Je Miloš Zeman prezidentem? Nástroj výzkumníků potvrzuje, že ano.
Autor: Jan Drchal, FEL ČVUT

Je Miloš Zeman prezidentem? Nástroj výzkumníků potvrzuje, že ano.

Zadali jsme proto snáze ověřitelný výraz „Miloš Zeman je prezidentem“. V tomto případě síť správně určila, že tvrzení je pravdivé. Zobrazil také články, které obsahují odstavce s informacemi dokládajícími pravdivost tvrzení. „Řešíme i problém, jak síť naučit při ověřování zvládat aritmetické operace. Například když bych se zeptal, kolik vozidel jelo ve vojenském konvoji, nástroj může zobrazit počty jednotlivých typů vozidel v koloně, ale ne jejich celkový součet,“ vysvětluje Drchal.

Autor článku

Novinář a moderátor, redaktor Lupa.cz a spolupracovník Českého rozhlasu Plus. Dříve působil také v marketingu a pracoval ve státní správě.