Výzkumníci vyvíjejí AI nástroj na fact-checking. Ověří informace ve zprávách nebo tweetech politiků

1. 9. 2021

Doba čtení: 7 minut

Ukázka systému na fact-checking od českých výzkumníků.

Vědci z FEL ČVUT a dalších českých univerzit ve spolupráci s ČTK vytvářejí nástroj na usnadnění práce s ověřováním faktů.

Několik vysokých škol a Česká tisková kancelář (ČTK) spolupracují na projektu, který nemá v Česku obdoby. Jde o výzkum prakticky využitelné robotické žurnalistiky, kdy algoritmy pomůžou přehlceným novinářům ulehčit práci nebo poskytnout služby, které by jinak v takovém rozsahu a zároveň rychlosti byly pro novináře nedosažitelné. Výzkum finančně podporuje Technologická agentura České republiky v rámci programu ÉTA pod názvem "Proměna etických aspektů s nástupem žurnalistiky umělé inteligence“.

Projekt je unikátní ještě v jednom ohledu. Technicky orientovaní výzkumníci z Českého vysokého učení technického (ČVUT) a Západočeské univerzity v Plzni se zde míchají se studenty žurnalistiky a akademiky pod vedením moderátora Václava Moravce z Fakulty sociální věd Univerzity Karlovy, což je nečekaná kombinace.

„Spolupracujeme s ČTK, která je pro nás tzv. aplikační partner a dodává nám své kompletní články. Reálně pracujeme s texty od roku 2000 a hrajeme si s objemem kolem 2,5 milionu článků. My za ČVUT v rámci této spolupráce děláme automatizovaný fact-checking,“ vysvětluje Jan Drchal z Centra umělé inteligence FEL ČVUT.

TIP: Josef Šlerka: Servery „made for Seznam“ a využívající pseudostránky z Facebooku poškozují klasická média

Projekt zaměřený na fact-checking odstartoval zhruba před rokem a cílem je nabídnout novinářům nástroj, který bude v reálném čase ověřovat fakta v materiálech, které ČTK poskytuje ostatním médiím.

„V českém jazyce je fact-checking obecně problém, protože na rozdíl od angličtiny máme málo dat. Moderní výzkum je postavený vesměs na neuronových sítích, které potřebují data, aby se mohly učit. Fact-checking může pro každého znamenat něco trochu jiného. Něco jiného to znamená třeba pro Demagog.cz, kteří ověřují fakta ručně a se kterými budeme spolupracovat v rámci jiného projektu. My fact-checking bereme jako technické zadání. Někdo řekne nějaké tvrzení, větu nebo dvě, a my chceme určit, jestli je to pravdivé, nebo ne,“ dodává Drchal.

Inspirace v Cambridge

Pravda může mít v post-moderním světě mnoho podob. Výzkumníci v tomto případě odkazují na tzv. ground truth, tedy databázi ověřených textů. „Systém v první fázi vyhledá relevantní dokumenty, protože nemůžeme na 2,5 milionu textů koukat najednou. Je potřeba vyselektovat dokumenty, které jsou vhodné k tomu, aby se potvrdilo, nebo vyvrátilo konkrétní tvrzení, třeba počet kilometrů dálnic postavených v nějakém roce. Druhá část, které jsme se začali věnovat až teď později s tím, jak přibývala data, je samotné rozhodnutí. Vyselektované dokumenty – může jich být třeba 500 – dám dohromady a rozhodnu, jestli je to potvrzené, vyvrácené, nebo se to nedá určit.“

Výzkumníci teď přes prázdniny doučovali příslušné neuronové sítě a zároveň řešili nedostatek dat. „Vědci z Cambridge University v podobném projektu vzali anglickou Wikipedii a anotovali asi 150 tisíc tvrzení. Nám se to podařilo přeložit do češtiny, máme tím pádem výchozí věc, docela velký soubor dat, na kterých bylo možné různě natrénovat modely, otestovat to a porovnat s angličtinou. Hlavně jsme ale v roce 2019 navázali spolupráci s FSV UK a od konce loňského roku nám studenti žurnalistiky anotovali ČTK dataset. Je to poměrně složité, nejdřív musíme nějakým způsobem vymyslet tvrzení, která se budou dokazovat, tak, aby byla realistická. To znamená, že my najdeme článek, který bude tématem toho tvrzení, a pak ho obohatíme o další texty. Studenti na to vymýšleli základní tvrzení.“

„Aby nebyla jen pravdivá, tak se pak dělaly tzv. mutace, negovaná tvrzení, zaměnily se entity. Podobné změny se dělají, aby byla daná tvrzení co nejširšího charakteru. V druhé fázi to opravdu anotovali. Hledali texty, které sloužily k dokázání. Máme tým magisterských studentů a jednoho doktoranda, se kterými na tom pracujeme ten rok a budeme nadále. Docela to lidi na žurnalistice chytlo, teď k nám přišla studentka, která nám pomáhá lidsky klasifikovat výstupy modelů, abychom viděli například to, v jakých případech systém chybuje.“

Cílem je, aby novinář při publikaci zprávy dostal informaci nejen o tom, zda jsou uvedená tvrzení pravdivá, nepravdivá, či sporná, ale zároveň i odkazy na relevantní dokumenty. Systém nyní umí ověřit jednotlivé věty. Do budoucna by měl zvládnout zpracovat celé texty a označit v nich pasáže, které jsou potenciálně špatně ověřitelné či přímo nepravdivé.

„Teď se zabýváme i ověřováním tweetů. Zatím jsme ve fázi předzpracovávání dat. Postahovali jsme profily exponovaných lidí, hlavně politiků. Tweety jsou pro nás dobré, protože ty texty jsou krátké. Čím je text kratší a údernější, tím je pro náš výzkum vhodnější. Ale hodně tweetů má neurčitý charakter, neobsahují fakta. Často to není nic, co by člověk chtěl dokazovat, takže je třeba je profiltrovat. Na tom lze pak i sledovat různé trendy, třeba témata, o kterých se mluví,“ vysvětluje Drchal.

S fact-checkingem pomůžou neuronové sítě a grafické procesory

Celý systém běží na neuronových sítích, přičemž výzkumníci využívají předtrénované multilinguální sítě z databáze Hugging Face. Jde zejména o model BERT a jeho odvozeniny. „Multilinguálních modelů je méně k dispozici, nicméně se na nich pořád pracuje. Nevýhodou je, že zejména nejnovější složité modely vyžadují výkonný hardware. Je takřka vyloučené pouštět takové sítě doma na notebooku, protože by počítání trvalo neuvěřitelně dlouho. Respektive, počítat na CPU lze, ale je to řádově pomalejší. Není reálné takové modely učit, nebo doučovat. To bez GPU s velkou pamětí nejde.“

Co se výpočetního výkonu týče, vědci zapojení do fact-checkingového projektu nyní využívají nový cluster RCI projektu umístěný v budově FEL ČVUT na Karlově náměstí. Cluster se skládá ze serverů s procesory Intel Xeon a každý má čtveřici GPU Nvidia Tesla s 32 GB RAM. Cluster je připojený k vysokorychlostnímu internetu, takže se při propojení více nodů v síti výkon ještě násobně zvýší.

„Ale stejně nejsme ve stavu, kdy bychom byli schopní učit takovéto modely úplně od nuly. Ve skutečnosti se to dělá tak, že vezmete obrovské gigabajty textů a necháte sítě nejdřív předučit na obecných textech, jako jsou například články z Wikipedie. Dost často to předučí nějaký gigant typu Google nebo Facebook. Pak vezmete tuto předučenou síť a již s relativně menším počtem dat, která máte k dispozici, si ji přiohnete na úlohu, kterou chcete řešit. Doučíte ji to. Vybíráme tedy vhodné předtrénované modely, které jsou naučené na stovce jazyků, mezi nimiž je i český jazyk, a potom vymýšlíme, jak sbírat a čistit data, aby se to dalo přiučit třeba pro fact-checking.“

Předučené modely ohnuté pro konkrétní využití ve zpravodajství už teď v kombinaci s výkonným clusterem dokáží ověřovat tvrzení doslova bleskurychle. U jednotlivých vět trvá fact-checking stovky milisekund. „A to jsme zatím neřešili optimalizaci, pro kterou je pořád velký prostor. Zatím jsme se zaměřili hlavně na přesnost, ale cílem je ověřování v rámci milisekund. Vtip je v tom, že nejdřív celou databázi textů předzpracujete, což se dá krásně paralelizovat, dělat na těch strojích naráz. Máme balík zpráv od roku 2000 do roku 2020, což nám stačí, abychom systém nastavili. Na tom se předpočítají číselné reprezentace textů a potom musíme prohnat neuronovou sítí samotné tvrzení, když chceme něco ověřit,“ dodává Jan Drchal.

Zatím ve fázi testování

„Vytvořili jsme zatím rozhraní spíš pro nás, abychom mohli pohodlně zkoušet, jak systém funguje,“ říká Drchal a ukazuje webovou stránku s polem pro zadání vyhledávaného výrazu a několika ovládacími prvky. Výzkumníci takto testují, jaké výsledky ukazují konkrétní zvolené metody. Finální nástroj pro pracovníky ČTK bude mít odlišnou podobu a umožní i ověřování informací přímo formou anotace jednotlivých sdělení v těle konkrétní vydané zprávy. Prakticky použitelné řešení má být k dispozici na konci letošního roku. V dalších letech pak výzkumníci chtějí dílčí modely dále vylepšovat.

Systém po zadání hledané věty nabídne články z databáze ČTK, které považuje za relevantní, a zobrazí konkrétní odstavce, ve kterých se tvrzení nachází. K zobrazeným článkům přidá i informaci, nakolik je podle něj vyhledávané sdělení na základě informací z databáze pravdivé. A v případě, že informaci nemůže ověřit, zobrazí štítek NEI (not enough information). Jak systém vypadá, můžete vidět z přiložených screenshotů.

Nástroj umí vyhledávat jak pomocí neuronové sítě, tak prostřednictvím klíčových slov. Vyzkoušeli jsme neuronku MBERT, která zatím bohužel není naučená přímo na databázi ČTK, ale pouze českou Wikipedii. V databázi ale i tak zvládá vyhledávat. Při zadání pokusného tvrzení „V roce 2018 se zdvojnásobil počet studentů IT oborů,“ síť vyhodnotila, že v dostupných zdrojových datech nemá pro ověření tvrzení dostatek informací.

Zadali jsme proto snáze ověřitelný výraz „Miloš Zeman je prezidentem“. V tomto případě síť správně určila, že tvrzení je pravdivé. Zobrazil také články, které obsahují odstavce s informacemi dokládajícími pravdivost tvrzení. „Řešíme i problém, jak síť naučit při ověřování zvládat aritmetické operace. Například když bych se zeptal, kolik vozidel jelo ve vojenském konvoji, nástroj může zobrazit počty jednotlivých typů vozidel v koloně, ale ne jejich celkový součet,“ vysvětluje Drchal.

Vstoupit do diskuse (22 názorů)

Ondřej Novák

Novinář a moderátor, redaktor Lupa.cz a spolupracovník Českého rozhlasu Plus. Dříve působil také v marketingu a pracoval ve státní správě.

Témata:

Dobrý den, v článku byl původně chybně uveden projekt Manipulátoři.cz. Údaj jsem následně opravil na Demagog.cz. Omlouvám se za případné zmatení. Ondřej Novák

bez přezdívky

Sdílet

Inspirace v Cambridge

S fact-checkingem pomůžou neuronové sítě a grafické procesory

Zatím ve fázi testování

Autor článku

Ondřej Novák

Témata:

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?

Návrh vlády: Česká televize přijde o miliardu, Český rozhlas o 400 milionů

AI agenti zaplavují internet. Boti mají tvořit polovinu provozu, provozovatelé webů se s nimi perou

Peklo pro účetní a firmy poztrácené v systému. Jak teď vypadá digitalizace státu v podobě JMHZ

Jarní fotbal na obrazovce: průvodce soutěžemi, kanály a tarify

Cloudflare na postkvantové kryptografii, Poláci kupují kvantový stroj, další firma z Evropy jde na burzu

Onsemi kupuje tvůrce procesorů z Brna, Brusel brzdí českou AI gigafactory, Microsoft zruší Ovládací panely

Svět domén v roce 2025: od kvantity ke kvalitě a bezpečnosti

Nových 500 hodin premiér Novy: skutečné kauzy pro Oneplay, ověřené seriály pro lineár

Privátní 5G sítě slibovaly hory doly, ale zatím spíš skutek utek. Změnit to chce nová největší pokusná síť v Česku

Jsme „AI generated“. Nejrychleji rostoucí technologická firma regionu ukázala, jak nechce ztratit roky

Komerční sdělení

IBM uvádí novou řadu FlashSystem x600

AI umí tvořit rychle. Ale co dnes skutečně funguje?

SafeDX Server Hotel: Deset let stabilního zázemí pro firemní IT

Výzkumníci vyvíjejí AI nástroj na fact-checking. Ověří informace ve zprávách nebo tweetech politiků

Sdílet

Inspirace v Cambridge

S fact-checkingem pomůžou neuronové sítě a grafické procesory

Zatím ve fázi testování

Autor článku

Ondřej Novák

Témata:

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?

Nejnovější články

Návrh vlády: Česká televize přijde o miliardu, Český rozhlas o 400 milionů

AI agenti zaplavují internet. Boti mají tvořit polovinu provozu, provozovatelé webů se s nimi perou

Peklo pro účetní a firmy poztrácené v systému. Jak teď vypadá digitalizace státu v podobě JMHZ

Jarní fotbal na obrazovce: průvodce soutěžemi, kanály a tarify

Cloudflare na postkvantové kryptografii, Poláci kupují kvantový stroj, další firma z Evropy jde na burzu

Onsemi kupuje tvůrce procesorů z Brna, Brusel brzdí českou AI gigafactory, Microsoft zruší Ovládací panely

Svět domén v roce 2025: od kvantity ke kvalitě a bezpečnosti

Nových 500 hodin premiér Novy: skutečné kauzy pro Oneplay, ověřené seriály pro lineár

Privátní 5G sítě slibovaly hory doly, ale zatím spíš skutek utek. Změnit to chce nová největší pokusná síť v Česku

Jsme „AI generated“. Nejrychleji rostoucí technologická firma regionu ukázala, jak nechce ztratit roky

Komerční sdělení

IBM uvádí novou řadu FlashSystem x600

AI umí tvořit rychle. Ale co dnes skutečně funguje?

SafeDX Server Hotel: Deset let stabilního zázemí pro firemní IT

Dále u nás najdete

Někdy se zdroj bolesti najít nepodaří, přiznává lékař

Nejrychleji rostoucí technologická firma regionu je „AI generated“

Doplňující údaje o zaměstnancích pro účely JMHZ

Posuzování přínosů AI pro firmy se musí změnit

Apple pohořel v žebříčku opravitelnosti

Spoofing: boj s ním a co se v tomto směru chystá

Končí lhůta pro papírová přiznání za rok 2025

Securitas ČR zažil rekordní rok, obrat přesáhl 2 miliardy

Doplňující údaje zaměstnavatele pro JMHZ – podrobný manuál

ASUS v Česku odhalil ExpertBook Ultra pro ty nejnáročnější

Prolomení moderního šifrování může být blíž, než se očekávalo

Miliardy z EU, strach z hackerů a marný boj s tabulkovými platy (4.)

Vibe coding: Proč vám tahle dovednost zachrání místo u stolu

Vytěžit bitcoin můžete i bez drahých investic do hardwaru

Největší pokusná síť v ČR hledá nové využití privátního 5G

Přichází další regulace umělé inteligence z Evropské unie

Za švarcsystém má hrozit pokuta už jen zaměstnavatelům

Meta představuje nový AI model Muse Spark

Zyxel zahajuje éru výkonných multigigabitových PoE přepínačů

Anthropic vyvinul model schopný odhalovat tisíce zranitelností