Hlavní navigace

Jak měřit pravdu? Výzkumníci Googlu zkoušejí posuzovat weby podle faktů

Autor: Isifa
David Slížek

Nejpopulárnější stránky zhusta nejsou ty, které obsahují nejlepší obsah. Jak by vypadal algoritmus Googlu, kdyby řadil weby podle pravdivosti faktů?

Kvalita webů – a jejich umístění ve výsledcích vyhledávání – se dnes (zjednodušeně) měří hlavně podle toho, jak často na ně odkazují další weby. Dobře utajovaný algoritmus Googlu sice zahrnuje i řadu dalších signálů, ale většina se týká vnějškových atributů.

Nehodnotí přitom pravdivost obsahu a přesnost faktů, které se na webech nachází. Stránky s virálními články plnými vymyšlených zábavných „zpráv“, drbů a fám tak často mívají vyšší hodnocení (PageRank) než weby nabízející suché, ale pravdivé informace.

Co kdyby to bylo jinak? Co kdybychom weby posuzovali podle toho, zda obsahují pravdivé a přesné informace? Skupina výzkumníků Googlu publikovala zajímavou studii, ve které právě takovou metriku testují. O jejich výzkumu napsal New Scientist.

Jak měřit pravdu?

Nový ranking má měřit důvěryhodnost webu a experti jej nazývají Knowledge-Based Trust (KBT). Čím méně nepravdivých údajů na webu je, tím je důvěryhodnější, říká. Základem algoritmu jsou fakta, která ze stránek vytěží metodami založenými na nástrojích databáze Knowledge Vault – obřím skladu údajů, které Google už hezkou dobu těží z internetu.

Na základě získaných faktů se pak výzkumníci pokoušejí posoudit, zda jsou data pravdivá – a zda je tedy zdrojový web možné považovat za důvěryhodný. Pokud vás zajímají podrobnosti jejich pravděpodobnostního modelu, najdete je v detailně popsané v odkazované studii (PDF v angličtině).

Svou metriku pak experimentátoři testují jak na syntetickém datasetu, u kterého přesně znají pravdivost jednotlivých údajů, tak na reálných datech z více než dvou miliard stránek. 

Co jsou vlastně fakta?

Jak sami autoři přiznávají, jejich metoda má samozřejmě řadu otazníků – algoritmus neumí zohlednit, která fakta na stránce jsou důležitější a která mají jen okrajový význam, problematické je i správné vytěžování dat z webů nebo rozlišování, zda je stránka skutečným zdrojem informace, nebo ji jen přepublikovala z jiného zdroje. 

EBF17

Není také jasné, co vlastně označují za fakta, ani to, jak se dá zajistit zcela bezpečné ověřování jejich pravdivosti – opravdu je možné za nezpochybnitelný zdroj považovat Google Knowledge Vault?

Autoři každopádně nemají ambici, že by jejich metoda – byť je zajímavá – měla nahradit současný algoritmus Googlu. Zatím zůstává v rovině teoretického výzkumu a možná tam i – stejně jako řada dalších pokusů, jak strojově posuzovat kvalitu informací – zůstane.

Našli jste v článku chybu?