Kvalita webů – a jejich umístění ve výsledcích vyhledávání – se dnes (zjednodušeně) měří hlavně podle toho, jak často na ně odkazují další weby. Dobře utajovaný algoritmus Googlu sice zahrnuje i řadu dalších signálů, ale většina se týká vnějškových atributů.
Nehodnotí přitom pravdivost obsahu a přesnost faktů, které se na webech nachází. Stránky s virálními články plnými vymyšlených zábavných „zpráv“, drbů a fám tak často mívají vyšší hodnocení (PageRank) než weby nabízející suché, ale pravdivé informace.
Co kdyby to bylo jinak? Co kdybychom weby posuzovali podle toho, zda obsahují pravdivé a přesné informace? Skupina výzkumníků Googlu publikovala zajímavou studii, ve které právě takovou metriku testují. O jejich výzkumu napsal New Scientist.
Jak měřit pravdu?
Nový ranking má měřit důvěryhodnost webu a experti jej nazývají Knowledge-Based Trust (KBT). Čím méně nepravdivých údajů na webu je, tím je důvěryhodnější, říká. Základem algoritmu jsou fakta, která ze stránek vytěží metodami založenými na nástrojích databáze Knowledge Vault – obřím skladu údajů, které Google už hezkou dobu těží z internetu.
Na základě získaných faktů se pak výzkumníci pokoušejí posoudit, zda jsou data pravdivá – a zda je tedy zdrojový web možné považovat za důvěryhodný. Pokud vás zajímají podrobnosti jejich pravděpodobnostního modelu, najdete je v detailně popsané v odkazované studii (PDF v angličtině).
Svou metriku pak experimentátoři testují jak na syntetickém datasetu, u kterého přesně znají pravdivost jednotlivých údajů, tak na reálných datech z více než dvou miliard stránek.
Co jsou vlastně fakta?
Jak sami autoři přiznávají, jejich metoda má samozřejmě řadu otazníků – algoritmus neumí zohlednit, která fakta na stránce jsou důležitější a která mají jen okrajový význam, problematické je i správné vytěžování dat z webů nebo rozlišování, zda je stránka skutečným zdrojem informace, nebo ji jen přepublikovala z jiného zdroje.
Není také jasné, co vlastně označují za fakta, ani to, jak se dá zajistit zcela bezpečné ověřování jejich pravdivosti – opravdu je možné za nezpochybnitelný zdroj považovat Google Knowledge Vault?
Autoři každopádně nemají ambici, že by jejich metoda – byť je zajímavá – měla nahradit současný algoritmus Googlu. Zatím zůstává v rovině teoretického výzkumu a možná tam i – stejně jako řada dalších pokusů, jak strojově posuzovat kvalitu informací – zůstane.