Hlavní navigace

Jehla v kupce sena: Sběr zpětné vazby

17. 4. 2002
Doba čtení: 4 minuty

Sdílet

V předcházejících dílech našeho seriálu, které se ještě zabývaly recenzemi českých vyhledávacích strojů, jsme se zmiňovali o jejich možných nedostatcích a následně představili nejeden model, jenž může napomoci zkvalitnění samotného procesu vyhledávání. Dnes se zastavíme u techniky sběru zpětné vazby.

Dalším úspěšným modelem, který nebývá složité implementovat, je technika modifikující obecný výsledek vyhledávání na základě sběru zpětné vazby. V praxi to vypadá tak, že první dotaz slouží jako základní „nástřel“. Z jeho výsledkové listiny uživatel dle své volby určí relevantní zásahy. V dalším kroku, kdy se uživatel snaží o zkvalitnění dotazu, stroj zohlední tyto vybrané zásahy a výsledek sám upraví.

Praxe

Dobrým příkladem, jak takový proces zajistit, jsou metavyhledávače. Ty na základě sběru zpětné vazby určují, ze kterého vyhledávacího stroje mají být výsledky „relevantnější“ (viz. technika SavvySearch). Ve stávajících velkých fulltextech podobný příklad nenajdeme. Důvodem není ani tak technická obtížnost, jako spíše schopnost vysvětlit jejich bežným návštěvníkům, k čemu je sběr zpětné vazby dobrý a jak jej efektivně využívat při vyhledávání.

Proto tímto řešením disponují ponejvíce proprietární intranety. V praxi to pak vypadá tak, že odkazy na jednotlivé zásahy nejsou směrovány na skutečné zdroje dokumentů (např. http://tady.jsem.cz/zasah.html), ale přes redirektor (tj. např.  http://nas.vyhledavac.cz/ redir/http://tady.jsem.cz/zasah.html).

Uživatel pak kliká na odkaz, který prochází redirektorem. Ten kromě přesměrování zajistí, aby se vyhledávač dozvěděl, že jste tento dokument považovali za relevantní (např. nastaví cookie pro konkrétní dotaz nebo pro celý uživatelský profil).

Zapracování do stroje

V tuto chvíli se dostáváme k hranicím některých modelů. Zatímco zapracování zpětné vazby v boolském modelu (kupř. WebFast) je značně náročné, u vektorových modelů nejde o nijak složitou operaci. Pozn.: ryze boolskými modely se nadále nebudeme zabývat, protože jsou zastaralé a neumožňují de facto řádné vyhledávání informací, ale pouze hrubých dat. V jejich případě jsme odkázáni jen na zkvalitnění vyplývající z doprovodných technik (thesaurus, P-rank atd.).

Pro osvěžení připoměňme princip vektorového modelu. Všechny dokumenty i dotazy jsou převedeny na vektor. Čím jsou tyto vektory blíže sobě (mají totožný směr v prostoru), tím si jsou sobě podobnější a totéž platí o objektech, které zastupují.

Zpětná vazba, kterou jsme získali, s sebou nese informaci o tom, které vektory dokumentů jsou dle uživatele blíže jeho dotazu. Podle hesla, chce to – má to, uděláme takovou modifikaci všech vektorů, tj. zvolené dokumenty (jejich vektory) budou vskutku (vektoru) dotazu co nejblíže.

Takovou změnu realizujeme tak, že každý uživatelský dotaz na základě získané zpětné vazby změníme – posuneme, aby výsledek odpovídal tomu, co si uživatel přeje. Dále pak již při vyhodnocování postupujeme klasicky, takže celá operace je vskutku jednoduchá.

Jak to pracuje

Nejprve začneme zmínkou o ideální, ale nerealizovatelné situaci. Pokud máme zadání, které rozdělí všechny naše dokumenty na relevantní ® a nerelevantní (F), pak by ideální dotaz měl být vektor ležící v „těžišti“ vektorů. Toto těžiště se počítá jako:

qoptimalni = sum( all r of R; r ) / #R – sum( all f of F; f ) / #F

Protože nikdy dopředu nevíme, které dokumenty jsou relevantní, nemodifikujeme uživatelský dotaz na skutečně „ideální“ qoptimalni hned v prvním kroku. Ovšem po několika pokusech jsme schopni se k tomuto optimálnímu vektoru dostatečně přiblížit.

V dřívějších dobách existovalo několik formulí, které závodily v tom, na kolik kroků se přiblíží k optimálnímu tvaru dotazu. Dnes už tato rivalita pominula a začíná se používat pouze základní formule. Ta obsahuje několik parametrů, které si buď může nastavit sám uživatel, nebo tvůrce vyhledávače.

Jednotlivé parametry určují, nakolik je stroj konzervativní, tj. zda více věří sám sobě nebo sběru zpětné vazby. Stejně tak, jestli je zpětná vazba důvěryhodnější pro sběr pozitivní nebo negativní vazby, tj. je-li uživatel schopen lépe vymezit opravdu relevantní nebo nerelevantní dokumenty z výsledků, které mu stroj postupně předkládá.

Označme si původní dotaz jako qu. Dokumenty, jež uživatel vymezil coby relevantní Dr a nerelevantní jako Df. Parametry a, b, c. Výsledný dotaz, kterým pro vlastní vyhodnocení nahrazujeme qu označíme jako qm. Formule pak vypadá takto:

BRAND24

qm = a qu + sum( all r of Dr; b r ) / #Dr – sum( all f of Df; c f ) / #Df

Závěr

Dnes jsme se snažili přiblížit další metodu, která modifikuje dotaz na jiný, jenž vrací kvalitnější výsledek. Toto zkvalitnění je ale především subjektivní, nikoliv skutečně objektivní – závisí jen na autorovi stroje, zda po takovém řešení sáhne. Dobrou zprávou každopádně je, že jej lze bez problémů dopsat i do již existujícího vyhledávače. Další výhodou je skutečnost, že tato technika je dosti variabilní a dává tak prostor experimentům. Rozhodně ji lze doporučit pro menší báze, ale vlastní stanovení parametrů (a, b, c) je potřeba vyladit na konkrétní dokumenty – a popravdě i uživatele…

Byl pro vás článek přínosný?

Autor článku

Autor není v zádném komerčním vztahu k firmám, které se orientují na vyhledávání v doméně CZ, a nikdy v takovém vztahu nebyl. Jeho komerční aktivity směřují mimo kontinentální Evropu.
Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).