Hlavní navigace

Jehla v kupce sena: Sběr zpětné vazby

Karel Pánek 17. 4. 2002

V předcházejících dílech našeho seriálu, které se ještě zabývaly recenzemi českých vyhledávacích strojů, jsme se zmiňovali o jejich možných nedostatcích a následně představili nejeden model, jenž může napomoci zkvalitnění samotného procesu vyhledávání. Dnes se zastavíme u techniky sběru zpětné vazby.

Dalším úspěšným modelem, který nebývá složité implementovat, je technika modifikující obecný výsledek vyhledávání na základě sběru zpětné vazby. V praxi to vypadá tak, že první dotaz slouží jako základní „nástřel“. Z jeho výsledkové listiny uživatel dle své volby určí relevantní zásahy. V dalším kroku, kdy se uživatel snaží o zkvalitnění dotazu, stroj zohlední tyto vybrané zásahy a výsledek sám upraví.

Praxe

Dobrým příkladem, jak takový proces zajistit, jsou metavyhledávače. Ty na základě sběru zpětné vazby určují, ze kterého vyhledávacího stroje mají být výsledky „relevantnější“ (viz. technika SavvySearch). Ve stávajících velkých fulltextech podobný příklad nenajdeme. Důvodem není ani tak technická obtížnost, jako spíše schopnost vysvětlit jejich bežným návštěvníkům, k čemu je sběr zpětné vazby dobrý a jak jej efektivně využívat při vyhledávání.

Proto tímto řešením disponují ponejvíce proprietární intranety. V praxi to pak vypadá tak, že odkazy na jednotlivé zásahy nejsou směrovány na skutečné zdroje dokumentů (např. http://tady.jsem.cz/zasah.html), ale přes redirektor (tj. např.  http://nas.vyhledavac.cz/ redir/http://tady.jsem.cz/zasah.html).

Uživatel pak kliká na odkaz, který prochází redirektorem. Ten kromě přesměrování zajistí, aby se vyhledávač dozvěděl, že jste tento dokument považovali za relevantní (např. nastaví cookie pro konkrétní dotaz nebo pro celý uživatelský profil).

Zapracování do stroje

V tuto chvíli se dostáváme k hranicím některých modelů. Zatímco zapracování zpětné vazby v boolském modelu (kupř. WebFast) je značně náročné, u vektorových modelů nejde o nijak složitou operaci. Pozn.: ryze boolskými modely se nadále nebudeme zabývat, protože jsou zastaralé a neumožňují de facto řádné vyhledávání informací, ale pouze hrubých dat. V jejich případě jsme odkázáni jen na zkvalitnění vyplývající z doprovodných technik (thesaurus, P-rank atd.).

Pro osvěžení připoměňme princip vektorového modelu. Všechny dokumenty i dotazy jsou převedeny na vektor. Čím jsou tyto vektory blíže sobě (mají totožný směr v prostoru), tím si jsou sobě podobnější a totéž platí o objektech, které zastupují.

Zpětná vazba, kterou jsme získali, s sebou nese informaci o tom, které vektory dokumentů jsou dle uživatele blíže jeho dotazu. Podle hesla, chce to – má to, uděláme takovou modifikaci všech vektorů, tj. zvolené dokumenty (jejich vektory) budou vskutku (vektoru) dotazu co nejblíže.

Takovou změnu realizujeme tak, že každý uživatelský dotaz na základě získané zpětné vazby změníme – posuneme, aby výsledek odpovídal tomu, co si uživatel přeje. Dále pak již při vyhodnocování postupujeme klasicky, takže celá operace je vskutku jednoduchá.

Jak to pracuje

Nejprve začneme zmínkou o ideální, ale nerealizovatelné situaci. Pokud máme zadání, které rozdělí všechny naše dokumenty na relevantní ® a nerelevantní (F), pak by ideální dotaz měl být vektor ležící v „těžišti“ vektorů. Toto těžiště se počítá jako:

qoptimalni = sum( all r of R; r ) / #R – sum( all f of F; f ) / #F

Protože nikdy dopředu nevíme, které dokumenty jsou relevantní, nemodifikujeme uživatelský dotaz na skutečně „ideální“ qoptimalni hned v prvním kroku. Ovšem po několika pokusech jsme schopni se k tomuto optimálnímu vektoru dostatečně přiblížit.

V dřívějších dobách existovalo několik formulí, které závodily v tom, na kolik kroků se přiblíží k optimálnímu tvaru dotazu. Dnes už tato rivalita pominula a začíná se používat pouze základní formule. Ta obsahuje několik parametrů, které si buď může nastavit sám uživatel, nebo tvůrce vyhledávače.

Jednotlivé parametry určují, nakolik je stroj konzervativní, tj. zda více věří sám sobě nebo sběru zpětné vazby. Stejně tak, jestli je zpětná vazba důvěryhodnější pro sběr pozitivní nebo negativní vazby, tj. je-li uživatel schopen lépe vymezit opravdu relevantní nebo nerelevantní dokumenty z výsledků, které mu stroj postupně předkládá.

Označme si původní dotaz jako qu. Dokumenty, jež uživatel vymezil coby relevantní Dr a nerelevantní jako Df. Parametry a, b, c. Výsledný dotaz, kterým pro vlastní vyhodnocení nahrazujeme qu označíme jako qm. Formule pak vypadá takto:

qm = a qu + sum( all r of Dr; b r ) / #Dr – sum( all f of Df; c f ) / #Df

Závěr

Dnes jsme se snažili přiblížit další metodu, která modifikuje dotaz na jiný, jenž vrací kvalitnější výsledek. Toto zkvalitnění je ale především subjektivní, nikoliv skutečně objektivní – závisí jen na autorovi stroje, zda po takovém řešení sáhne. Dobrou zprávou každopádně je, že jej lze bez problémů dopsat i do již existujícího vyhledávače. Další výhodou je skutečnost, že tato technika je dosti variabilní a dává tak prostor experimentům. Rozhodně ji lze doporučit pro menší báze, ale vlastní stanovení parametrů (a, b, c) je potřeba vyladit na konkrétní dokumenty – a popravdě i uživatele…

Našli jste v článku chybu?
Měšec.cz: Kdy vám stát dá na stěhování 50 000 Kč?

Kdy vám stát dá na stěhování 50 000 Kč?

DigiZone.cz: Recenze Westworld: zavraždit a...

Recenze Westworld: zavraždit a...

DigiZone.cz: Mňam TV splnila slib a odešla z DVB-T

Mňam TV splnila slib a odešla z DVB-T

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Vitalia.cz: Manželka je bio, ale na sex moc není

Manželka je bio, ale na sex moc není

Root.cz: Telegram spustil anonymní blog Telegraph

Telegram spustil anonymní blog Telegraph

Podnikatel.cz: Zavře krám u #EET Malá pokladna a Teeta?

Zavře krám u #EET Malá pokladna a Teeta?

DigiZone.cz: Milan Kruml: procházka TV historií

Milan Kruml: procházka TV historií

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Měšec.cz: Vklad na cizí účet je draze zpoplatněn (přehled)

Vklad na cizí účet je draze zpoplatněn (přehled)

Podnikatel.cz: Víme první výsledky doby odezvy #EET

Víme první výsledky doby odezvy #EET

Podnikatel.cz: Babiše přesvědčila 89letá podnikatelka?!

Babiše přesvědčila 89letá podnikatelka?!

Podnikatel.cz: Změny v daních z příjmů u zaměstnávání

Změny v daních z příjmů u zaměstnávání

120na80.cz: Rakovina oka. Jak ji poznáte?

Rakovina oka. Jak ji poznáte?

Lupa.cz: Avast po spojení s AVG propustí 700 lidí

Avast po spojení s AVG propustí 700 lidí

Lupa.cz: UX přestává pro firmy být magie

UX přestává pro firmy být magie

Lupa.cz: Babiš: E-shopů se EET možná nebude týkat

Babiš: E-shopů se EET možná nebude týkat

Podnikatel.cz: Pozor, pojišťovny mění čísla účtů

Pozor, pojišťovny mění čísla účtů

Vitalia.cz: Chtějí si léčit kvasinky. Lék je jen v Německu

Chtějí si léčit kvasinky. Lék je jen v Německu