Hlavní navigace

Co vlastně chcete po vyhledávači?

Pavel Houser 30. 4. 2003

Informace o snaze Googlu nějak inteligentněji pracovat s indexovanými dokumenty, které se objevily po nedávném nákupu společnosti Applied Semantics, nutně vyvolává obecnější úvahy o tom, co vlastně jako uživatelé od vyhledávače očekáváme. Nakolik se má snažit "být inteligentní"? Domníváme se, že dost.

V mnoha variacích často slýcháme následující větu: „Problémem nalezení určité informace na Internetu není dnes ani tak její principiální nedostupnost, ale spíše fakt, že mezi uživatelem a hledaným textem leží obrovské množství dalších textů.“ Otázkou zůstává, na jaké místo řetězce uživatel-vyhledávač-finální text zabudovat potřebné inteligentní zpracování. Pokusím se ukázat, proč by „aplikační logika“ měla sídlit v prostředním článku.

Uživatel

Proč nemůže být inteligence realizována na straně uživatele? Tady se nabízí mnoho více či méně ironických odpovědí, které se vesměs vyznačují jistou prvoplánovitostí. :-) Spokojme se však s tím, že:

  • provozovatel vyhledávače se musí snažit alespoň nějak uspokojit i ty uživatele, kteří např. nechápou různou specifičnost jednotlivých slov
  • vymýšlení co nejspecifičtějšího dotazu je každopádně náročné na čas
  • pokud dokážete popsat, jak vlastně k takovému „chytrému“ dotazu dospějete, není důvod, proč to nezkusit naučit i počítač

Webová stránka

Druhá možnost: Proč by „inteligence“ nemohla být nějak implementována v konečném textu? Už více než pět let přece vycházejí články na téma XML. Původně se tomu sice neříkalo „sémantický web“, nicméně toto slovo cíle nového jazyka poměrně přesně vystihuje.

Zatímco tagy HTML mají charakter spíše prezenční grafiky (určují barvu, styl písma, velikost atd.), jazyk XML měl naopak upřesňovat význam informace. Osobně jsem viděl asi jako nejelegantnější ukázku možností XML (nebo nějaké jeho příbuzné varianty) matematický výpočet. Vezmete kód z webové stránky a vložíte jej do specializované aplikace. Ta s ním dokáže dále pracovat, tedy oznámí vám třeba výsledek příkladu zveřejněného na webu. Nemusí jít o 2 + 2 = 4, ale i o složitější operace typu testů prvočíselnosti.

Sémantický web měl samozřejmě fungovat nejen pro matematické vzorce, ale i pro texty v přirozeném jazyce – jednotlivá slova by v něm byla opatřena různými nálepkami. Jménu autora knihy by třeba předcházel tag <author>, názvu tag <name> apod. Takovou „inteligentní“ aplikaci můžete jistě využít ve vlastním online knihkupectví. Aby ale vyhledávače mohly podporovat sémantický web, musela by v něm nejprve být vytvořena nezanedbatelná množina stránek. Na Internetu se však sémantický přístup dosud neujal (nejde mi na tomto místě o to, zda se v hlavičce stránky objeví něco „XML version…“).

Samotné XML (alespoň jak jeho návrhu rozumím) přitom stejně specifikuje pouze některé zvlášť význačné části dokumentu. Kdybychom měli být důslední, pak by tvůrce webu měl vytvářet legendu, tedy nějaký specifický tag, de facto ke každému slovu (a tady se nabízí i otázka, zda by postupná hierarchie meta a meta-meta úrovní měla mít vůbec nějaký konec). Nikdo asi nebude produkovat dokumenty ve stylu <fruit>apple</fru­it>.

Sémantika

Lingvisté se nedokáží přesně dohodnout, jakým způsobem ze struktury (syntaxe) vyvstává její smysl (sémantika). Možná je dobře, že XML zatím nepřineslo (alespoň na Internetu) takové výsledky, jaké se od něj původně očekávaly. Díky tomu totiž vyhledávače stojí před výzvou. Namísto práce s několika dalšími tagy musí najít lepší algoritmy, navíc algoritmy speciálních vlastností.

Pokud je mi známo, když zadáte např. do Googlu výraz Borges (tento lingvistický sloupek je volně inspirován povídkou Babylónská knihovna právě tohoto pána), systém udělá zhruba následující: Vezme nejenom stránky, kde se toto slovo vyskytuje s největší frekvencí, ale také stránky, na které lidé, kteří před vámi hledali Borgese, z Googlu skutečně klikli. Tím se vlastně mění relativní váhy jednotlivých „spojení“ (mezi slovem a určitým dokumentem). Dala by se vidět jistá podobnost s neuronovými sítěmi. Obecně máme před sebou systém, který se alespoň nějak učí. Zavedení evolučních principů by mohlo být dalším krokem, na jehož závěru by mohly stát systémy nejenom mechanicky přehazující tagy, ale také jazyku v nějakém slova smyslu rozumějící (ať už si pod tímto slovem představíme cokoliv).

Zamyslete se nad následujícím vývojem. Ony „vážené vazby“ se nemusejí vytvářet jen mezi dotazem a určitým dokumentem, ale také mezi dotazem a dalšími souvisejícími výrazy (byť se na ně tazatel přímo neptá). Uživatelé, kteří hledají slovo jablko, klikají na dokumenty, kde je (např.) také „strom“, „hruška“, „obchod“, „slupka“, dále možné atributy jablka („červené“, „plesnivé“, „drahé“, „z dovozu“) a operace, které je s jablkem možné provádět („krájet“, „sníst“, „koupit“, „shnít“).

Systém přehazuje hromady dat, kolem jednotlivých slov vznikají speciální sémantická pole. Váhy propojení se neustále mění. Tímto způsobem by se postupně měla vytvářet dosti věrná reprezentace reálného světa. Nakonec i pro nás samé existuje svět do značné míry jako hromada textů, které se odkazují k jiným textům.

Z hlediska teorie nejsou výše uvedené věci rozhodně žádnými novinkami a asi znějí poněkud banálně. Google ve spojení s Applied Semantics představuje ale skvělou (především ve smyslu obrovskou) testovací laboratoř. Nejde jen o velikosti databází a hromady dokumentů v nich, ale hlavně o zástupy uživatelů, kteří systém neustále trénují – alespoň pokud mu jeho tvůrci dají architekturu, ve které toho učení půjde dobře realizovat.

Přiřazení určité reklamy určitému dotazu je pro provozovatele z ekonomického hlediska jistě klíčové, ale skutečně revoluční výsledky by se mohly objevit někde jinde – třeba na poli umělé inteligence.

Poznámky:

  • Nakonec si ale nejsem jistý, zda problémy spojené s nalezením určité informace nejsou stále ještě často způsobeny i tím, že na Internetu potřebný dokument prostě dostupný vůbec není. Na vině by kromě robotů či algoritmů vyhledávače mohl být i sám způsob, kterým webové stránky vznikají. Řekněme, že jde třeba o prezentace firem a institucí či stránky osobní, tj. převážně o dokumenty dosti speciálního typu. Proto lze rozhodně uvítat projekty spojené s digitalizací celých knihoven či třeba webové encyklopedie.
  • Ona borgesovská inspirace je mj. následující. Jakýkoliv dostatečně úplný soubor textů by v sobě měl tak či onak obsahovat i pravidla, podle kterých je možné se mu naučit porozumět. V Babylonské knihovně se tím ovšem myslí spíše gramatika než sémantika.

Anketa

Co podle vás představuje úzké hrdlo vyhledávání informací na Internetu?

Našli jste v článku chybu?

7. 5. 2003 18:01

Marek Prokop (neregistrovaný)
Pane Housere, jestli dovolíte, vypůjčím si váš supermarketový příměr a jen ho trochu zpřesním. V zásadě totiž funguje, ale je třeba vzít v potaz specifický charakter výběru a "konzumace" informací:

1) Tentýž výrobek (stránku) skoro nikdy "nekoupím" opakovaně. Vybírám si tedy jen podle krabice, nikoli podle obsahu, neboť ten dosud neznám.

2) Jestliže potřebuji větší množství určitého zboží, nikdy nekoupím víc balení téhož výrobku, nýbrž koupím vždy po jednom balení od vý…



7. 5. 2003 11:18

Pavel Houser, Science World (neregistrovaný)
No ano, přes nepříliš pozitivní přijetí těchto úvah si stále myslím, že příslušná funkce by se hodila. Má totiž jednu výhodu oproti tomu, když by uživatelé hodnotili relevantnost "poté". Vše by se dělo automaticky. Hodně blbý příklad: v supermarketu samozřejmě můžete rozdat dotazníky a ptát se lidí, zda chtějí zlevněné zboží dát spíše k salámům nebo k pečivu. Jednodušší ale asi je oboje zkusit a zjistit, kde se ho prodá víc - netvořit žádné speciální dotazníky, ale učit se přímo z norm…
Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

DigiZone.cz: Mňam TV splnila slib a odešla z DVB-T

Mňam TV splnila slib a odešla z DVB-T

Měšec.cz: Kdy vám stát dá na stěhování 50 000 Kč?

Kdy vám stát dá na stěhování 50 000 Kč?

Vitalia.cz: Pravda o přibírání na zimu

Pravda o přibírání na zimu

Vitalia.cz: To není kašel! Správná diagnóza zachrání život

To není kašel! Správná diagnóza zachrání život

120na80.cz: Rakovina oka. Jak ji poznáte?

Rakovina oka. Jak ji poznáte?

Vitalia.cz: Spor o mortadelu: podle Lidlu falšovaná nebyla

Spor o mortadelu: podle Lidlu falšovaná nebyla

Vitalia.cz: Vláknina: Rozpustná, nebo nerozpustná?

Vláknina: Rozpustná, nebo nerozpustná?

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Podnikatel.cz: EET zvládneme, budou horší zákony

EET zvládneme, budou horší zákony

DigiZone.cz: Recenze Westworld: zavraždit a...

Recenze Westworld: zavraždit a...

Lupa.cz: Avast po spojení s AVG propustí 700 lidí

Avast po spojení s AVG propustí 700 lidí

Root.cz: Telegram spustil anonymní blog Telegraph

Telegram spustil anonymní blog Telegraph

DigiZone.cz: Milan Kruml: procházka TV historií

Milan Kruml: procházka TV historií

Podnikatel.cz: Pozor, pojišťovny mění čísla účtů

Pozor, pojišťovny mění čísla účtů

Lupa.cz: UX přestává pro firmy být magie

UX přestává pro firmy být magie

120na80.cz: Pánové, pečujte o svoje přirození a prostatu

Pánové, pečujte o svoje přirození a prostatu

Podnikatel.cz: Víme první výsledky doby odezvy #EET

Víme první výsledky doby odezvy #EET

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?

120na80.cz: 5 poporodních problémů a jejich řešení

5 poporodních problémů a jejich řešení