Hlavní navigace

Co vlastně chcete po vyhledávači?

30. 4. 2003
Doba čtení: 5 minut

Sdílet

Informace o snaze Googlu nějak inteligentněji pracovat s indexovanými dokumenty, které se objevily po nedávném nákupu společnosti Applied Semantics, nutně vyvolává obecnější úvahy o tom, co vlastně jako uživatelé od vyhledávače očekáváme. Nakolik se má snažit "být inteligentní"? Domníváme se, že dost.

V mnoha variacích často slýcháme následující větu: „Problémem nalezení určité informace na Internetu není dnes ani tak její principiální nedostupnost, ale spíše fakt, že mezi uživatelem a hledaným textem leží obrovské množství dalších textů.“ Otázkou zůstává, na jaké místo řetězce uživatel-vyhledávač-finální text zabudovat potřebné inteligentní zpracování. Pokusím se ukázat, proč by „aplikační logika“ měla sídlit v prostředním článku.

Uživatel

Proč nemůže být inteligence realizována na straně uživatele? Tady se nabízí mnoho více či méně ironických odpovědí, které se vesměs vyznačují jistou prvoplánovitostí. :-) Spokojme se však s tím, že:

  • provozovatel vyhledávače se musí snažit alespoň nějak uspokojit i ty uživatele, kteří např. nechápou různou specifičnost jednotlivých slov
  • vymýšlení co nejspecifičtějšího dotazu je každopádně náročné na čas
  • pokud dokážete popsat, jak vlastně k takovému „chytrému“ dotazu dospějete, není důvod, proč to nezkusit naučit i počítač

Webová stránka

Druhá možnost: Proč by „inteligence“ nemohla být nějak implementována v konečném textu? Už více než pět let přece vycházejí články na téma XML. Původně se tomu sice neříkalo „sémantický web“, nicméně toto slovo cíle nového jazyka poměrně přesně vystihuje.

Zatímco tagy HTML mají charakter spíše prezenční grafiky (určují barvu, styl písma, velikost atd.), jazyk XML měl naopak upřesňovat význam informace. Osobně jsem viděl asi jako nejelegantnější ukázku možností XML (nebo nějaké jeho příbuzné varianty) matematický výpočet. Vezmete kód z webové stránky a vložíte jej do specializované aplikace. Ta s ním dokáže dále pracovat, tedy oznámí vám třeba výsledek příkladu zveřejněného na webu. Nemusí jít o 2 + 2 = 4, ale i o složitější operace typu testů prvočíselnosti.

Sémantický web měl samozřejmě fungovat nejen pro matematické vzorce, ale i pro texty v přirozeném jazyce – jednotlivá slova by v něm byla opatřena různými nálepkami. Jménu autora knihy by třeba předcházel tag <author>, názvu tag <name> apod. Takovou „inteligentní“ aplikaci můžete jistě využít ve vlastním online knihkupectví. Aby ale vyhledávače mohly podporovat sémantický web, musela by v něm nejprve být vytvořena nezanedbatelná množina stránek. Na Internetu se však sémantický přístup dosud neujal (nejde mi na tomto místě o to, zda se v hlavičce stránky objeví něco „XML version…“).

Samotné XML (alespoň jak jeho návrhu rozumím) přitom stejně specifikuje pouze některé zvlášť význačné části dokumentu. Kdybychom měli být důslední, pak by tvůrce webu měl vytvářet legendu, tedy nějaký specifický tag, de facto ke každému slovu (a tady se nabízí i otázka, zda by postupná hierarchie meta a meta-meta úrovní měla mít vůbec nějaký konec). Nikdo asi nebude produkovat dokumenty ve stylu <fruit>apple</fru­it>.

Sémantika

Lingvisté se nedokáží přesně dohodnout, jakým způsobem ze struktury (syntaxe) vyvstává její smysl (sémantika). Možná je dobře, že XML zatím nepřineslo (alespoň na Internetu) takové výsledky, jaké se od něj původně očekávaly. Díky tomu totiž vyhledávače stojí před výzvou. Namísto práce s několika dalšími tagy musí najít lepší algoritmy, navíc algoritmy speciálních vlastností.

Pokud je mi známo, když zadáte např. do Googlu výraz Borges (tento lingvistický sloupek je volně inspirován povídkou Babylónská knihovna právě tohoto pána), systém udělá zhruba následující: Vezme nejenom stránky, kde se toto slovo vyskytuje s největší frekvencí, ale také stránky, na které lidé, kteří před vámi hledali Borgese, z Googlu skutečně klikli. Tím se vlastně mění relativní váhy jednotlivých „spojení“ (mezi slovem a určitým dokumentem). Dala by se vidět jistá podobnost s neuronovými sítěmi. Obecně máme před sebou systém, který se alespoň nějak učí. Zavedení evolučních principů by mohlo být dalším krokem, na jehož závěru by mohly stát systémy nejenom mechanicky přehazující tagy, ale také jazyku v nějakém slova smyslu rozumějící (ať už si pod tímto slovem představíme cokoliv).

Zamyslete se nad následujícím vývojem. Ony „vážené vazby“ se nemusejí vytvářet jen mezi dotazem a určitým dokumentem, ale také mezi dotazem a dalšími souvisejícími výrazy (byť se na ně tazatel přímo neptá). Uživatelé, kteří hledají slovo jablko, klikají na dokumenty, kde je (např.) také „strom“, „hruška“, „obchod“, „slupka“, dále možné atributy jablka („červené“, „plesnivé“, „drahé“, „z dovozu“) a operace, které je s jablkem možné provádět („krájet“, „sníst“, „koupit“, „shnít“).

Systém přehazuje hromady dat, kolem jednotlivých slov vznikají speciální sémantická pole. Váhy propojení se neustále mění. Tímto způsobem by se postupně měla vytvářet dosti věrná reprezentace reálného světa. Nakonec i pro nás samé existuje svět do značné míry jako hromada textů, které se odkazují k jiným textům.

Z hlediska teorie nejsou výše uvedené věci rozhodně žádnými novinkami a asi znějí poněkud banálně. Google ve spojení s Applied Semantics představuje ale skvělou (především ve smyslu obrovskou) testovací laboratoř. Nejde jen o velikosti databází a hromady dokumentů v nich, ale hlavně o zástupy uživatelů, kteří systém neustále trénují – alespoň pokud mu jeho tvůrci dají architekturu, ve které toho učení půjde dobře realizovat.

KL24

Přiřazení určité reklamy určitému dotazu je pro provozovatele z ekonomického hlediska jistě klíčové, ale skutečně revoluční výsledky by se mohly objevit někde jinde – třeba na poli umělé inteligence.

Poznámky:

  • Nakonec si ale nejsem jistý, zda problémy spojené s nalezením určité informace nejsou stále ještě často způsobeny i tím, že na Internetu potřebný dokument prostě dostupný vůbec není. Na vině by kromě robotů či algoritmů vyhledávače mohl být i sám způsob, kterým webové stránky vznikají. Řekněme, že jde třeba o prezentace firem a institucí či stránky osobní, tj. převážně o dokumenty dosti speciálního typu. Proto lze rozhodně uvítat projekty spojené s digitalizací celých knihoven či třeba webové encyklopedie.
  • Ona borgesovská inspirace je mj. následující. Jakýkoliv dostatečně úplný soubor textů by v sobě měl tak či onak obsahovat i pravidla, podle kterých je možné se mu naučit porozumět. V Babylonské knihovně se tím ovšem myslí spíše gramatika než sémantika.

Co podle vás představuje úzké hrdlo vyhledávání informací na Internetu?

Byl pro vás článek přínosný?

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).