Nástup časoprostorového vymezení dotazů

23. 5. 2003

Doba čtení: 6 minut

[eWorkshop] Děkuji za skvělou diskusi a řadu podnětných nápadů. Věřím, že každý si z našich eWorkshopů vybral to své. Dá se to říci i o mně. Sepsal jsem proto některé zajímavé náměty a pokusil se z nich učinit závěr. Jeden zajímavý podnět mi z nich skutečně vyšel: potřeba oddělit časové, prostorové a věcné vymezení vyhledávaných dotazů.

Podívejme se nejprve na některé konkrétní náměty z našich dvou diskusí. Z mého pohledu byly nejzajímavější dvě oblasti: personalizace vyhledávačů a zlepšení funkce hledání nových zpráv.

Personalizace

Citujme diskuse: „Když něco hledám, hledám většinou stránky, které se týkají určité oblasti (např. stavebnictví) a zároveň obsahují nějakou slovní frázi (např. již zmíněná okna). Což takhle naroubovat do fulltextu vlastnosti katalogu? Úzkým místem budou ale samotné kategorie. Kde je vzít a jak zachovat nějaký řád?“

Tento požadavek bych rozšířil – v ideálním případě by měl být vyhledávač schopen „pochopit“, co dotazem myslel právě dotyčný tazatel (personalizace). A v ideálním případě by se to mělo obejít bez ručně vytvářených kategorií. Jakýkoliv mechanismus, který v kategorizaci spoléhá na práci lidí, naráží totiž na zákonitá omezení (vyplývající například z omezených jazykových znalostí těchto lidí, z jejich omezených časových možností, nebo prostě z toho, že každý pohled na možnou kategorizaci je pohledem ryze subjektivním). Vhodným postupem, který by mohl katalogy nahradit, by mohlo být dynamické vytváření skupin vzájemně podobných uživatelů – vyhledávač by znal stránky, na kterých se uživatel pohyboval v minulosti, a na základě toho by ve výsledcích dotazů daného uživatele preferoval stránky „podobné“. Ve svém výsledku by se takový mechanismus choval obdobně jako kategorie (dokázal by odhadnout kontext dotazu), nebyl by však zatížen nedostatky ručních katalogů, které pozorujeme například z news.google.com. Byl bych rád, kdybychom se v diskusi pod tímto textem pokusili mechanismus „vyhledávání vzájemně podobných uživatelů“ popsat podrobněji.

A hledání nových zpráv

Druhým nosným námětem naší diskuse bylo hledání „news“, tedy nejnovějších zpráv na nějaké téma. V ideálním případě by mělo toto hledání opět probíhat vysoce personalizovaně. Měly by se tedy vypsat právě ty nové informace o daném subjektu, které si dosud nepřečetl dotyčný tazatel. Mimochodem, náznak této funkce má Lupa ve svých diskusích a asi mi dáte za pravdu, že jde o věc vysoce užitečnou. Běda však, pokud vyměníme počítač nebo pokud se chceme podívat na některé historické diskuse z doby před rokem nebo pokud si smažeme či vypneme cookies. A samozřejmě běda, když diskutujeme jinde. Budoucí vyhledávače se proto nebudou moci obejít bez jednoznačné identifikace uživatelů, která navíc nebude smět záviset na jejich konkrétním přístupovém zařízení.

Časové vymezení

Když už jsem ale uvažoval o hledání nových zpráv, napadla mě možnost podívat se na „čas na Internetu“ obecněji. Některé dokumenty totiž obsahují časový údaj – například datum svého vzniku, ale i datum události, o které hovoří. Sem patří například datum koncertu, datum sportovní akce, datum, kdy se koná turistický či pobytový zájezd. Povšimněme si, jak složité je dnes najít „program na tento večer“, zájezd, který odjíždí zítra nebo který se koná přesně v termínu námi plánované dovolené, případně turistický pochod na tuto sobotu či neděli. Pokud je dnes vůbec možné takový dotaz položit, je to možné pouze v rámci funkcionality některého specializovaného serveru (např. některého serveru kulturních akcí či ubytování). Obecně ale tato funkce řešena není. Jakmile tedy máme různé akce (různé zájezdy, různé kulturní programy atd.) na různých serverech, není možné tuto informaci nijak snadno agregovat.

Geografické vymezení

Časové vymezení dotazu by bylo určitě velmi užitečné, samo o sobě by však řešilo pouze část problémů. Vyhledávač budoucnosti by měl být mimo jiné schopen odpovědět také na celkem jednoduchou, ale přitom velmi užitečnou množinu dotazů typu „restaurace do 3 km, kde aktuálně uvařili svíčkovou“ – to je pak spojení časového vymezení a geografie. Pak by bylo možné vyřešit i spoustu dalších věcí, například položit dotaz na turistický pochod, který se bude konat „tento víkend ve středních Čechách“. Nemuseli bychom už znát, že existuje vesnice „Prčice“ nebo třeba „Kostomlaty“; nemuseli bychom přemýšlet nad tím, jestli psát Varšava, Warszawa nebo Warszau či Warszaw či Polish Capital. Je pravda, že dnes tyto termíny získáme na naši první otázku v Google a s nimi pak můžeme dotaz dále zpřesnit. Proč by to ale za nás (a za množství uživatelů s podobným problémem) nemohl udělat přímo vyhledávač? Kdyby se tedy bylo možné rovnou zeptat časově, prostorově a věcně, vyhledávač by se nám pak jevil opět o něco inteligentnější. Sám by totiž za nás zpřesňoval ty věci, které by byly řešitelné hromadně.

Budoucnost: věcné a časoprostorové dotazy

A tím už se dostáváme k pomyslnému závěru našeho eWorkshopu. Dnešní vyhledávače umí zpracovat pouze věcné dotazy. Do takového věcného dotazu musíme směstnat vše – tedy jak datum události, kterou hledáme (tehdy také přijdeme na to, jak „skvělé“ je, že existuje asi deset různých formátů psaní data), tak i místo, kde se událost koná (které opět může být pojmenováno různě). To je ale velká škoda. Místo na formulaci věcného dotazu se pak soustředíme na to, jak se vypořádat s různými formáty psaní data, zda se ptát na střední Čechy nebo Prčice. A právě to jsou problémy, které by mohl a měl řešit vyhledávač. Časové ani geografické vymezení totiž nezávisí na osobě tazatele! Na rozdíl od věcného vymezení není proto zatíženo tak složitými faktory, jakými jsou osobní pohled, kontext dotazu či dokonce dynamická personalizace. Střední Čechy prostě budou středními Čechami, ať se na ně ptám já nebo můj syn; o „skvělém filmu na tento večer“ se to už říci nedá. Pokud by tedy bylo možné (samozřejmě nikoliv nutné) vymezit každý dotaz „v časoprostoru“, výrazně by se tím mohla zvýšit cílenost dotazů a praktická využitelnost vyhledávačů pro řadu konkrétních situací, včetně situací komerčně velmi zajímavých. S dalším nárůstem mobilních komunikačních aplikací navíc bude důležitost časoprostorového vymezení informací ještě dále růst.

Je to možná symbolické. S tím, jak Internet vyspívá, opouští svůj „virtuální“ časoprostor a zařazuje se do světa reálného, kde musíme časoprostor specifikovat.

Sci-fi vlastnosti vyhledávačů

Ale tím ještě neskončíme. Samozřejmě ani případným rozdělením dotazu na věcnou a časoprostorovou část se vyhledávače nestanou dokonalými. Svět je (stejně jako Internet) dynamický a pojem dokonalosti snad ani nezná. A právě tato dynamika by mohla být vysněnou metou vyhledávačů.

Jednou ze „sci-fi“ vlastností budoucích vyhledávačů by tedy bylo vyhledávání podle dynamických vlastností objektů, tedy například podle způsobu přemýšlení jeho uživatelů. Inspiroval mě k tomu průběh diskuse na Lupě – zejména snaha některých diskutujících lidí o kontakt s podobně uvažujícími lidmi. (To je mimochodem vlastností všech proběhlých eWorkshopů.) Uvědomil jsem si, že právě díky eWorkshopům jsem získal kontakt na lidi, které bych se jinak nebyl schopen nikdy najít (neboť bych se na ně ani nedokázal zeptat). K tomu, abych našel lidi uvažující určitým směrem, musím ale dnes uspořádat eWorkshop. V budoucnu by to snad mohlo jít i bez něj, například tím, že by vyhledávače důsledně analyzovaly dynamické chování svých uživatelů a analyzovaly by jejich způsob práce a pravděpodobného budoucího chování.

Dnešní i ty budoucí vyhledávače se umí zeptat „pouze“ na statickou informaci. „Sci-fi“ vyhledávače by se ovšem uměly zeptat i na dynamické vlastnosti objektů v čase. Tím by ale zároveň zpětně vysoce zkvalitnily „klasické“ vyhledávání, tedy hledání statických informací.

Dokázaly by totiž dále zlepšit personalizaci a „porozumění“ kontextu věcného dotazu, a tím i zkvalitnit věcné vymezení dotazu. To by bylo dáno i tím, že by do určité míry dokázaly předvídat dotazy svých uživatelů. Vyhledávače budoucnosti by se tak ještě více přiblížily systémům s „inteligentním“ chováním.

Náš eWorkshop tím pomyslně končí. Pojďme si na jeho úplný závěr popovídat o možných mechanismech vyhledávání „vzájemně podobných“ uživatelů, o možných mechanismech dolování časových geografických dat ze stávajících dokumentů Internetu a třeba i o možnostech, jak by bylo možné „časoprostorové“ vyhledávání využít v nových aplikacích pro mobilní spotřební elektroniku.