Predstavme si, ze jsme v roce - no treba 2008. Nejaka firma - rikejme ji Gugl - uz nestiha zpracovat vsechny dokumenty na webu, protoze se pripojila Jizni Amerika a tak nikdo centralne nestiha indexovat veskerou spanelstinu...
A tu jednoho zamestnance napadne, ze by se daly pouzit dotazy a jejich vysledky, na kterych uz Gugl jednou svuj desatek vydelal. Takze do metody - rikejme ji rankoPaze - pridaji vypocet, ktery zohlednuje drivejsi manualne zodpovezene dotazy.
Kdyz se pak na neco stroje zeptate, zjisti si nejdriv, zda-li ma podobne manualne zodpovezene dotazy. Vas dotaz obohati o odpovedi manualnich hledacu a to teprve vyhodnoti. Tim se zvysi sance, ze vrati stranky co muzou obsahovat i informace o tom, co manualni hledaci driveji pracne hledali v knihovnach a ve svych vzpominkach.
A to je konec male pohadky o tom, jak take mohou vypadat obchodni modely a strategie velkych hracu...
Jakakoliv podobnost s cimkoliv a kymkoliv (i titulkem puvodniho clanku) je pochopitelne zcela nahodna.
Z praxe musim rici, ze se opakuje tak 1% dotazu. Kdyz jsme nas projekt uvadeli do zivota, tak jsme predpokladali, ze by to mohlo byt kolem 10%. Okruh otazek pri vyzve "Polozte nam jakoukoli otazku" je opravdu hodne veliky. Za napr. 10let se zaprve budou lide ptat na uplne jine veci. To kdyz si tak prohlizim databazi z roku 2000 a zadruhe odkazy, ktere jsme posilali v roce 2000 na hledane informace jsou dnes jiz neplatne, takze musime i pri stejne otazce znovu hledat. Snazili jsme se texty ze stranek vkladat do txt souboru a minimalizovat tak riziko ztraty odkazu kvuli zruseni ci presunu serveru, ale to lze pouze u nekterych odpovedi.
Myslim si, ze databaze zodpovezenych dotazu za 10 lez zpet by bylo cteni vhodne pro pobaveni.
To ano, ale jazyk se nemeni. Kdyz mi ted odpovite na dotaz "odlety z Prahy" slovy "leta airbus z letiste Ruzyne v XYZ". Tak mi tim vlastne rikate, ze az se me nekdo zepta na "nejake odlety z Prahy", mam mu hledat ty odpovedi, kde jsou i slova "leta", "letiste", "Ruzyne"...
Nerikal jsem, ze za 50 let budu porad vracet ty stare odpovedi, ale ze slova ze starych odpovedi primicham do dotazu, nez ho bude stroj resit. V tom je setsakra rozdil...
To mi vyrazne vylepsi kvalitu odpovedi i za 50 let. Kdyz mate terabyty dat, potrebujete nejak urcit co vlastne user chce...