Tak jsem zkusil prohledat google na dotaz v, coz je slovo, ktery mi vyhodilo nejvyssi pocet nalezenych stranek. Neni to vedecke, ale...
[1] Google – lang=cs
[2] Google – site:cz
[3] Google – lang=cs; site:cz
a zjistil jsem, ze Google obsahuje jen 2.480.000 [1] cesky psanych stranek, z toho v ceske domene 2.290.000 [3], coz znamena, ze Seznam ma o 190.000 [1-3] bohatsi zdroje nez vyhledavace omezene jen na site:cz. Vzhledem k tomu, ze Jyxo ma 11.945.012 dokumentu a webseek 5.564.061, je jasne, ze Google ma index mnohem mensi 2.350.000 [2].
Lepsi nez Seznam/Google je spojeni Tiscali/AllTheWeb,
[4] AllTheWeb – l=cs
[5] AllTheWeb – url:cz
[6] AllTheWeb – l=cs; url:cz
protoze v Indexu AllTheWeb je 9.161.578 [4] cesky psanych stranek, z toho 5.835.197 [6] v domene CZ. To znamena, ze AllTheWeb je o 3.326.381 [4-6] stranek lepsi nez kterykoli cesky fulltext a o 3.136.381 [4-6-1-3]lepsi nez Google. Zaroven ma fulltext AllTheWeb v indexu 8.170.808 [5] stranek, coz je vice, nez Google, vice nez WebSeek a temer tolik, co Jyxo.
Presto dava Google relevantni odpovedi na dotazy. Dulezity patrne neni uplny index, ale dostatecny index a kvalitni vahy pro parametry vyhledavani.
mod_rewrite. V Apache si můžete nastavit interpretaci oddělovače. Když si tedy nastavíte, že / bude mít funkci ? a & bude nahrazen dalšími lomítky, pak už jde čistě jen o to, jak vhodně parsovat URL typu http://domena/promenna/promenna/promenna.