Tak jsem zkusil prohledat google na dotaz v, coz je slovo, ktery mi vyhodilo nejvyssi pocet nalezenych stranek. Neni to vedecke, ale...
[1] Google – lang=cs
[2] Google – site:cz
[3] Google – lang=cs; site:cz
a zjistil jsem, ze Google obsahuje jen 2.480.000 [1] cesky psanych stranek, z toho v ceske domene 2.290.000 [3], coz znamena, ze Seznam ma o 190.000 [1-3] bohatsi zdroje nez vyhledavace omezene jen na site:cz. Vzhledem k tomu, ze Jyxo ma 11.945.012 dokumentu a webseek 5.564.061, je jasne, ze Google ma index mnohem mensi 2.350.000 [2].
Lepsi nez Seznam/Google je spojeni Tiscali/AllTheWeb,
[4] AllTheWeb – l=cs
[5] AllTheWeb – url:cz
[6] AllTheWeb – l=cs; url:cz
protoze v Indexu AllTheWeb je 9.161.578 [4] cesky psanych stranek, z toho 5.835.197 [6] v domene CZ. To znamena, ze AllTheWeb je o 3.326.381 [4-6] stranek lepsi nez kterykoli cesky fulltext a o 3.136.381 [4-6-1-3]lepsi nez Google. Zaroven ma fulltext AllTheWeb v indexu 8.170.808 [5] stranek, coz je vice, nez Google, vice nez WebSeek a temer tolik, co Jyxo.
Presto dava Google relevantni odpovedi na dotazy. Dulezity patrne neni uplny index, ale dostatecny index a kvalitni vahy pro parametry vyhledavani.
mod_rewrite
. V Apache si můžete nastavit interpretaci oddělovače. Když si tedy nastavíte, že /
bude mít funkci ?
a &
bude nahrazen dalšími lomítky, pak už jde čistě jen o to, jak vhodně parsovat URL typu http://domena/promenna/promenna/promenna
.
-url:lanius
, zůstane mi tam clavius. Přidám i -url:clavius
, ale stejně při vyhledávání "Otokar Chlup" -url:lanius -url:clavius
zůstane ve výsledcích spousta knihoven. Nejlepším řešením by bylo něco jako "Otokar Chlup" -source:library
. Zkuste si najít něco o prvním děkanovi naší fakulty, aby to nebyla jen jeho bibliografie. :-((
Prestoze ISSN ma centralu v Parizi, tak tolik byrokraticke neni. :-) Cislo dostane kazdy, kdo splni jednoduche podminky, staci vyplnit online formular a nic se za to neplati. Vyhoda je vcelku patrna. URL se meni, URN nikoli. ISSN.org je jedna z mala instituci, ktera na priprave resolvniho centra pro URN systematicky pracuje. Vzhledem k tomu, ze to neni tak davno, kdy byl schvalen protokol CNRP (schema go:
), myslim, ze dalsi verze prohlizecu zacne s URN pracovat na vyssi urovni nez je zatim zvykem u keywords.
Mimochodem, prevod URN na URL povazuji za jednu z dalsich pozic vyhledavacu v kratke budoucnosti.
Ale mate pravdu v tom, ze treba Sova v siti ISSN jeste nema. Presto ani servery, ktere maji ISSN, a da se tak identifikovat serialova podstata publikace, nejsou v Jyxu automaticky zavedeny mezi "clankove" zdroje.
Pri nasi posledni debate o podpore metainformaci v dokumentech jste tvrdil, ze je nikdo nepouziva. Ja musim po tech dvou mesicich oponovat tim, ze naopak, je malo nastroju, ktere by mohli uzivatele pouzit k praci s metainformacemi. Spousta lidi, kteri sleduji weblogy, pouziva RSS, ale kolik vyhledavacu tenhle bohaty zdroj metainformaci dovede zuzitkovat? Vzdyt i Google a Empyreum sosaji zpravodajstvi postaru jako HTML stranky a analyzuji je, aby dosly k tomu, ze se tykaji urciteho tematu. Metainformace by v tomto smeru byla urcite zjednodusenim prace vyhledavace.
Výhodou Google proti Empyreu nebo jiným českým řešením může být také větší databáze zdrojů, pravidelné indexování, ochrana před zahlcováním a propracovaná pravidla zodpovídání dotazů. Proti AllTheWeb (který využívá i české Tiscali) a další zahraniční konkurenci má navíc Google v kapse velmi silnou zbraň, které se říká Google Page Rank - tedy hodnocení relevance stránek podle počtu odkazů z jiných serverů. Přirozenou výhodou je také to, že se neomezuje na českou doménu, ale na český jazyk, ať už jsou česky psané stránky uložené kdekoliv - v tom mu lokální vyhledavače dost dobře nemohou konkurovat.
(1) "Vetsi databaze zdroju": V .cz spise ne - jak Jyxo, tak Webfast maji velmi slusne pokryti. Ve svete je samozrejme Google s naskokem nejvetsi.
(2) "Pravidelne indexovani" - pravidelne ano, otazka je jak casto :) - Google jednou mesicne, Jyxo aktualizuje dulezite stranky jako je zpravodajstvi jednou denne a nove nalezene stranky zarazuje do 24 hodin
(3) "PageRank" - vsechny moderni vyhledavace pouzivaji nejakou formu analyzy hyperlinku, neni to vysada Googleu (ten to jen hlasite marketuje)
(4) "ne na ceskou domenu, ale na cesky jazyk" - u Redboxu je omezeni na .cz, u Seznamu na cesky jazyk - to ale bohuzel vubec nefunguje - zkuste hledat 'com' a cesky bude jen 5 z 10 odkazu, zbytek anglicky, v jinych pripadech Google mota cestinu, slovenstinu, chorvatstinu a kdo vi co jeste - zde maji jeste co dohanet (a pravdepodobne nedozenou, protoze nepredpokladam, ze v Googleplexu pracuji cesi)...
(5) "v tom mu lokalni vyhledavace nemuzou dost dobre konkurovat" - samozrejme ze mohou, proc ne?
Ze by neumelo HTTP/1.1 a If-Modified-Since ? To se mi nechce verit.
Cele se zuzuje do jednoducheho faktu. Ten kdo nabidne v CR spravny obchodni model, ten si bude moci pokryt naklady na provoz a pernamentni vyvoj.
My jdeme cestou oborovych implementaci. Najdeme si soubor oborove blizkych serveru, ty indexujeme a nabidneme prislusnym provozovatelum k provozu. Jde to jak se rika pomalu, ale jiste.
Zkuste si UFFO zde
http://www.uffo.cz/index.php?p=zkuste_si_uffo
S druhou casti si dovolim polemizovat. Kdo pred dvema tremi lety byl ochoten zaplatit v CR za vyhledavani? Skoro nikdo. I REDBOX s tim mel problemy (s placenim), ted se to pomalu meni.
Jak to tedy bude za dva tri roky? Podle me se bude pocet subjektu ochotnych poskytovat kvalitni sluzby vcetne vyhledavani zvetsovat.
Tak se budeme asi budeme potkavat :)