Vlákno názorů k článku Google se vrací, tentokrát na Seznam od Michal Illich - Dovolim si opravit nektere nepresnosti, kterych se v...

  • Článek je starý, nové názory již nelze přidávat.
  • 6. 11. 2002 10:21

    Michal Illich (neregistrovaný)
    Dovolim si opravit nektere nepresnosti, kterych se v tomto odstavci nashromazdilo za prilis:

    Výhodou Google proti Empyreu nebo jiným českým řešením může být také větší databáze zdrojů, pravidelné indexování, ochrana před zahlcováním a propracovaná pravidla zodpovídání dotazů. Proti AllTheWeb (který využívá i české Tiscali) a další zahraniční konkurenci má navíc Google v kapse velmi silnou zbraň, které se říká Google Page Rank - tedy hodnocení relevance stránek podle počtu odkazů z jiných serverů. Přirozenou výhodou je také to, že se neomezuje na českou doménu, ale na český jazyk, ať už jsou česky psané stránky uložené kdekoliv - v tom mu lokální vyhledavače dost dobře nemohou konkurovat.

    (1) "Vetsi databaze zdroju": V .cz spise ne - jak Jyxo, tak Webfast maji velmi slusne pokryti. Ve svete je samozrejme Google s naskokem nejvetsi.

    (2) "Pravidelne indexovani" - pravidelne ano, otazka je jak casto :) - Google jednou mesicne, Jyxo aktualizuje dulezite stranky jako je zpravodajstvi jednou denne a nove nalezene stranky zarazuje do 24 hodin

    (3) "PageRank" - vsechny moderni vyhledavace pouzivaji nejakou formu analyzy hyperlinku, neni to vysada Googleu (ten to jen hlasite marketuje)

    (4) "ne na ceskou domenu, ale na cesky jazyk" - u Redboxu je omezeni na .cz, u Seznamu na cesky jazyk - to ale bohuzel vubec nefunguje - zkuste hledat 'com' a cesky bude jen 5 z 10 odkazu, zbytek anglicky, v jinych pripadech Google mota cestinu, slovenstinu, chorvatstinu a kdo vi co jeste - zde maji jeste co dohanet (a pravdepodobne nedozenou, protoze nepredpokladam, ze v Googleplexu pracuji cesi)...

    (5) "v tom mu lokalni vyhledavace nemuzou dost dobre konkurovat" - samozrejme ze mohou, proc ne?

  • 6. 11. 2002 10:30

    Michal Illich (neregistrovaný)
    Pardon, u redboxu _bylo_ omezeni na .cz, ted uz hledaji Googlem jen ve svete.

    Take v prvni vete ma byt 'az', ne 'za'.
  • 6. 11. 2002 11:26

    Marek Prokop (neregistrovaný)
    Ad (2): Tvrzení, že Google *indexuje* jednou měsíčně je velmi zavádějící. Google jednou měsíčně provádí aktualizaci svého hlavního indexu, při které vyhodnocuje zpětné odkazy, detekuje a penalizuje spammery, počítá PR, atd. Indexuje (ve smyslu "spideruje") ovšem průběžně a některé výsledky těchto indexací ihned zahrnuje do výsledků. Stačí, když má web slušný PR a je dlouhodobě pravidelně aktualizován. Většina našich nových stránek se do výsledků Googlu dostane za dva až šest dní. Pravda ale je, že Jyxo bývá o něco rychlejší :-)
  • 6. 11. 2002 13:12

    Michal Illich (neregistrovaný)
    Mate naprostou pravdu. Kazdopadne cast, ktera je aktualizovana casteji, je hodne mala - Search Engine Showdown, ktery ma data primo od Google, uvadi 0.15% velikosti celeho indexu.
    Nicmene je videt, ze na tom pracuji, a v case se to zlepsuje.
  • 6. 11. 2002 13:45

    Marek Prokop (neregistrovaný)
    To je zajímavá informace, těch 0,15 %. Skoro se mi nechce věřit, že by zrovna naše stránky patřily do tak exklusivního klubu, ale možné to je. V každém případě to opět (viz můj příspěvek v jiném vláknu) vypovídá o tom, že Google preferuje *kvalitní* stránky před velikostí/aktuálností databáze, což se shoduje i s mými praktickými zkušenostmi jako uživatele.

    Když chci najít to nejlepší z oborů, o kterých existují mraky stránek, použiju Google. Když naopak chci najít něco výjimečného, co se jen tak snadno najít nedá a nezáleží mi na kvalitě (resp. si nemůžu vybírat), použiju pro doménu CZ Jyxo.
  • 6. 11. 2002 23:14

    Marek Prokop (neregistrovaný)
    Mrzí mne to, ale musím sám sebe opravit. Zdá se, že Jyxo v poslední době zpomalil. Teď jsem kontroloval několik stránek, a vždy má starší stav než Google. Příklad:

    Podle uložených náhledů dostupných z:
    http://jyxo.cz/search.php?s=weblog+pro+webmastery

    má weblog SvS poslední zápis 21.10., resp. jiná verze téhož URL dokonce 17.10. Google má v cache stav z 5.11. a opravdu tuhle stránku indexuje denně.

    http://www.google.com/search?q=weblog+pro+webmastery

    Není to ojedinělý případ. Narazil jsem na jiných webech na několik nových stránek, které v Googlu už jsou a v Jyxu ne.
  • 6. 11. 2002 23:28

    Michal Illich (neregistrovaný)
    Asi pred hodinou jsem vam manualne nastavil denni indexaci, takze weblog Sovy v siti bude od nynejska maximalne aktualni.

    Osobne si nemyslim, ze by 15 dnu neindexovana stranka byla neco strasneho. Vyhlasuji jednoduchou soutez pro bystre hlavy: "Kdy naposled aktualizovalo Empyreum?"
  • 7. 11. 2002 0:21

    Marek Prokop (neregistrovaný)
    Abychom si rozuměli, já s vámi souhlasím, že z vyhledavačů, které se u nás používají, je Jyxo v indexování stránek všeobecně nejrychlejší. Já jsem jen opravoval své předchozí tvrzení, že *naše* (tj. ty, o které se starám já) nové stránky najde Jyxo většinou dříve než Google. Pamatuji si, že to platilo v době, kdy se Jyxo objevil, ale dnes už to neplatí. Pro stránky, o které se nestarám, to asi platí i nadále.

    Co se týče Empyrea, to už je dnes jen taková mátoha (alespoň co se aktuálnosti databáze týče). Zpočátku ale také našlo nové stránky do týdne.

    Za zvláštní režim pro Weblog SvS samozřejmě děkuji :-) Mimochodem, zaujalo mne, že jste ho nastavil *manuálně*. Nestálo by za to určovat frekvenci indexování automaticky, podle toho, jak často se stránka skutečně mění?
  • 7. 11. 2002 12:11

    Johnnie (neregistrovaný)
    No vidíte, to vám chybí nastavit už jen pár milionů stránek a máte možná nejdokonalejší vyhledávač na světě :)))) ne, vážně si myslíte, že ručním nastavením aktualizace docílíte lepších výsledků?!?! Těch pár "náhodně" vybraných stránek svět pravděpodobně nespaspí!!! :-)))
  • 7. 11. 2002 15:38

    Michal Illich (neregistrovaný)
    Kdepak, rucne nastavujeme jen:
    (a) ne-cz domeny, ktere jsou ale cesky psane
    (b) zpravodajske weby (nebo kvalitni weblogy)

    Obojiho je v radu stovek.
    Tech 12 milionu stranek se samozrejme aktualizuje automaticky.

    Jinak nepodcenujte lidsky faktor - vsechny dobre vyhledavace jsou konfigurovane lidmi, protoze to pomaha boji proti spamu a ke zkvalitnovani databaze. V tom neni Jyxo vyjimka.
  • 7. 11. 2002 15:52

    Johnnie (neregistrovaný)
    No, mně to bylo nějak divné :))) A nepomohlo by třeba zvýhodnění lidí, kteří si dají tu práci a doplní své stránky meta tagy jako Content-Language, Keywords, Robots apod...? Svým způsobem i tohle tak trochu svědčí o tom, že si někdo dal tu práci s kvalitním obsahem... :))) Jinak: "indexování zdar!"
  • 8. 11. 2002 8:53

    miroslav.kucera (neregistrovaný)
    No, priznam, ze Jyxo me vubec nezaujalo. Dal jsem hledat vyraz "Sklicko s logem 6510" a Jyxo jako zmatene vypsalo nekolik desitek odkazu, ktere se lisily jenom parametrem v URL. Takze jsem jako "debil" musel projit vsechny, abych zjistil, jestli tam neni neco jinyho. To Google vypsal dva odkazy a ok.
  • 8. 11. 2002 9:56

    Michal Illich (neregistrovaný)
    Vzdyt ale Google i Jyxo vraci naprosto totez! :)

    Rozdil je akorat v prezentaci - prvni dva odkazy jsou ze stejneho zdroje, tedy je druhy odsazeny (u obou vyhledavacu). Potom je rozdil - u Google jsou dalsi (opet ale tytez) odkazy na kliknuti, u nas je vidite primo.

    Jako debil vubec nic prochazet nemusite, protoze jste si jako inteligentni clovek vsiml, ze odkazy se lisi pouze parametrem.

    Pokud tedy vas nazor znamena "Pral bych si, aby byly jasneji oddelene zbyvajici odkazy z clusteru", tak jej respektuji a pokusime se s tim neco udelat.

    Ale na zaklade jednoho dotazu usuzovat na cely vyhledavac (a jeste v pripade, ze vraci naprosto SHODNE odkazy jako jiny, ktery povazujete pro tento dotaz za lepsi) je jen mateni tech, kteri si neoveri, jaka je realita.



  • 8. 11. 2002 15:21

    miroslav.kucera (neregistrovaný)
    Ale ja prece nepotrebuji videt ty odkazy 165x. Jednou, dvakrat staci :).

    No, usuzuji na cely vyhledavac z toho duvodu, ze pri jinem dotazu muze zobrazit treba onech 165 odkazu, ktere se lisi parametrem a az potom bude zobrazovat dalsi odkazy. A kdo by samozrejme klikal a hledal ty dalsi odkazy, ze? :)

    Ja proste musel prolezt vsechny odkazy, abych zjistil, zdali se tam nahodou nenaleza nejaky jiny, a to nepovazuji za dobre, resp. pouzitelne.
  • 8. 11. 2002 16:35

    Michal Illich (neregistrovaný)
    Nemusel jste prolezt vse - clusterovani mame a pouze na konci vypisu jsou odkazy, ktere "prebyvaji".

    Mate pravdu, ze uzivatel, ktery je u nas poprve a zrovna polozi jeden z takovych dotazu, tomu nemusi porozumet. Proto jsme tam dnes priblizne v 10:00 dali oddelovaci caru s popiskem (muzete si stejny dotaz vyzkouset i nyni)...
  • 6. 11. 2002 15:19

    Martin Kopta (neregistrovaný)
    Ad větší databáze) Google na Seznam přináší i hledání ve světě.

    Ad pravidelné indexování) Google má různé intervaly pro různé typy zdrojů. U zdrojů, které se mění často, navštěvuje stránky asi týdně. Jyxo otravuje každý den, i když se nic nezmění? Nesetkáváte se s tím, že Jyxo někdo zakáže v /robots.txt, protože objem dat, který denně stahuje je poněkud nepřiměřený počtu uživatelů, kteří přes něj ke zdroji přijdou?

    Ad PageRank) Ano, ale Google se netají hodnotou PageRanku.

    Ad cesky jazyk) Myslím, že teď dohánět začnou, protože se počet uživatelů češtiny zase trochu zvýší. Odhalit jazykové změny je poněkud složité, protože třeba dneska jsem do úplně českého webu se spoustou anglických citací přidal slovenskou větu. Jelikož je to Sova v síti, tak jsou jazyky označeny pomocí xml:lang, ale na většině serverů rozlišení jazyků nefunguje takhle přísně. Jsem celkem zvědavý, jak Google ohodnotí moji stránku o hláskových změnách od praslovanštiny po moderní češtinu, kde uvádím příklady i z jiných slovanských jazyků... Vymezit češtnu proti například slovenštině jen na stránky, kde se nevyskytuje ľ, ä, ô, to mi přijde poněkud hrubé.

    Ad konkurování při hledání českých stránek mimo doménu .cz) Ano, mohou, opravdu jim v tom nic nebrání. Ale v tom případě mi řekněte, proč to tedy nedělají?
  • 6. 11. 2002 21:08

    Michal Illich (neregistrovaný)
    ad pravidelne indexovani) Ano, i Jyxo obnovuje ruzne stranky s ruznou periodicitou. Se zakazovanim pomoci robots.txt jsme se zatim nesetkali, Jyxobot crawluje jednotlive stranky s nekolikasekundovymi pauzami, takze se webmasteri nemusi ceho obavat...

    ad netajeni pageranku) To je obchodni tah - po nekolika letech pochopili webmasteri a novinari, co to PageRank je, a tak ho Google nadale marketuje. Ale vnitrek vyhledavace preferuje k razeni odkazu uz davno uplne jina kriteria :)
    Zverejnenim PageRanku Google nechal webmastery a SEO, aby si meli s cim hrat a nad cim travit bezezne noci, ale zaroven tim neprozrazuje vubec nic ze sveho knowhow.

    ad "Vymezit češtnu proti například slovenštině jen na stránky, kde se nevyskytuje ľ, ä, ô, to mi přijde poněkud hrubé. "

    Tak to take pokud vim nikdo nedela (jen aspseek ma podobnou techniku, ale zamerenou na skupiny znaku)

    ad "Ad konkurování při hledání českých stránek mimo doménu .cz) Ano, mohou, opravdu jim v tom nic nebrání. Ale v tom případě mi řekněte, proč to tedy nedělají?"

    To nevim, to se zeptejte jich :)
    Jyxo indexuje spoustu webu mimo .cz

  • 7. 11. 2002 10:18

    Michal Majer (neregistrovaný)
    Sice jyxo.cz zatím nepoužívám, takže nemůžu moc hodnotit. Ale zkusil jsem na google.com i na jyxo.cz hledat slovní spojení "zákony na CD". Na google jsme na 1.místě a jsem spokojen. Zákony na CD-ROM prodáváme, takže odkaz je relevantní. Kdežto na jyxo.cz jsme se nenašli. Přitom by na tento dotaz měly podle mě být na prvních místech weby, které obsahují všechna hledaná slova ve frázi. Jak jsem náhodně mrknul, některé jyxovské nalezeniny obsahují třeba jen jedno ze slov "zákony" nebo "CD". To je jen můj osobní postřeh.
  • 6. 11. 2002 22:18

    mira t. (neregistrovaný)
    Jyxo otravuje každý den, i když se nic nezmění? Nesetkáváte se s tím, že Jyxo někdo zakáže v /robots.txt, protože objem dat, který denně stahuje je poněkud nepřiměřený počtu uživatelů, kteří přes něj ke zdroji přijdou?

    Ze by neumelo HTTP/1.1 a If-Modified-Since ? To se mi nechce verit.

Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).