Pokud narazí na rozdíl, bude se stránkou dále pracovat; nejdřív zjistí, zda vůbec jde o nějak relevantní obsah – asi nemá cenu indexovat stránku obsahující odpověď na vyhledávání, že bohužel nic nalezeno nebylo;
mno stává se mi poslední dobou (hlavně když hledám odkazy na konkrétní produkty), že mi google nabídne odkaz na další vyhledávač, který ovšem zahlásí pouze, že nic nenalezl. takže pokud zlepší algoritmus tak, aby toto minimalizoval, budu jenom rád (:
Názory k článku
Robot Google se zkouší ponořit do hlubokého webu, zůstává ale na povrchu
Petr (neregistrovaný)
24. 4. 2008 8:11
Nový
super
celé vlákno
Konečně, znám plno webů, které mají vyhledávání přes formuláře (vyberte okres, město, typ filmu,...) a tak jejich mnohdy zajímavá data chyběla. Doufám, že se to osvědčí.
Samozřejmě, někde se asi dostane kam nemá... :o)
Samozřejmě, někde se asi dostane kam nemá... :o)
24. 4. 2008 8:49
Nový
Diskuze taky?
celé vlákno
To bude Google zkoušet vkládat slova do formulářů i v diskuzních fórech, knihách návštěv, chatech...? To se teď captcha stane opravdu povinností? Snad ne...
PeTe (neregistrovaný)
24. 4. 2008 10:14
Nový
Re: Diskuze taky?
celé vlákno
tesim se na diskuzni prispevky od Googlebota.. predstavuju si ho jako velice rozumneho a vtipneho chlapika, s nim bude radost si povidat;-)
24. 4. 2008 15:33
Nový
Re: Diskuze taky?
celé vlákno
Takový veselý chlapík bude v tom případě implicitně na blacklistu u všech mnou provozovaných webů. Akorát trocha práce navíc, výsledek nula. K čemu že to všechno? X let se tvůrci stránek učí optimalizovat pro vyhledavače (a nelžeme si, je to hlavně pro Google) a tím mu práci usnadňovat a zároveň dávat najevo, že stojíme o to, aby nás indexoval. A teď se nakonec Google přizpůsobí a to takovým způsobem, že začne všechny obtěžovat? Vydělají na tom jenom ti, kteří na Google až doteď kašlali. Abych nebyl zle pochopen - nejsem odpůrcem pokroku, líbí se mi, že se Google nadále zdokonaluje. Ale cesta "pokusného" vkládání dat do formulářů mi přijde jako pořádná prasárna.
Bilbo (neregistrovaný)
25. 4. 2008 18:14
Nový
Re: Diskuze taky?
celé vlákno
Staci ho pridat do "blacklistu" v robots.txt (zakazat mu tam indexovbat formulare ...) a je vymalovano ... googlebot robots.txt respektuje
uživatel si přál zůstat v anonymitě
24. 4. 2008 15:25
Nový
Re: Diskuze taky?
celé vlákno
nikoliv, pomoci americkeho radaru si to precte na dalku primo z harddisku vaseho serveru
24. 4. 2008 15:35
Nový
Re: Diskuze taky?
celé vlákno
Na tu radarovou paranoiu už by měli vědci vymyslet sérum. Tohle už je vážně moc...
uživatel si přál zůstat v anonymitě
24. 4. 2008 17:27
Nový
Re: Diskuze taky?
celé vlákno
no jo, hlavne vsechno pochopit, ze jo ?
24. 4. 2008 8:53
Nový
Captcha
celé vlákno
Pro mě tento "nový" styl "vyhledávání" :( rozhodně přínosný nebude. Nechápu, jak se Google může uchýlit k takovým praktikám jako je vyplňování formulářů nějakými daty ze stránky, co to jako je? Nová éra SPAMování a plnění databází balastem?
Na to se opravdu musí každý programátor "těšit" :). Jestli to Google začne provádět, tak se přesune na stranu SPAMerů diskuzních fór! Tohle má být jako firma "don't be evil"? No to snad ne!
A článek je napsán skoro v optimistickém duchu :). Co až budete mít na stránkách kontaktní formulář, a Google vám, přes něj, začne "posílat" zprávy typu vaše jméno a příjmení, "Kontakty" atd.
Že budu muset zavádět Captcha obrázky kvůli SPAMerům se čekat dalo, ale kvůli Google a všude? Tak to už je opravdu síla.
Jestli to zavedou, tak přibude do robots.txt hodně stran.
Tý jo, vyplňování náhodných slov do formulářů, to snad není pravda, jim pošlu fakturu za procesorový čas a místo na HDD hajzlíkům jedněm :(. Pěkně se vybarvil Google, pěkně, přešel na přesně opačnou stranu k lidem, kteří dokážou člověku pěkně znepříjemnit život.
Na to se opravdu musí každý programátor "těšit" :). Jestli to Google začne provádět, tak se přesune na stranu SPAMerů diskuzních fór! Tohle má být jako firma "don't be evil"? No to snad ne!
A článek je napsán skoro v optimistickém duchu :). Co až budete mít na stránkách kontaktní formulář, a Google vám, přes něj, začne "posílat" zprávy typu vaše jméno a příjmení, "Kontakty" atd.
Že budu muset zavádět Captcha obrázky kvůli SPAMerům se čekat dalo, ale kvůli Google a všude? Tak to už je opravdu síla.
Jestli to zavedou, tak přibude do robots.txt hodně stran.
Tý jo, vyplňování náhodných slov do formulářů, to snad není pravda, jim pošlu fakturu za procesorový čas a místo na HDD hajzlíkům jedněm :(. Pěkně se vybarvil Google, pěkně, přešel na přesně opačnou stranu k lidem, kteří dokážou člověku pěkně znepříjemnit život.
mad4 (neregistrovaný)
24. 4. 2008 15:59
Nový
Re: Captcha
celé vlákno
jak se rika "nesud dne pred vecerem" (plati i pro ostatni prispevky v tomhle duchu vyse)
google neni zadna huraakce firma, beta verze jejich produktu byly az doposud vzdy "dokonale" odladeny a osetreny, proc by tomu tak nemelo byt i ted?!?!?
myslite, ze by tech x desitek/stovek lidi co na tomhle pracuji nenapadlo, ze neni dobry napad spamovat fora apod.?
google neni zadna huraakce firma, beta verze jejich produktu byly az doposud vzdy "dokonale" odladeny a osetreny, proc by tomu tak nemelo byt i ted?!?!?
myslite, ze by tech x desitek/stovek lidi co na tomhle pracuji nenapadlo, ze neni dobry napad spamovat fora apod.?
Petr (neregistrovaný)
25. 4. 2008 8:45
Nový
Re: Pouze reaguji
celé vlákno
Možná vysvětlení článku:
a. Google neví, co dělá.
b. Autor článku neví, co píše.
Co z toho je pravděpodobnější?
a. Google neví, co dělá.
b. Autor článku neví, co píše.
Co z toho je pravděpodobnější?
25. 4. 2008 15:06
Nový
otázka je
celé vlákno
Google ví až moc dobře, co dělá, otázka je, co z toho budu mít já, či jaký je následek na mě.
To je prostě špatně položená otázka.
Otázka by měla znít, jestli praktiky, zmíněné v článku, bude Google dělat a nebo ne, a to ukáže až čas...
To je prostě špatně položená otázka.
Otázka by měla znít, jestli praktiky, zmíněné v článku, bude Google dělat a nebo ne, a to ukáže až čas...
uživatel si přál zůstat v anonymitě
24. 4. 2008 10:45
Nový
I PHP?
celé vlákno
Takže když mám na stránce rozbalovací seznam s akcemi a políčko na e-mail a tlačítko pro odeslání, odešle mi Google spoustu mailů přes PHP mail? Že bych tam teda konečně dodělal i test, zda zadaný text vypadá jako e-mail? :-D
Bilbo (neregistrovaný)
25. 4. 2008 18:13
Nový
Re: I PHP?
celé vlákno
Staci pridat par zaznamu do robots.txt a googlebot formular neodesle ....
Ivo (neregistrovaný)
24. 4. 2008 11:06
Nový
Nevyvolávejte paniku
celé vlákno
V článku http://googlewebmastercentral.blogspot.com/2008/04/crawling-through-html-forms.html (je mimochodem dostupný na dvě kliknutí z tohoto článku) je uvedeno, že se týká jen formulářů s metodou GET, která je definována jako SAFE - neměla by vyvolávat na stránce vedlejší efekty (viz. http://en.wikipedia.org/wiki/HTTP#Request_methods), takový formulář by rozhodně neměl nic vkládat do databáze. Obavy ze spamování jsou pouze neopodstatněným vyvoláváním paniky. Dále je tam uvedeno, že budou ignorovány jakékoliv formuláře, které obsahují pole vyžadující osobní údaje (login, heslo, userid, kontakt apod.)
Petr (neregistrovaný)
24. 4. 2008 14:07
Nový
Re: Nevyvolávejte paniku
celé vlákno
Co to je? Kdo 'vymyslel normu' že GET se může používat jen pro 'neškodné' formuláře? Můžu tak mít udělané třeba pokračování v objednávce na shopu (bude plno 'fake' nedokočených objednávek), můžu tak mít udělané přihlašování k uživatelskému účtu (Google se trefí do nějkého reálného loginu a hesla nebo naopak zablokuje login pro moc špatně zadaných hesel), můžu mít ankety udělané pomocí formuláře právě proto aby mi je nezkreslovaly vyhledávače falešnými prokliky...
Našel bych kvanta důvodů proč není dobrý nápad aby vyhledávače formuláře proklikávaly. Jediná situace kdy by to mělo smysl by bylo, abych byl takový formulář s povoleným proklikem pro vyhledávače nějak jasně odlišen a já mohl při psaní stránek určit které může vyhledávač zkusit.
Našel bych kvanta důvodů proč není dobrý nápad aby vyhledávače formuláře proklikávaly. Jediná situace kdy by to mělo smysl by bylo, abych byl takový formulář s povoleným proklikem pro vyhledávače nějak jasně odlišen a já mohl při psaní stránek určit které může vyhledávač zkusit.
24. 4. 2008 14:54
Nový
Re: Nevyvolávejte paniku
celé vlákno
> Co to je? Kdo 'vymyslel normu' že GET se může používat
> jen pro 'neškodné' formuláře?
R. Fielding, J. Gettys, J. Mogul, H. Frystyk, L. Masinter, P. Leach a T. Berners-Lee -- viz RFC 2616 :-))
R. Fielding, J. Gettys, J. Mogul, H. Frystyk, L. Masinter, P. Leach a T. Berners-Lee -- viz RFC 2616 :-))
Ash (neregistrovaný)
24. 4. 2008 21:21
Nový
Re: Nevyvolávejte paniku
celé vlákno
No to to ale budete mít udělané špatně :) Za těmito účely se používá POST.
24. 4. 2008 15:46
Nový
Re: Nevyvolávejte paniku
celé vlákno
Díky za toto upřesnění. Tím pádem beru zpátky co jsem před chvílí napsal výše:-)
27. 4. 2008 12:27
Nový
Re: Nevyvolávejte paniku
celé vlákno
Zaujímalo by ma, ako google zistí, že vo formulári sa vyžadujú osobné údaje. Ak to bude kontrolovať iba na atribút "name" a či sa náhodou nerovná niečomu ako "login", "loginname" a pod., tak to asi veľmi efektívne nebude.
Vojtěch Rylko (neregistrovaný)
24. 4. 2008 14:21
Nový
A budoucnost přinese:
celé vlákno
V budoucnu se bude Google Bot dokonce i registrovat na weby, aktivně přispívat do diskuzí a sledovat reakce, ověřova e-shopy namátkovou objednávkou zboží a bude zkoušet náhodilé bankovní transakce. Hurá :)
uživatel si přál zůstat v anonymitě
24. 4. 2008 23:58
Nový
hluboký web nejsou jen formuláře
celé vlákno
Jako hluboký web se berou i informace, které jsou více vnořené a také které jsou přístupné přes přihlášení. Osobně bych uvítal, kdyby Gooooogle šel do větší hloubky.
Pro zajímavost, někde jsem četl, že hluuboký web obsahuje, pokud se nemýlím, 95 % informací (tedy Gooooogle indexuje jen 5 % webu).
Navíc např. NASA má ve svých databázích řádově více informací, než je na celém internetu. A to neplatí jen pro NASA.
Pro zajímavost, někde jsem četl, že hluuboký web obsahuje, pokud se nemýlím, 95 % informací (tedy Gooooogle indexuje jen 5 % webu).
Navíc např. NASA má ve svých databázích řádově více informací, než je na celém internetu. A to neplatí jen pro NASA.
25. 4. 2008 10:54
Nový
Re: hluboký web nejsou jen formuláře
celé vlákno
No jo, ale zase koho zajímá 95% obsahu databází NASA? Mám doma také 1,7Tb dat, což je řádově víc než standardní člověk pracující s počítačem a mám tam také jen hromady smetí které je mi líto smazat, co kdyby se jednou hodily:-P...?
Google před rokem prohlásil že má naindexováno cca 300Tb internetu a to indexuje víc jak 10 let, kdyby prý chtěl naindexovat celý obsah internetu tak mu to zabere ještě kolem 130 let při podmínce že se web nebude mezitím dále rozvíjet... A internet je pořád ještě méně dat než kolik máme doma všichni na discích.
Google před rokem prohlásil že má naindexováno cca 300Tb internetu a to indexuje víc jak 10 let, kdyby prý chtěl naindexovat celý obsah internetu tak mu to zabere ještě kolem 130 let při podmínce že se web nebude mezitím dále rozvíjet... A internet je pořád ještě méně dat než kolik máme doma všichni na discích.
benghi (neregistrovaný)
5. 5. 2008 17:01
Nový
Tohle vymyslel talent
celé vlákno
...to se nedá říct jinak! Nerad používám sprostý slova, ale tohle byl fakt TALENT! Totiž, oni si u google neuvědomili víc věcí a to už v minulosti. Kupříkladu že vůbec nestojím o to, aby mi nějakej vyhledávač indexoval stránky, kdo o nich má vědět, ten o nich ví a ostatní ať jdou přesně tam.
robots.txt nejsou za současný situace žádná výhra, protože bych předpokládal, že pokud po requestu na robots.txt odpovím 404kou, pak by to mělo znamenat, že nestojím o nějaký indexování mých stránek (tudíž že má jít robot tam, odkud přišel), nikoliv že si tam může řádit jak černá ruka, jak si to vysvětlují patrně všechny vyhledávače.
Druhák, pokud si myslíte, že něco pořešíte tím, že nacpete hned do kořenu robots.txt, tak tím nevyřešíte nic, neb robots.txt musíte poslat kdykoliv, kdy je v requestu někde slovo robot. Na vlastním serveru to není nějak zásadní problém, ale na většině běžných hostingů je to problém neřešitelnej.
Dotřetice, pokud si myslíte, že robot bude akceptovat robots.txt, který mu zakazují hrabat kamkoliv, pak v případě googlu opět nemáte pravdu. Musíte mu nechat kořen + nějakej adresář, kde se nažere, jinak vaše robots.txt směle ignoruje.
Dost dlouho mi trvalo, než jsem se s vyhledávačema vypořádal, nakonec jsem nechal hledat v jednom jediným adresáři a jak tam něco sáhne, tak jde IP toho, co tam sáhne, na firewalu okamžitě do deny a není cesty zpět. Dtto pro některý uživatelem neklikatelný odkazy. Nedá se nic dělat, traffic, co napáchal google, byl asi trojnásobný proti tomu, co napáchali živí uživatelé, což dlouhodobě odmítám platit.
Tohle ale můžu udělat u serveru doma, bohužel ne u serveru na hostingu, kde mi tedy google skutečně zpříjemňuje život.
Pokud uvážím, že už tak agresivní potvora bude ještě agresivnější, tak vážně uvažuju o ukončení všech svých internetových aktivit a soudě z toho, co jsem se dozvěděl od jinejch lidí, nejsem sám. Výsledkem činnosti googlu pak bude, že na webu budou akorát pubošský stránky pochybnýho obsahu, který ovšem budou velmi dobře zindexovaný.
BTW ještě jedna poznámka na okraj. Z čeho má google příjmy? Když se na jejich stránky podíváte, je jasný, že z reklamy to nebude. Provoz takovýho monstra nebude levnej, čili vzniká otázka zásadního významu - kdo ten krám proboha platí!?
robots.txt nejsou za současný situace žádná výhra, protože bych předpokládal, že pokud po requestu na robots.txt odpovím 404kou, pak by to mělo znamenat, že nestojím o nějaký indexování mých stránek (tudíž že má jít robot tam, odkud přišel), nikoliv že si tam může řádit jak černá ruka, jak si to vysvětlují patrně všechny vyhledávače.
Druhák, pokud si myslíte, že něco pořešíte tím, že nacpete hned do kořenu robots.txt, tak tím nevyřešíte nic, neb robots.txt musíte poslat kdykoliv, kdy je v requestu někde slovo robot. Na vlastním serveru to není nějak zásadní problém, ale na většině běžných hostingů je to problém neřešitelnej.
Dotřetice, pokud si myslíte, že robot bude akceptovat robots.txt, který mu zakazují hrabat kamkoliv, pak v případě googlu opět nemáte pravdu. Musíte mu nechat kořen + nějakej adresář, kde se nažere, jinak vaše robots.txt směle ignoruje.
Dost dlouho mi trvalo, než jsem se s vyhledávačema vypořádal, nakonec jsem nechal hledat v jednom jediným adresáři a jak tam něco sáhne, tak jde IP toho, co tam sáhne, na firewalu okamžitě do deny a není cesty zpět. Dtto pro některý uživatelem neklikatelný odkazy. Nedá se nic dělat, traffic, co napáchal google, byl asi trojnásobný proti tomu, co napáchali živí uživatelé, což dlouhodobě odmítám platit.
Tohle ale můžu udělat u serveru doma, bohužel ne u serveru na hostingu, kde mi tedy google skutečně zpříjemňuje život.
Pokud uvážím, že už tak agresivní potvora bude ještě agresivnější, tak vážně uvažuju o ukončení všech svých internetových aktivit a soudě z toho, co jsem se dozvěděl od jinejch lidí, nejsem sám. Výsledkem činnosti googlu pak bude, že na webu budou akorát pubošský stránky pochybnýho obsahu, který ovšem budou velmi dobře zindexovaný.
BTW ještě jedna poznámka na okraj. Z čeho má google příjmy? Když se na jejich stránky podíváte, je jasný, že z reklamy to nebude. Provoz takovýho monstra nebude levnej, čili vzniká otázka zásadního významu - kdo ten krám proboha platí!?
Tiskni