Vlákno názorů k článku Google se vrací, tentokrát na Seznam od Marek Turnovec (MaT) - No, ja kdysi zjistil, ze s php je...

Článek je starý, nové názory již nelze přidávat.

12. 11. 2002 18:21

Marek Turnovec (MaT) (neregistrovaný)

No, ja kdysi zjistil, ze s php je jeste jeden zpusob... :-) Nikde jsem to pak tedy nezrealizoval, jen jako takovou testovaci hracku, ale kdyz to tady tak ctu, tak to asi pouzivat zacnu. :-)

O co tedy jde - mel jsem skript, pojmenovany treba index.php - no a URL pak treba takhle:

http://server.cz/index.php/1234

Co to delalo? Pustilo to skript index.php. No a v nem jsem si z nejake promene vytahl, jake bylo puvodni URL a z nej vytahl to, co bylo za nazvem skriptu... Mel jsem tam nejdriv nazvy stranek (neco jako index.php/about a tak), ale cisla jdou pouzit taky. To by tem fulltextum melo pripadat jako normalni stranky a mely by to indexovat, ne? No a kdyz by nekdo jo chtel, muze si za ta URL davat treba i ".html"... :-) A neni problem predavat pak i klasicke parametry (za ?).

Mne se tohle reseni libi, ze nemusim pouzivat nejake moduly do apache (mod_rewrite) - protoze kdyz treba budu na nejakem hostingu, tak ne vzdy mam sanci presvedcit admina, aby tam neco takoveho dal...

No ale kdyz uz by si clovek administroval svuj server, je jeste jedno reseni, jak to ucinit puvabnejsi... Misto Index.php muze byt treba php skript se jmenem index nebo treba "clanek"... A u konfiguraku v apachi se pak nastavi, aby to bral jako php skript, i kdyz to nema priponu php (phtml etc.).
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
7. 11. 2002 9:24

Robert Němec (neregistrovaný)

Vždyť je tam rozdíl dvou bodů v GPR!
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 22:15

Michal Illich (neregistrovaný)

Ne, jen to ne :)

To pak vznikaji zbesilosti typu:
http://nejmenovany.server/search/drby/prace/vtv/svet/about/august/webmasterom/portfolio/humor/prace/drby/email/bomba/ ... atd.

Naopak mod_rewrite je idealni reseni - pro uzivatele, webmastera i uzivatele. (a admin se aspon konecne nauci regularni vyrazy :) )
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 21:57

Martin Kopta (neregistrovaný)

Mno, dokonce to nemusí jít až k mod_rewrite. V Apache si můžete nastavit interpretaci oddělovače. Když si tedy nastavíte, že / bude mít funkci ? a & bude nahrazen dalšími lomítky, pak už jde čistě jen o to, jak vhodně parsovat URL typu http://domena/promenna/promenna/promenna.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 21:45

Martin Kopta (neregistrovaný)

No, Marku, zatím nemám pocit, že by poradna.sexus.cz měla výraznou penalizaci za duplicitu s www.sexus.cz/tema/12-julie-a-jeji-poradna.html. ;-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 19:51

Tom (neregistrovaný)

Zajímalo by mne, proč v době vyspělých web-serverů a geniálních skriptovacích jazyků musí být návštěvníkovi webu stále inzerováno, jak se který skript jmenuje?

Cožpak by dnes nešlo technicky zařídit, aby namísto:

www.nekdo.com/article?id=2574

bylo prostě:

www.nekdo.com/2574.html

Převedení druhého typu URL na první je přece stejně složité, jako zpracovat první URL, či ne? Protože není nijak standardizováno zacházení s dynmickým obsahem, je asi zbytečné si myslet, že uvedením pazanků v URL někoho o něčem přesvědčím. Nebo se mýlím?

Když se podíváte na idnes, např. na ekonomickou rubriku, uvidíte, že jedno a to samé id může být v URL třeba až 3x + další unikátní identifikátory. Prostě hrůza.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 17:05

Marek Prokop (neregistrovaný)

Nejenom to. Google duplicitní obsah navíc tvrdě penalizuje jako spam.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 16:02

Pavel Kral (neregistrovaný)

U toho článku jste si v diskusi povzdechl, že jej napíšete ještě jednou a srozumitelněji :-)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 15:23

Martin Kopta (neregistrovaný)

Dám vám vědět.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 14:53

Mlčoch (neregistrovaný)

Asi nějak tak to bude, při velikosti Seznamu chápu, že se nechce moc bavit s jednotlivci a hledá zavedenou firmu s nějakou známou značkou.

Např. na http://www.google.com/corporate/facts.html je vidět, že jen managment team Google je možná větší než počet všech zaměstnanců na plný úvazek u "web search" firem v ČR dohromady :-)

Je to jako srovnávat Microsoft a Zdenda Vomáčka software s.r.o.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 14:52

Martin Kopta (neregistrovaný)

Také mám pocit, že většina URL je špatně navržená. Psal jsem o tom před dvěma lety na Lupě článek Umíte napsat URL?
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 14:49

Martin Kopta (neregistrovaný)

Chytří roboti neindexují stránky násobně. (Jejich programátoři)Používají hlavičku ETag a počítají si vlastní MD5. Z českých třeba WebSeek.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 13:08

Martin Hájek (neregistrovaný)

Většina vyhledavačů bere "?" a některé další otazníky jako koncový znak v URL a následující znaky ignoruje. Podle některých zdrojů to lze vyřešit např. modulem Apache (mod_rewrite). Pokud se Vás toto řešení netýká, jsou i jiná, ve volně dostupných zdrojích se však hledají těžko.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 12:57

Marek Prokop (neregistrovaný)

Máte pravdu, že ochota Googlu indexovat stránky klesá s počtem parametrů v URL (zjednodušeně řečeno). IMHO to ale není nevýhoda, nýbrž naopak výhoda. Dynamické stránky s parametry jsou dynamické, tj. jejich obsah se neustále mění a není tudíž žádná záruka, že index bude aktuální. Z pohledu uživatele jsem tedy rád, že mi Google takové stránky odsune ze zorného pole, nebo mi je nenabízí vůbec.

Pak je ještě pohled majitele serveru. Mnoho serverů zakazuje přístup vyhledavačům proto, že jim agresivní indexací dynamických stránek kradou výkon a bandwidth. Google je jeden z těch slušných a šetrných, které dynamické stránky indexují mnohem méně často a vždy jen v omezeném počtu naráz.

On je vůbec Google už dnes spíše marketingový nástroj než vyhledavač. K tomu, abyste "byl v Googlu" musíte jako majitel server dost udělat a dost investovat. Uživatelé pak dostanou velm relevantní a kvalitní výsledky (ve smyslu kvalitní stránky) na běžné dotazy. Pokud hledáte něco hodně speciálního, jsou na to lepší vyhledavače.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 12:11

Vasek P. (neregistrovaný)

Samozrejme, jsou i fulltexty ktere se indexuji navzajem a skutecne pocet naindexovanych stran lze oznacit za velmi velmi "orientacni" udaj.
Myslim ze seznam zvolil spise "proverenou" technologii a znacku coz pri jeho pozici a problemech se stavajicim fulltextem se zda byt bohuzel pochopitelne.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 11:53

Michal Terč (neregistrovaný)

S Google mám dost špatné zkušenosti (kam se hrabe na české Jyxo), protože mám takovou zkušenost, že odmítá registrovat stránky s parametry za otazníkem. Mám pocit, že takové stránky zaregistruje, ale pokud počet variant parametrů za otazníkem pro jednu stránku překročí určitý počet (typicky např. clanek.php?id=xxx), tak takovou stránku z indexů vymaže (když jsem začal web tvořit, tak ty stránky v Google byly, ale s jejich přibývajícím počtem najednou z Google zmizely). Pokud si dám vypsat pro svůj web zaindexované stránky na Google (site:webnews.cz), tak jich zobrazí mizivý počet oproti skutečnému počtu stránek na serveru.

Můžete mi poradi, jak se Vám podařilo Vaše stránky s otazníkem (těch 3000) do Google zaregistrovat, jak píšete v příspěvku?

Děkuji
Michal Terč
http://www.webnews.cz
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 11:21

Tom Mraz (neregistrovaný)

Myslim, ze jste to vystihl naprosto presne. Obcas, kdyz na nejaky dotaz na Google najdu malo odkazu, zkusim vyhledavat i na ceskych vyhledavacich. Vysledek je prakticky VZDY naprosto tristni - ukazou mi nekolikanasobne vice odkazu, z nichz 90% jsou totalni duplikaty tech zbyvajicich 10%, ktere nasel uz Google.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 11:16

Marek Prokop (neregistrovaný)

Nějak nechápu, kde se na vašem serveru vezme ten nekonečný počet URL. Chápu, že je někdo může napsat do prohlížeče, chápu, že je může sestavit nějakým formulářem, ale pokud je tam opravdu máte jako nekonečný počet odkazů (zanačka A), tak je to hodně divný server.

No, a i kdyby to náhodou byla pravda, tak není problém vhodným návrhem struktury webu v kombinaci s robots.txt povolit vyhledavačům přesně jen to, co chcete.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 10:43

Antonin Foller (neregistrovaný)

Jako administrátor www serveru musím říci dost důležitou věc - počet zaindexovaných dokumentů je hausnumero, které o kvalite fulltextu či dokonce jeho odpovědí svědčí jen velmi málo. Možná se dá uvádět jako marketingové číslo :-) Proč? Můžu uvést jeden z mnoha důvodů, který tu nezazněl. Je to jeden z mnoha, ale asi nejpodstatnější.
Většina rozumného (aktuálního) webového obsahu je v tuto chvílu v dynamické podobě (jinak řečeno, URL s otazníčkem). Fulltexty dynamické stránky původně vůbec neindexovaly, postupně musely začít. Jenže tu je jeden základní problém - v tuto chvíli neexistuje standard, který by byl schopen na straně serveru říci fulltextům které URL má stahovat a v případě dynamických stránek není k dispozici ani opačný (a označit všechny stránky meta tagy nemusí být až tak jednoduché)

Na našich serverech máme z pohledu fulltextu nekonečné množství stránek - už jen proto, že máme odkaz typu a href="url?refresh=random. Smysluplných stránek je okolo 3000. Smyslupných URL je nekonečno. Těch 3000 prostě potřebuju naindexovat, je to nutnost, ve fulltextu musí být vidět. Těch dalších několik miliónů stránek (lépe řečeno URL), co stihnou fulltextoví roboti načíst, je jen odpad, který robotům k ničemu není - a pomocí standardu robots.txt (z minulého století, určeného pro statický web) není možné ta URL omezit.

A není tomu tak jen na našich serverech.

A pak se stačí podívat do logů serveru, na inteligenci robotů. Jsou roboti, co načtou právě těch 3000-5000 stránek (google). Jsou jiní, kteří jich jsou schopní načíst milion (např. magatext). Pokud některý z fulltextů odpoví, že má 5mil stránek z domény CZ, může to být tak, že má 4miliony podobného "URL odpadu" a k němu navrch trošku užitečného obsahu.

Klidně bych věřil, že Google se svými dvěma miliony má "plnější" a relevantnější index než jiný vyhledávač s milióny jedenácti. I odpovědi na to ukazují.
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 9:27

David Bureš (neregistrovaný)

Mam maly bezvyznamny dotaz, kdyz na vami propagovane domene: "hledamdivku ..." bude konecne neco jineho nez par slepych odkazu? :)
- Skok na další nový názor. K navigaci lze použít i klávesy N pro následující a P pro předchozí nový názor
6. 11. 2002 2:26

Martin Kopta (neregistrovaný)

Tak jsem zkusil prohledat google na dotaz v, coz je slovo, ktery mi vyhodilo nejvyssi pocet nalezenych stranek. Neni to vedecke, ale...

[1] Google – lang=cs
[2] Google – site:cz
[3] Google – lang=cs; site:cz

a zjistil jsem, ze Google obsahuje jen 2.480.000 [1] cesky psanych stranek, z toho v ceske domene 2.290.000 [3], coz znamena, ze Seznam ma o 190.000 [1-3] bohatsi zdroje nez vyhledavace omezene jen na site:cz. Vzhledem k tomu, ze Jyxo ma 11.945.012 dokumentu a webseek 5.564.061, je jasne, ze Google ma index mnohem mensi 2.350.000 [2].

Lepsi nez Seznam/Google je spojeni Tiscali/AllTheWeb,

[4] AllTheWeb – l=cs
[5] AllTheWeb – url:cz
[6] AllTheWeb – l=cs; url:cz

protoze v Indexu AllTheWeb je 9.161.578 [4] cesky psanych stranek, z toho 5.835.197 [6] v domene CZ. To znamena, ze AllTheWeb je o 3.326.381 [4-6] stranek lepsi nez kterykoli cesky fulltext a o 3.136.381 [4-6-1-3]lepsi nez Google. Zaroven ma fulltext AllTheWeb v indexu 8.170.808 [5] stranek, coz je vice, nez Google, vice nez WebSeek a temer tolik, co Jyxo.

Presto dava Google relevantni odpovedi na dotazy. Dulezity patrne neni uplny index, ale dostatecny index a kvalitni vahy pro parametry vyhledavani.

Vlákno názorů k článku Google se vrací, tentokrát na Seznam od Marek Turnovec (MaT) - No, ja kdysi zjistil, ze s php je...

Dále u nás najdete

Malware, ransomware a další online hrozby: Jak se liší?

Ještě mi nevrátili peníze za Markétu a už je tu EET zas

Domén s koncovkou .CZ přibývá, většina je podepsaných

Stát se za data retention omluvil, ale údaje sbírá dál

Desítky rozšíření pro Chrome kradou uživatelská data

Výjimka z EET je nejmenším OSVČ k ničemu, hodí se ale podvodníkům

Google Pixel 10a má plochý design a vylepšenou odolnost

Pojišťovny zneužívají lenosti svých klientů. Ti za to platí

Připravit, pozor, teď! Spouštíme Channeltrends Awards 2025

Pálení žáhy zhoršuje nevhodná večeře. Vadí přejídání i kafe

Irsko se po pauze znovu otevírá pro výstavbu datových center

Digitalizační masakr: stát chce data o zaměstnancích

AI se snaží promlouvat i do stavebnictví

Je tu první vydání magazínu CIOtrends v tomto roce

Kdo se bude moct vyhnout EET a co bude muset splnit?

Rostoucí cena operačních pamětí zásadně zdražuje počítače

EET není český výmysl. Zjistěte, kde za účtenku můžete vyhrát auto

V USA povolili terapii Optune i pro léčbu rakoviny slinivky

Navazující a souběžná zaměstnání pro účely JMHZ

Zahrávají si ČEZ či E.ON s čínským ohněm?