Příspěvky k diskusi Projekt "Nový hledač"
Datum: 20. 12. 2009 1:35
Nový
Vložil: ondra.novacisko.cz (neregistrovaný) ---.35.broadband11.iol.cz
Titulek: RE: Projekt "Nový hledač" (Celé vlákno)
Vložil: ondra.novacisko.cz (neregistrovaný) ---.35.broadband11.iol.cz
Titulek: RE: Projekt "Nový hledač" (Celé vlákno)
Projel jsem to rychle, ale nevšiml jsem si ničeho nového. Možná je to tím, že dost věci, co popisujete se IMHO řeší i v Seznamu. Nejste sám, kdo má nápady :-D
Mno, nicméně, zkuste to poslat Yuhuovi ze Seznamu, třeba s něčím prorazíte.
Držím palce.
PS: Nemá smysl psát "nový hledač", to je zbytečná práce. Spíš využít současné hledače, z nichž jeden nejbližší máte v Praze... s pobočkou v Brně.
http://www.firmy.cz/detail/429645-seznam-cz-brno-styrice.html
Mno, nicméně, zkuste to poslat Yuhuovi ze Seznamu, třeba s něčím prorazíte.
Držím palce.
PS: Nemá smysl psát "nový hledač", to je zbytečná práce. Spíš využít současné hledače, z nichž jeden nejbližší máte v Praze... s pobočkou v Brně.
http://www.firmy.cz/detail/429645-seznam-cz-brno-styrice.html
Titulek:
Odpovědi
(Petr Hejl)
Nový
Datum: 20. 12. 2009 11:43
Nový
Vložil: ondra.novacisko.cz (neregistrovaný) ---.35.broadband11.iol.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: ondra.novacisko.cz (neregistrovaný) ---.35.broadband11.iol.cz
Titulek: Re: Odpovědi (Celé vlákno)
Já tedy nevím, ale slovo "hledání" znamená primárně hledat a zřejmě nejspíš text, protože zatím nic jiného hledat neumíme. Teoreticky bych si dokázal představit hledání hudby, kdy by uživatel zapískal melodii a vyhledávač by se pokusil najít mp3 písně nejvíce podobnou :-D
Ale na hodnocení relevance a tedy výsledného řazení se používá hromada pravidel, kritérií, ať už jsou to on-page, off-page faktory, oblíbenost uživatelů, návštěvnost, hledanost. Seznam také neustále dokola provádí testování kvality a hledání těch nejlepších vah. Takže otázkou je, zda náhodou neděláte něco hodně podobného.
Ale na hodnocení relevance a tedy výsledného řazení se používá hromada pravidel, kritérií, ať už jsou to on-page, off-page faktory, oblíbenost uživatelů, návštěvnost, hledanost. Seznam také neustále dokola provádí testování kvality a hledání těch nejlepších vah. Takže otázkou je, zda náhodou neděláte něco hodně podobného.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 20. 12. 2009 16:41
Nový
Vložil: ondra.novacisko.cz (neregistrovaný) ---.35.broadband11.iol.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: ondra.novacisko.cz (neregistrovaný) ---.35.broadband11.iol.cz
Titulek: Re: Odpovědi (Celé vlákno)
To je z prominutím nesmysl. Pokud hodnotíte relevanci jen podle návštěvnosti (přičemž nechápu význam "přavděpodobné") pak dopadnete přesně jako na Google. Věci, které hledá každý najdete běžně. Ale nepoužíváte vyhledávač proto, abyste našel to co každý zna, ne?
Objektivní hodnocení relevance vám provedou uživatelé, tak že po návštěvě stránky vyplní dotazník o tom, jak moc byli s hledáním spokojeni. Ano, potřebujete docela dost lidí zahrnující reprezentativní vzorek populace a musíte je drtit dostatečným množstvím výsledků... Není to jednoduchá práce. Ale garantuju vám, že výsledky jsou jiné, než prosté hodnocení návštěvnosti.
Objektivní hodnocení relevance vám provedou uživatelé, tak že po návštěvě stránky vyplní dotazník o tom, jak moc byli s hledáním spokojeni. Ano, potřebujete docela dost lidí zahrnující reprezentativní vzorek populace a musíte je drtit dostatečným množstvím výsledků... Není to jednoduchá práce. Ale garantuju vám, že výsledky jsou jiné, než prosté hodnocení návštěvnosti.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 21. 12. 2009 11:09
Nový
Vložil: ondra.novacisko.cz (neregistrovaný) ---.vodafone.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: ondra.novacisko.cz (neregistrovaný) ---.vodafone.cz
Titulek: Re: Odpovědi (Celé vlákno)
Navstevnost ale nic o kvalite vysledku nic nerika. Nevite, jestli uzivatel klikal proto, ze nasel co hledal, nebo ze se mu jen zalibil snippet nebo screenshot. Ani z historie chovani uzivatele nepoznate, zda uzivatel na tretim vysledku nasel to co hledal, nebo znechucen neuspesnym hledanim to vzdal. A ani statisticky. Ano, jako insider v jednom nejmenovanym vyhledavaci mohu potvrdit, ze statistiky klikani na vysledky se samozrejme sbiraji a vyhodnocuji, ale rozhodne nemaji vyznamnou vahu na vysledek. Tech kriterii je mnoho a jejich vahy se dnes komplikovane pocitaji, nikoliv ze by se zvolily proto, ze se nekomu libily.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Titulek:
Re: Odpovědi
(ondra.novacisko.cz)
Nový
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 1. 2. 4:17
Nový
Vložil: jk (neregistrovaný) ---.static.masterinter.net
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: jk (neregistrovaný) ---.static.masterinter.net
Titulek: Re: Odpovědi (Celé vlákno)
Ne, mylite si vy. Uspesnost hledace neni dana tim, kolik hledajicich klikne. Extremni pripad: proklikam vsechno z top 10, presto se nedostanu k informaci, kterou hledam. Je vyhledavac 100% uspesny? Prave naopak! Priste pujdu jinam.
Ano, muzu dostat "spatne vysledky 1. druhu" - tj vysledky ktere jsou uz podle nazvu, popisu a url neco co nechci. Ano, mereni klikani je objektivni meritko - uspesnosti.
Ale muzu dostat i "spatne vysledky 2. druhu" - vysledky ktere vypadaji slibne, ale pote co si je otevru a ztratim nejaky cas jejich ctenim zjistim ze je taky nechci. Mereni poctu kliku je tez objektivni meritko - neuspesnosti.
IMO nejvetsim problemem hledani je nebo velmi zahy bude, oblast "adversarial information retrieval". Existuje dost dobrych moznosti ktere by slo pro razeni webu vyuzivat, ale malo odolnych proti umyslnemu zneuziti.
Ano, muzu dostat "spatne vysledky 1. druhu" - tj vysledky ktere jsou uz podle nazvu, popisu a url neco co nechci. Ano, mereni klikani je objektivni meritko - uspesnosti.
Ale muzu dostat i "spatne vysledky 2. druhu" - vysledky ktere vypadaji slibne, ale pote co si je otevru a ztratim nejaky cas jejich ctenim zjistim ze je taky nechci. Mereni poctu kliku je tez objektivni meritko - neuspesnosti.
IMO nejvetsim problemem hledani je nebo velmi zahy bude, oblast "adversarial information retrieval". Existuje dost dobrych moznosti ktere by slo pro razeni webu vyuzivat, ale malo odolnych proti umyslnemu zneuziti.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 1. 2. 9:00
Nový
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
1) To je právě ten omyl. Vyhledávač jen nabízí snipet, kde je zvýrazněný výsledek. Nic neříká o tom, že je tam informace, kterou chcete vědět. Nehledě na to, že kolikrát člověk nehledá informaci, kterou napíše do okénka hledej, ale informaci, která je s tím nějak spojena. A ta se věšinou do snipu nevejde. Ale uživatel kliká už jen když vidí nějaký náznak toho, že by to mohlo být ono. (Nehledě na to, že třeba podle snipetu a ikonky vašich stránek bych těžko něco našel)
Ad 2) a Ad 3)
Jinými slovy, nevíte nic. Nemáte nic, jen mlátíte prázdnou slámou. Zkuste s tím jít do pořadu Den D, aspoň se zasmějeme.
Ad 2) a Ad 3)
Jinými slovy, nevíte nic. Nemáte nic, jen mlátíte prázdnou slámou. Zkuste s tím jít do pořadu Den D, aspoň se zasmějeme.
Datum: 1. 2. 10:08
Nový
Vložil: (: (neregistrovaný) ---.eurotel.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: (: (neregistrovaný) ---.eurotel.cz
Titulek: Re: Odpovědi (Celé vlákno)
V úterý na čt1 ve 22:00 uvidíte:
Petr Hejl – nový hledač lepší než Google,1 milion korun, 50% podíl
Petr Hejl – nový hledač lepší než Google,1 milion korun, 50% podíl
Datum: 1. 2. 10:42
Nový
Vložil: Fanoušek (neregistrovaný) 93.99.73.---
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Fanoušek (neregistrovaný) 93.99.73.---
Titulek: Re: Odpovědi (Celé vlákno)
... a zaručená návratnost x 17.000 při riziku jen 30%. Takže pokud je to podaří, tak za ten milion získají investoři zpátky 17 MILIARD! A pokud se to nepodaří - což je nepravděpodobné když na tom Hejl už 4 roky po večerech tak intenzivně maká že ještě nemá ani nefunkční demo - tak investici vrátí zpět.
No nekupte to! Investoři by byli HLOUPÍ pokud by se do takového skvělého kšeftu nehrnuli jak diví! ;-)
Tedy ale nesmí vám vadit že z toho milionu si 600 tisíc Hejl vezme jako úhradu za ty 4 roky intenzivní práce (po které bohužel není žádný viditelný výsledek). No ale když z toho bude 17 miliard zisku tak co je nějakých trapných 600 tisíc pro geniálního autora.
No nekupte to! Investoři by byli HLOUPÍ pokud by se do takového skvělého kšeftu nehrnuli jak diví! ;-)
Tedy ale nesmí vám vadit že z toho milionu si 600 tisíc Hejl vezme jako úhradu za ty 4 roky intenzivní práce (po které bohužel není žádný viditelný výsledek). No ale když z toho bude 17 miliard zisku tak co je nějakých trapných 600 tisíc pro geniálního autora.
Datum: 1. 2. 17:00
Nový
Vložil: jk (neregistrovaný) ---.static.masterinter.net
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: jk (neregistrovaný) ---.static.masterinter.net
Titulek: Re: Odpovědi (Celé vlákno)
Ok, nazor mejte... Ac jsem zkusenejsi hledajici nez >99.9% uzivatelu tento odhad rozhodne neni 100%, zavisi na tematu hledani a SEO-tlaku v dane oblasti.
Nemala cast hledajicich nedokaze poznat spravny vysledek ani u "navigacniho dotazu" typu "www neco cz" (aplikace tohoto nazoru vydelavat docela dost lidem docela dost penez ;-)
Jinac vas nechci od prodeje napadu odrazovat ani shazovat, prakticky si myslim v cechach to budete mit s hledanim investora tezke nezavisle na tom jestli jste vymyslel neco bezcenneho nebo revoluci v hledani.
Nemala cast hledajicich nedokaze poznat spravny vysledek ani u "navigacniho dotazu" typu "www neco cz" (aplikace tohoto nazoru vydelavat docela dost lidem docela dost penez ;-)
Jinac vas nechci od prodeje napadu odrazovat ani shazovat, prakticky si myslim v cechach to budete mit s hledanim investora tezke nezavisle na tom jestli jste vymyslel neco bezcenneho nebo revoluci v hledani.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 2. 2. 10:15
Nový
Vložil: hans (neregistrovaný) ---.217.broadband7.iol.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: hans (neregistrovaný) ---.217.broadband7.iol.cz
Titulek: Re: Odpovědi (Celé vlákno)
1. ja jsem schopen rozlisit vysledek jen tim, ze na odkaz kliknu a otevru ho. Az pak vim, jestli je dobry nebo ne. Tudiz vyhledavac nevi nic.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 1. 2. 17:24
Nový
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
Hmmm a uvedomujete si, ze uz presne tohle Google dela? Kdykoliv uzivatel klikne na odkaz ve vysledku, tak je pre Javascript odeslana informace Googlu na co klik a ten urcite tuto informaci ve vysledcich vyhledavani zohlednuj.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 2. 2. 1:55
Nový
Vložil: ondra.novacisko.cz (neregistrovaný) ---.lam.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: ondra.novacisko.cz (neregistrovaný) ---.lam.cz
Titulek: Re: Odpovědi (Celé vlákno)
V jiném vlákně vám Yuhu prozradil (ačkoliv netuším proč), že Seznam má okalibrované výsledky najatou partou brigádníků sestavenou tak, aby tvořili reprezentativní vzorek uživatelů. A neustále srovnávají svoje výsledky s výsledky brigádníků. Také Yuhu prozradil, že umí měřit úspěšnost i jiných vyhledávačů, například Googla (což je logický, porovnám výsledky brigádníků s výsledkem googla).
Napadlo Vás aspoň na chvíli, jak se ladí takových 118 kritérii? Myslíte si, že si tam sedne nějaký programátor a začne hýbat nějakýma vahama?
Ale houby. Když mám na jedné straně kritéria a na druhé straně požadované výsledky, pak takovéhle úlohy se řeší na VŠ v předmětu Problémy a Algoritmy, kdy problémem je třeba přábě naladění vah, aby výsledek hledání odpovídal kalibrovanému výsledku. Algoritmů, od genetických až po různě sofistikované, jako házení hrachu na N rozměrnou plochu, nebo ochlazovací algoritmy, to je pak sousto pro analitika a několik kilowattů výkonu a tisíce minut běhu jednoho trochu většího nabušeného stroje. I tak je problém dosáhnout ideálu.
A to co chci říct, že kdyby byla pravda, že by stačilo jen posuzovat klikání na výsledky, že by takový závěr musel vypadnout z výše uvedených algoritmů. Tedy že by všechny kritéria měli nulu a pouze klikání mělo 1? Zkuste se zamyslet a prozradit mi, proč tomu tak nebude. Proč nakonec každé kritérium dostane nějakou váhu tak, aby výsledky se optimálně přibližovali tomu, co by uživatel chtěl vidět.
To mi připomíná tu hádanku na rootu s tím autem a kozlama. Taky jsem byl přesvědčen, že to musí být 50:50, ale když to naprogramujete, zjistíte, že výsledky jsou jinde. Člověk se bohužel dost často plete.
Napadlo Vás aspoň na chvíli, jak se ladí takových 118 kritérii? Myslíte si, že si tam sedne nějaký programátor a začne hýbat nějakýma vahama?
Ale houby. Když mám na jedné straně kritéria a na druhé straně požadované výsledky, pak takovéhle úlohy se řeší na VŠ v předmětu Problémy a Algoritmy, kdy problémem je třeba přábě naladění vah, aby výsledek hledání odpovídal kalibrovanému výsledku. Algoritmů, od genetických až po různě sofistikované, jako házení hrachu na N rozměrnou plochu, nebo ochlazovací algoritmy, to je pak sousto pro analitika a několik kilowattů výkonu a tisíce minut běhu jednoho trochu většího nabušeného stroje. I tak je problém dosáhnout ideálu.
A to co chci říct, že kdyby byla pravda, že by stačilo jen posuzovat klikání na výsledky, že by takový závěr musel vypadnout z výše uvedených algoritmů. Tedy že by všechny kritéria měli nulu a pouze klikání mělo 1? Zkuste se zamyslet a prozradit mi, proč tomu tak nebude. Proč nakonec každé kritérium dostane nějakou váhu tak, aby výsledky se optimálně přibližovali tomu, co by uživatel chtěl vidět.
To mi připomíná tu hádanku na rootu s tím autem a kozlama. Taky jsem byl přesvědčen, že to musí být 50:50, ale když to naprogramujete, zjistíte, že výsledky jsou jinde. Člověk se bohužel dost často plete.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 2. 2. 9:31
Nový
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
> My sme s Yuhu "kamaradi".
Řekl bych, že Yuhu má jiný názor, ale nechci Vám brát iluze
> Ja si myslim, ze tech kombinaci je takove mnozstvi,
> ze bude rychlejsi, efektivnejsi a kvalitnejsi,
> pokud to udela zkuseny clovek, ktery bude vedet,
> co ktera vaha ovlivnuje a bude s temi vahami v tom smeru > hybat.
Dobrej úlet.
Tohle člověk nezvládne. Na to v klidu zapomeňte. To je rovnice o N neznámych, kde N je počet kritérií. A kde navíc nehledáme jedno konkrétní číslo, ale maximální kvalitu výsledku. Už jen to, že hledámé maximum ukazuje na NP problém, který zvládne počítač jen pomocí přiblížných numerických metod, zatím co člověk ani náhodou. Člověk je maximálně schopen najit nějaké lokální maximum, ale nikdy nebudete mít jistotu, že je to nejlepší výsledek. U genetik, nebo házení broků na N rozměrnou plochu (výpočet gradientu a hledání maxima) budete mít větší šanci najít lepší parametry. Těch N kriteríí totiž není jednoduchý N rozměrný kopec s jedním vrcholem.Račte si uvědomit, že těch extrémů bude mít hafo a najít ten nejvyšší prostě je záhul pro počítač a pro člověka neproveditelný úkol.
> Ja nerikam, ze muj algoritmus je idealni.
> Samozrejme klikani uzivatelu je jen jedno z N kriterii v realnem hledaci.
Že by změna pozic? Já si myslím, že neustále ukazujete, že nic nemáte, protože když to vezmu historicky, ze všech pozic jste ustoupil.
Jako každý si myslíme, že můžeme být lepší něž někdo jiný. Seznam taky chce být lepší než Google. Vy si myslíte, že můžete být o 10% lepší? Pokud ignoruju to, že je to sakra málo na nějakou investici, tak je to spíš snění snílků, než něco hmatatelného.
Hledač si můžete napsat v PHPku. Stačí vám třeba MySQL databáze se svým fulltextem. Indexer napíšete v shellscriptu a stránky si uložte do MySQL. Pak si při hledání nechte vytáhnout všechny výsledky z fulltextu a seřaďte si je podle Vašich kritéríí. Já vím, že to nebude rychlé, ale na počáteční pokusy to stačí. Kde jaký phápkáč vám něco takového napíše za pár desítek litrů a to přeháním.
Řekl bych, že Yuhu má jiný názor, ale nechci Vám brát iluze
> Ja si myslim, ze tech kombinaci je takove mnozstvi,
> ze bude rychlejsi, efektivnejsi a kvalitnejsi,
> pokud to udela zkuseny clovek, ktery bude vedet,
> co ktera vaha ovlivnuje a bude s temi vahami v tom smeru > hybat.
Dobrej úlet.
Tohle člověk nezvládne. Na to v klidu zapomeňte. To je rovnice o N neznámych, kde N je počet kritérií. A kde navíc nehledáme jedno konkrétní číslo, ale maximální kvalitu výsledku. Už jen to, že hledámé maximum ukazuje na NP problém, který zvládne počítač jen pomocí přiblížných numerických metod, zatím co člověk ani náhodou. Člověk je maximálně schopen najit nějaké lokální maximum, ale nikdy nebudete mít jistotu, že je to nejlepší výsledek. U genetik, nebo házení broků na N rozměrnou plochu (výpočet gradientu a hledání maxima) budete mít větší šanci najít lepší parametry. Těch N kriteríí totiž není jednoduchý N rozměrný kopec s jedním vrcholem.Račte si uvědomit, že těch extrémů bude mít hafo a najít ten nejvyšší prostě je záhul pro počítač a pro člověka neproveditelný úkol.
> Ja nerikam, ze muj algoritmus je idealni.
> Samozrejme klikani uzivatelu je jen jedno z N kriterii v realnem hledaci.
Že by změna pozic? Já si myslím, že neustále ukazujete, že nic nemáte, protože když to vezmu historicky, ze všech pozic jste ustoupil.
Jako každý si myslíme, že můžeme být lepší něž někdo jiný. Seznam taky chce být lepší než Google. Vy si myslíte, že můžete být o 10% lepší? Pokud ignoruju to, že je to sakra málo na nějakou investici, tak je to spíš snění snílků, než něco hmatatelného.
Hledač si můžete napsat v PHPku. Stačí vám třeba MySQL databáze se svým fulltextem. Indexer napíšete v shellscriptu a stránky si uložte do MySQL. Pak si při hledání nechte vytáhnout všechny výsledky z fulltextu a seřaďte si je podle Vašich kritéríí. Já vím, že to nebude rychlé, ale na počáteční pokusy to stačí. Kde jaký phápkáč vám něco takového napíše za pár desítek litrů a to přeháním.
Datum: 2. 2. 11:15
Nový
Vložil: Petr (neregistrovaný) 93.99.73.---
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Petr (neregistrovaný) 93.99.73.---
Titulek: Re: Odpovědi (Celé vlákno)
Má cenu takováhle debata s někým, kdo pokládá za skvělý informační web tenhle paskvil?
http://www.lednice.org/
Jeho skvělé grafické provedení a přehlednost doplňují i odkazy v bočním menu, kde řada odkazů vede na tu samou dlooouhatáánskou stránku jen s upřesněním místa pomocí #
http://www.lednice.org/
Jeho skvělé grafické provedení a přehlednost doplňují i odkazy v bočním menu, kde řada odkazů vede na tu samou dlooouhatáánskou stránku jen s upřesněním místa pomocí #
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 3. 2. 22:44
Nový
Vložil: Abraxis (neregistrovaný) 195.248.32.---
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Abraxis (neregistrovaný) 195.248.32.---
Titulek: Re: Odpovědi (Celé vlákno)
Obrazku??? Naco? To snad pocitate i s algoritmem na rozpoznani obsahu obrazku?
Nicmene - stahnout 250 Mstranek neni takovy problem. Vemte si od libovolne banky pujcku ma 200-300 tisic, kupte si 2-3 servery, par TB disku, dejte to na mesic do server hostingu a je hotovo.
Nebo si snad tolik neverite, aby jste do toho projektu zainvestoval neco jineho, nez vas cas???
Nicmene - stahnout 250 Mstranek neni takovy problem. Vemte si od libovolne banky pujcku ma 200-300 tisic, kupte si 2-3 servery, par TB disku, dejte to na mesic do server hostingu a je hotovo.
Nebo si snad tolik neverite, aby jste do toho projektu zainvestoval neco jineho, nez vas cas???
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 0:35
Nový
Vložil: Pakrbec Pahejl (neregistrovaný) ---.karneval.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Pakrbec Pahejl (neregistrovaný) ---.karneval.cz
Titulek: Re: Odpovědi (Celé vlákno)
Takže stahujete i flw, wmw, mpg, wml, mp3, pdf, ogg i omg rtfm bfu... Jak jste ke svému výpočtu proboha došel!?!?!
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 1:01
Nový
Vložil: Pakrbec Pahejl (neregistrovaný) ---.karneval.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Pakrbec Pahejl (neregistrovaný) ---.karneval.cz
Titulek: Re: Odpovědi (Celé vlákno)
To bych se nedřív musel zbláznit, mít zápal mozkových blan, nějaký rozvinutý karcinom na mozku a bejt drzej jak hejl. Každopádně dík za duchaprázdnou odpověď. Argumenty a fakta nemáte, jen přisprostle plácáte bláznivé domněnky.
P.S.: člověka po zápalu mozkových blan znám osobně. Neměl jste ho také? Ani malinký? Těžko věřit.
P.S.: člověka po zápalu mozkových blan znám osobně. Neměl jste ho také? Ani malinký? Těžko věřit.
aura:
2
Datum: 4. 2. 9:11
Nový
2
Vložil: Petr Hejl <phejl (zavináč) lednice (tečka) org>
Titulek: Re: Odpovědi (Celé vlákno)
OT.
Typicky PAkrbec.
Typicky PAkrbec.
Datum: 4. 2. 8:24
Nový
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
Investoval jste skutecne milion nebo pouze svuj cas, ktery si cenite na milion???
Jak chcete hodnotit GIF? Flash? MP3? Na to neexistuje zadny rozumny algoritmus. Muzete pouze hodnotit to, ze na nej stranka odkazuje - a na to jej nemusite stahovat.
250 Mstranek po ~20 kB/stranka = ~5 TB.
Slusne pripojeni do patere = 10 Mbit/s.
5 TB budete stahovat 1111 hodin = 46 dni. (pochopitelne bez overheadu)
Co proboha jste ty 4 roky delal, kdyz jste si neudelal ani takovyto zakladni vypocet???
Jak chcete hodnotit GIF? Flash? MP3? Na to neexistuje zadny rozumny algoritmus. Muzete pouze hodnotit to, ze na nej stranka odkazuje - a na to jej nemusite stahovat.
250 Mstranek po ~20 kB/stranka = ~5 TB.
Slusne pripojeni do patere = 10 Mbit/s.
5 TB budete stahovat 1111 hodin = 46 dni. (pochopitelne bez overheadu)
Co proboha jste ty 4 roky delal, kdyz jste si neudelal ani takovyto zakladni vypocet???
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 10:07
Nový
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
Ju? Kde v danovem priznani vykazuju svuj cas??? Kam tam vykazu, zda jsem o vikendu koukal na Novu nebo premyslel nad algoritmem?
Neni snad jedno, jak dlouho nad necim kdo badal, ale jaky je vysledek? Vas vysledek = napad, ktery neni nijak prakticky overeny (neexistuje ani radek kodu) a ktery Vam klidne prvni programator ukradne.
Komponenty - tak nam reknete, co budete delat s 10 MB JPEGem? Jake informace z neho tak muzete ziskat??? Nemusite rikat uz, co s nimi budete delat, ani jak indexovat.
Vypocet - tak sem s nim. Ja svuj vypocet ukazal - jak jste dospel k 7 letum?
Neni snad jedno, jak dlouho nad necim kdo badal, ale jaky je vysledek? Vas vysledek = napad, ktery neni nijak prakticky overeny (neexistuje ani radek kodu) a ktery Vam klidne prvni programator ukradne.
Komponenty - tak nam reknete, co budete delat s 10 MB JPEGem? Jake informace z neho tak muzete ziskat??? Nemusite rikat uz, co s nimi budete delat, ani jak indexovat.
Vypocet - tak sem s nim. Ja svuj vypocet ukazal - jak jste dospel k 7 letum?
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 10:27
Nový
Vložil: Petr (neregistrovaný) 93.99.73.---
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Petr (neregistrovaný) 93.99.73.---
Titulek: Re: Odpovědi (Celé vlákno)
JAK lze načíst 250 milionů stránek, aby byly AKTUÁLNÍ a aby byly VŠECHNY? To prostě není technicky možné.
Jenomže jako všechny ostatní připomínky, i tohle je pro vás jen osobní útok a nechcete si připustit že jste možná udělal v některé své myšlence chybu...
Jako "starému programátoru" bych vám jen chtěl připomenout jedno staré pravidlo platící od nepaměti:
1) V KAŽDÉM PROGRAMU JE CHYBA!
2) POKUD "TAM NENÍ" TAK PLATÍ PRAVILO ČÍSLO JEDNA, JEN ZATÍM NEBYLA OBJEVENA!
Jenomže jako všechny ostatní připomínky, i tohle je pro vás jen osobní útok a nechcete si připustit že jste možná udělal v některé své myšlence chybu...
Jako "starému programátoru" bych vám jen chtěl připomenout jedno staré pravidlo platící od nepaměti:
1) V KAŽDÉM PROGRAMU JE CHYBA!
2) POKUD "TAM NENÍ" TAK PLATÍ PRAVILO ČÍSLO JEDNA, JEN ZATÍM NEBYLA OBJEVENA!
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 10:33
Nový
Vložil: Petr (neregistrovaný) 93.99.73.---
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Petr (neregistrovaný) 93.99.73.---
Titulek: Re: Odpovědi (Celé vlákno)
Tak nemusí nebo musí být všechny? Celou dobu tady operujete tím, že musíte načíst 250 milionů stránek a najedou to už není potřeba :-O
Datum: 4. 2. 14:44
Nový
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
Pokud jsem videl vasi kalkulaci, tak chcete mega, z toho 600k pro sebe a cca. 250 tisic za programatora. I kdyby na tom delal pul roku, tak to je 50 tisic super-hrube mzdy = cca. 30 tisic cisteho. Tomu rikate dobre zaplatit programatora???
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 17:54
Nový
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
Presny rozpocet investorum jste sdelil ve dni D i v diskuzi na WebTrhu - chcete 600 tisic za svuj vynalezeny algoritmus a ze zbytku se musi zaplatit programator a nejake zelezo, kde to pobezi, ucetni atd.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 18:31
Nový
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
Aha - takze to co jste rikal na dni D a co mate na webu (1 mil. Kc) je lez?
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 23:44
Nový
Vložil: Abraxis (neregistrovaný) ---.chello.sk
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Abraxis (neregistrovaný) ---.chello.sk
Titulek: Re: Odpovědi (Celé vlákno)
Nikdo nechce detaily, ale jen bych rad vedel, z ceho chcete zaplatit programatora... Dobry programator totiz stoji 1 milion za rok (nikdo nerika, ze tolik dostane cisteho, ale to jsou naklady na nej)
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 14:54
Nový
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
A jak souvisi Google s vami? To, ze se byli v podobne situaci, tak nic neznamena - to neimplikuje, ze budete uspesny jako oni. V podobne situaci urcite bylo tisice projektu, ale jen maloktery uspel.
Ne, nechci aby jste prozradil algoritmus. Jen chci vedet, zda teda jste objevil prevratny indexovaci a vyhledavaci algoritmus nebo prevratny algoritmus, jak analyzovat obsah jakekoliv komponenty (flash, gif, etc.).
10 req/vterinu je velmi velmi malo. Jen muj notebook zvladne tisickrat vice. I kdyz budu konzervativni a reknu 100 rps, tak mame najednou z toho jen 10 mesicu a pri 5 pocitacich jen 2 mesice. A nemluve o tom, ze urcite lze dostat predbezne vysledky uz i pri par milionech stranek.
K danovemu priznani - ja jej taky vyplnuji poctive a nikde jsem nevidel, ze bych kdekoliv priznaval, ze jsem o vikendu premyslel nad nejakym algoritmem a sveho casu si cenim na tolik a tolik Kc. Vy snad ano? A platil jste z toho dane???
Takze opet - proc si nevezmete z banky pujcku (nebo hypoteku) a nevyzkousite to sam? Neverite si tolik? Kdyz odecteme cenu jiz vami investovaneho casu (coz byste si sam sobe pochopitelne neplatil), tak sehnat 400 tisic neni problem - pochopitelne pokud s navratnosti nekecate.
Ne, nechci aby jste prozradil algoritmus. Jen chci vedet, zda teda jste objevil prevratny indexovaci a vyhledavaci algoritmus nebo prevratny algoritmus, jak analyzovat obsah jakekoliv komponenty (flash, gif, etc.).
10 req/vterinu je velmi velmi malo. Jen muj notebook zvladne tisickrat vice. I kdyz budu konzervativni a reknu 100 rps, tak mame najednou z toho jen 10 mesicu a pri 5 pocitacich jen 2 mesice. A nemluve o tom, ze urcite lze dostat predbezne vysledky uz i pri par milionech stranek.
K danovemu priznani - ja jej taky vyplnuji poctive a nikde jsem nevidel, ze bych kdekoliv priznaval, ze jsem o vikendu premyslel nad nejakym algoritmem a sveho casu si cenim na tolik a tolik Kc. Vy snad ano? A platil jste z toho dane???
Takze opet - proc si nevezmete z banky pujcku (nebo hypoteku) a nevyzkousite to sam? Neverite si tolik? Kdyz odecteme cenu jiz vami investovaneho casu (coz byste si sam sobe pochopitelne neplatil), tak sehnat 400 tisic neni problem - pochopitelne pokud s navratnosti nekecate.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 16:48
Nový
Vložil: 0_o (neregistrovaný) ---.la.net.ua
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: 0_o (neregistrovaný) ---.la.net.ua
Titulek: Re: Odpovědi (Celé vlákno)
A promarněná investice cizích lidí není cestou do pekel??? Máte zvláštní uvažování. Kdyby jste si věřil, nebál by jste si půjčit.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 17:40
Nový
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
A vy si myslíte, že investoři nebudou štourat? Co když tady diskutujete s potencionálními investory, kteří se vás snaží nachytat v nedbalkách? Nikdo nedá prachy jen tak někomu. A možná že svým postojem spíš investory odháníte.
A nemyslete si, že poznáte investora, který Vám na začátek řekne, že Vám prachy nedá. Nikdy nevíte, jestli to myslí vážně, nebo si s Vámi jen tak hraje.
A žádný investor Vám nepodepíše smlouvu, aniž by věděl co se bude dělat, jaký bude rozpočet. A bez smlouvy nemáte nikdy jistotu, že to co s Vámi mluvi je investor, klidně to může být Vaše konkurence, člověk se Seznamu, který se snaží získat co nejvíc informací, nebo novinář z IT magazínu. Trochu začarovaný kruh, který lze vyřešit jedině tak, že rozjedete podnikání na vlastní triko a prodávat budete až hotový produkt.
Mimochodem, milion není až tolik peněz. Pokud máte nemovitost, tak Vám to dá každá banka. Ani nebude chtít vědět na co. Vím to, mám barák na hypo s mnohem větší částkou.
A nemyslete si, že poznáte investora, který Vám na začátek řekne, že Vám prachy nedá. Nikdy nevíte, jestli to myslí vážně, nebo si s Vámi jen tak hraje.
A žádný investor Vám nepodepíše smlouvu, aniž by věděl co se bude dělat, jaký bude rozpočet. A bez smlouvy nemáte nikdy jistotu, že to co s Vámi mluvi je investor, klidně to může být Vaše konkurence, člověk se Seznamu, který se snaží získat co nejvíc informací, nebo novinář z IT magazínu. Trochu začarovaný kruh, který lze vyřešit jedině tak, že rozjedete podnikání na vlastní triko a prodávat budete až hotový produkt.
Mimochodem, milion není až tolik peněz. Pokud máte nemovitost, tak Vám to dá každá banka. Ani nebude chtít vědět na co. Vím to, mám barák na hypo s mnohem větší částkou.
Datum: 4. 2. 18:04
Nový
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
OK, takze kdyz to prvni (jen hledaci a indexovaci algoritmus), tak nepotrebujete stahovat vsechny komponenty, staci jen jejich metadata.
Notebook - se svym 2-core notebookem klidne 1000 TCP req/s klidne udelam (otazka je, co linka, samozrejme muselo by byt to kam rychle ukladat atd. atd.). A vubec - cim vy mate podlozenych tech 10 req/s a nevite, ze to nebude treba 100 nebo 0.1?
S tim danovym priznanim jste zacal vy - tvrdil jste, ze z pohledu danoveho priznani je jedno, zda jste do projektu investoval svuj cas a ze "To je totez (dle danoveho priznani)." (totez jako penize).
Dluhy sou cesta do pekel, ale investora to neboli???
Notebook - se svym 2-core notebookem klidne 1000 TCP req/s klidne udelam (otazka je, co linka, samozrejme muselo by byt to kam rychle ukladat atd. atd.). A vubec - cim vy mate podlozenych tech 10 req/s a nevite, ze to nebude treba 100 nebo 0.1?
S tim danovym priznanim jste zacal vy - tvrdil jste, ze z pohledu danoveho priznani je jedno, zda jste do projektu investoval svuj cas a ze "To je totez (dle danoveho priznani)." (totez jako penize).
Dluhy sou cesta do pekel, ale investora to neboli???
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 18:29
Nový
Vložil: lolek (neregistrovaný) ---.hsd1.pa.comcast.net
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: lolek (neregistrovaný) ---.hsd1.pa.comcast.net
Titulek: Re: Odpovědi (Celé vlákno)
Půjčka se musí vracet :)
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 18:30
Nový
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Abraxis (neregistrovaný) ---.tatrabanka.sk
Titulek: Re: Odpovědi (Celé vlákno)
A to snad je takovy problem pronajmout si VPS v USA? Spis naopak - je to levnejsi nez u nas!
A investor snad nechce, aby se mu penize vratili?
A investor snad nechce, aby se mu penize vratili?
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Titulek:
Re: Odpovědi
(lojza)
Nový
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 23:42
Nový
Vložil: Abraxis (neregistrovaný) ---.chello.sk
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Abraxis (neregistrovaný) ---.chello.sk
Titulek: Re: Odpovědi (Celé vlákno)
Tak si proste pronajmes VPS na kazdem kontinentu. A v cem je tedy ten problem?
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 5. 2. 1:10
Nový
Vložil: Abraxis (neregistrovaný) ---.chello.sk
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Abraxis (neregistrovaný) ---.chello.sk
Titulek: Re: Odpovědi (Celé vlákno)
http://www.google.com/search?source=ig&hl=en&rlz=&=&q=china+vps&btnG=Google+Sear ch
(P.S. Drobny hint - Asie != China)
nejaky dalsi problem?
(P.S. Drobny hint - Asie != China)
nejaky dalsi problem?
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Titulek:
Re: Odpovědi
(lojza)
Nový
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 23:42
Nový
Vložil: Abraxis (neregistrovaný) ---.chello.sk
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Abraxis (neregistrovaný) ---.chello.sk
Titulek: Re: Odpovědi (Celé vlákno)
Odhad zalozeny NA CEM?
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 5. 2. 1:11
Nový
Vložil: Abraxis (neregistrovaný) ---.chello.sk
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Abraxis (neregistrovaný) ---.chello.sk
Titulek: Re: Odpovědi (Celé vlákno)
Kdysi? A ze treba technologie nejak pokrocila, mame tady vice-core CPU apod. apod?
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Titulek:
Re: Odpovědi
(lojza)
Nový
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Titulek:
Re: Odpovědi
(lojza)
Nový
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Titulek:
Re: Odpovědi
(lojza)
Nový
Datum: 5. 2. 9:51
Nový
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
Nic nemá spočítaný. Už jenom těch 250mil stránek. Všechno co tu řiká jen má zakrýt velký pozlacený prd.
Na posouzení kvality hledání není potřeba 250mil stránek. To že nějaká stránka není ve vyhledávání není chyba kvality. Měří se většinou to, jak moc je stránka relevantní vůči svému pořadí. Takže lze začínat s menším množstvím dokumentů, klidně i s 1000x menším. Tolik stránek nesosá ani Seznam, který má několik desítek downloaderů. Už proto, že mnoho stránek se musí stahovat několikrát denně, kvůli aktualizaci. To co vyhledávače spíš honí je právě ta aktualita, než úplnost souboru. Ano, je pěkné, když je vyhledávač úspěšný i v long-tailu, ale z hlediska komerční úspěšnosti to není až tak důležitý. Což se ukazuje na oblíbenosti Seznam vs Google. I když Seznam má horší vyhledávání, než Google, přesto v něm uživatelé hledají a nacházejí.
Na posouzení kvality hledání není potřeba 250mil stránek. To že nějaká stránka není ve vyhledávání není chyba kvality. Měří se většinou to, jak moc je stránka relevantní vůči svému pořadí. Takže lze začínat s menším množstvím dokumentů, klidně i s 1000x menším. Tolik stránek nesosá ani Seznam, který má několik desítek downloaderů. Už proto, že mnoho stránek se musí stahovat několikrát denně, kvůli aktualizaci. To co vyhledávače spíš honí je právě ta aktualita, než úplnost souboru. Ano, je pěkné, když je vyhledávač úspěšný i v long-tailu, ale z hlediska komerční úspěšnosti to není až tak důležitý. Což se ukazuje na oblíbenosti Seznam vs Google. I když Seznam má horší vyhledávání, než Google, přesto v něm uživatelé hledají a nacházejí.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Titulek:
Re: Odpovědi
(lojza)
Nový
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 5. 2. 10:52
Nový
Vložil: Petr (neregistrovaný) 93.99.73.---
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Petr (neregistrovaný) 93.99.73.---
Titulek: Re: Odpovědi (Celé vlákno)
To je nesmyslné zadání. Omezit můžete počet prohledávaných stránek, ale vracet výsledky to musí na KAŽDÉ slovo které se v těch zaindexovaných stránkách objeví.
Jinak neděláte nic jiného než automaticky generovaný katalog, kdy si dopředu určíte několik desítek/stovek frází a na ně si připravíte výsledky. To lidi pak ani nemusíte trápit tím že to slovo budou zadávat, dejte jim rovnou seznam ze kterých slov si mohou vybrat.
Jinak neděláte nic jiného než automaticky generovaný katalog, kdy si dopředu určíte několik desítek/stovek frází a na ně si připravíte výsledky. To lidi pak ani nemusíte trápit tím že to slovo budou zadávat, dejte jim rovnou seznam ze kterých slov si mohou vybrat.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 14. 2. 19:12
Nový
Vložil: uživatel si přál zůstat v anonymitě ---.dobris.net
Titulek: Názor a rada (Celé vlákno)
Vložil: uživatel si přál zůstat v anonymitě ---.dobris.net
Titulek: Názor a rada (Celé vlákno)
Tím pádem ale nedostanete relevantní výsledek ani relevantní porovnání s googlem. Vámi předpokládané množství předvybraných slov či frází nebude v předpokládaném množství dostatečně kvalitním reprezentativním vzorkem celého obsahu internetu. Vzhledem k předpokládanému množství se spíše dá říci, že to bude naprosto nekvalitní vzorek a tím pádem i výsledek zpracování i porovnání s googlem.
Na druhou stranu stále můžete mít pravdu vy a ne já, neznám totiž váš algoritmus pro zpracování. Výše uvedený názor je postaven an informacích, které jste doposud poskytnul.
Poradím vám něco trošku jiného než jít do banky a půjčit si, když si na to dost nevěříte. Zkuste podnikatelský inkubátor - bude to pro prvotní testování levnější. Většinou spolupracují s vysokými školami a budou schopni vás pustit na velmi výkonný HW s parádní linkou do internetu (nejen přes NIC) a mají i IT odborníky, kteří vám budou schopni dát podporu a znalosti...
Tuším že při Brněnském VUT něco takového jede a při pražském CVUT také.
Hodně štěstí
Na druhou stranu stále můžete mít pravdu vy a ne já, neznám totiž váš algoritmus pro zpracování. Výše uvedený názor je postaven an informacích, které jste doposud poskytnul.
Poradím vám něco trošku jiného než jít do banky a půjčit si, když si na to dost nevěříte. Zkuste podnikatelský inkubátor - bude to pro prvotní testování levnější. Většinou spolupracují s vysokými školami a budou schopni vás pustit na velmi výkonný HW s parádní linkou do internetu (nejen přes NIC) a mají i IT odborníky, kteří vám budou schopni dát podporu a znalosti...
Tuším že při Brněnském VUT něco takového jede a při pražském CVUT také.
Hodně štěstí
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Je v tom zapocitana stredni doba poruchy pocitace a pripadne vymeny elektronek ? :-))))
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 7:59
Nový
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
Proč 250mil stránek? To Vám k vyhodnocení kvality nebude stačit index s velikosti tisíce maximálně milion stránek? 250mil stránek ještě nedávno (rok dva dozadu) neměl ani Seznam.
Věděl jste, že první crawler od dvojky Lukačovič-Škrob byl tuším Perlu? (vyhledávač byl v C). Na začátek to stačilo.
Proč obrázky? Pokud vám jde jen náhledy stránek, tak ty nemusíte vůbec programovat. Pokud Váš algoritmus vyžaduje náhledy stránek, tak si je nechte vygenerovat na internetu. Tuhle službu nabízí i Seznam a myslím že je to zdarma. Nebo zkuste tohle: http://www.web-screenshots.com/
Jinak dneska můžete vzít kde jakou o generaci starší šunku a strčit jí do libovolného serverhostingu. Ty ceny nejsou tak hrozné. A nebo si zaplaťit virtuální server hosting, na začátek to určitě postačí (ceny jsou od 300kč na měsíc, pokud jste IT aktivní, tak mít vlastní veřejný server se úrčitě vyplatí). O výkon bych se nebál, spíš si dát pozor jen na datové přenosy. Ale hostingy často spíš sledují odchozí trafic, než příchozí. Ale to určitě jako majitel 21 serverů jistě znáte. A vůbec, určitě máte s tím zkušenosti. Já jsem takhle rozbíhal jen 2 servery, jeden na virtuálu a jeden fyzicky ale nějak mám pocit, že o tom vím víc, než vy.
Věděl jste, že první crawler od dvojky Lukačovič-Škrob byl tuším Perlu? (vyhledávač byl v C). Na začátek to stačilo.
Proč obrázky? Pokud vám jde jen náhledy stránek, tak ty nemusíte vůbec programovat. Pokud Váš algoritmus vyžaduje náhledy stránek, tak si je nechte vygenerovat na internetu. Tuhle službu nabízí i Seznam a myslím že je to zdarma. Nebo zkuste tohle: http://www.web-screenshots.com/
Jinak dneska můžete vzít kde jakou o generaci starší šunku a strčit jí do libovolného serverhostingu. Ty ceny nejsou tak hrozné. A nebo si zaplaťit virtuální server hosting, na začátek to určitě postačí (ceny jsou od 300kč na měsíc, pokud jste IT aktivní, tak mít vlastní veřejný server se úrčitě vyplatí). O výkon bych se nebál, spíš si dát pozor jen na datové přenosy. Ale hostingy často spíš sledují odchozí trafic, než příchozí. Ale to určitě jako majitel 21 serverů jistě znáte. A vůbec, určitě máte s tím zkušenosti. Já jsem takhle rozbíhal jen 2 servery, jeden na virtuálu a jeden fyzicky ale nějak mám pocit, že o tom vím víc, než vy.
Datum: 4. 2. 8:20
Nový
Vložil: Petr (neregistrovaný) 93.99.73.---
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: Petr (neregistrovaný) 93.99.73.---
Titulek: Re: Odpovědi (Celé vlákno)
To nejde, moc by to snížilo cenu. Základ totiž je že chce 1 milion a z toho si 600.000,- okamžitě vezme jako výplatu za "práci kterou odvedl za posledních X let".
Takže pokud by snížil snížil náklady z 400 třeba jen na 100 tisíc, taky by tuplem blbě vypadalo že si z toho 600 vezme pro sebe a do projektu investuje jen 100 tisíc. No a tu výplatu pro sebe si samozřejmě snížit nemůže, vždyť na tom přece intenzivně makal několik let a za to si zaslouží zaplatit! :-)
Takže pokud by snížil snížil náklady z 400 třeba jen na 100 tisíc, taky by tuplem blbě vypadalo že si z toho 600 vezme pro sebe a do projektu investuje jen 100 tisíc. No a tu výplatu pro sebe si samozřejmě snížit nemůže, vždyť na tom přece intenzivně makal několik let a za to si zaslouží zaplatit! :-)
Datum: 4. 2. 8:28
Nový
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
Pak je otázka, zda to chce dělat pro přínos nebo pro prachy. Vím, že dnes je v móde dělat vše pro prachy, ale bez přínosu to ty prachy nevydělá. Tedy bez jakéhosi úsilí vivinout za minimum peněz nějaké technologické demo se to prostě neobejde. A investor chce vidět něco fungujícího, byť to zatím nedosahuje požadovaného výkonu. Kolikrát investor vrazil peníze do garážového projektu, pokud ten garážový projekt fungoval a měl ambice. Opravdu málo investorů vloží prachy jen do myšlenky. Maximálně tak v případě, že investor je zároveň ten nadšenec, ale to je snad lepší hrát sportku.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 9:38
Nový
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
> Nebude, skrzeva zpetne odkazy.
Jo to chápu. Považujete zpětné odkazy za důležité, protože vaše linkfarmy jsou na nich závislé. Ale ani seznam nemá šanci nasosat všechny stránky a vyhodnotit všechny zpětné odkazy.
> Hledac Seznamu: pred vice nez 10 lety.
> Od te doby Net o kouske nabobtnal.
Pro Vaši informaci. Teoreticky jste schopen vytvořit web s nekonečně mnoha stránek. Robot totiž nepozná, zda stránka je statická nebo generovaná. Vemte si třeba generátory náhodného textu. Pokud tam robot zabloudí, tak se tam ztratí. Proto crawlery ani nemají ochotu sosat "všechny" stránky. Upozorňuji Vás, že před takovými třemi roky měl Seznam kapacitu na maximálne 20 mil stránek a víc se tam prostě nevešlo.
> Ad obrazky: pro muj algoritmus potrebuji vsechny komponenty.
A co s nimi proboha chce dělat? Bude nějak hodnotit bitové poslopnousti? Plánujete nějak parsovat a vyhodnocovat obsah těch souborů? Co budete hledat v MP3? Maximálne název písničky, ale tam není třeba stahovat celou MP3. Nehlědě na to, že legálních MP3 je na internetu procento a zbytek jsou polo/nelegální ripy, které tyto informace neobsahují.
Co budete hledat v obrázku? Meta informace, třeba jak byl zaostřen objektiv a jaká byla clona? Nehledě na to, že 99% obrázku tuto informaci nemá, často zcela záměrně.
>Ha, ha, pro 250 milionu stranek se vsemi komponentami.
>Zkuste kupecke pocty.
Zaprvé, netuším jak jste přišel na 250 milionů stránek. Jestli berete nějaké oficiální statistiky vyhledávačů (možná ze Seznamu), tak vězte, že třeba Seznam nasosá mnohem víc unikátních stránek , než je v databázi a obrovské množství z toho zahodí, protože jsou to buď duplicity, spam, stránky bez textu, nebo něco, co se nedá rozparsovat, nebo prostě proto, že stránka nepřináší nic nového, nebo site, která stránku obsahuje nemá dostačnou vyhledávatelnost či návštěvnost na to, aby měla tolik zaindexovaných stránek.
Za druhé, jak říkám, nepotřebujete stahovat všechny stránky pro vyhodnocení fungování algoritmu. Klidně si stáhněte statistiky z TOPlistu a použijte seznam jako výchozí seznam url pro crawlování. Například stáhněte co nejvíc stránek z každé site v toplistu, co se nachází dostatečně vysoko. Garantuju Vám, že budete mít dost dat abyste obsáhl větší půlku českého internetu, včetně hodnotných zpětných odkazů.
Jo to chápu. Považujete zpětné odkazy za důležité, protože vaše linkfarmy jsou na nich závislé. Ale ani seznam nemá šanci nasosat všechny stránky a vyhodnotit všechny zpětné odkazy.
> Hledac Seznamu: pred vice nez 10 lety.
> Od te doby Net o kouske nabobtnal.
Pro Vaši informaci. Teoreticky jste schopen vytvořit web s nekonečně mnoha stránek. Robot totiž nepozná, zda stránka je statická nebo generovaná. Vemte si třeba generátory náhodného textu. Pokud tam robot zabloudí, tak se tam ztratí. Proto crawlery ani nemají ochotu sosat "všechny" stránky. Upozorňuji Vás, že před takovými třemi roky měl Seznam kapacitu na maximálne 20 mil stránek a víc se tam prostě nevešlo.
> Ad obrazky: pro muj algoritmus potrebuji vsechny komponenty.
A co s nimi proboha chce dělat? Bude nějak hodnotit bitové poslopnousti? Plánujete nějak parsovat a vyhodnocovat obsah těch souborů? Co budete hledat v MP3? Maximálne název písničky, ale tam není třeba stahovat celou MP3. Nehlědě na to, že legálních MP3 je na internetu procento a zbytek jsou polo/nelegální ripy, které tyto informace neobsahují.
Co budete hledat v obrázku? Meta informace, třeba jak byl zaostřen objektiv a jaká byla clona? Nehledě na to, že 99% obrázku tuto informaci nemá, často zcela záměrně.
>Ha, ha, pro 250 milionu stranek se vsemi komponentami.
>Zkuste kupecke pocty.
Zaprvé, netuším jak jste přišel na 250 milionů stránek. Jestli berete nějaké oficiální statistiky vyhledávačů (možná ze Seznamu), tak vězte, že třeba Seznam nasosá mnohem víc unikátních stránek , než je v databázi a obrovské množství z toho zahodí, protože jsou to buď duplicity, spam, stránky bez textu, nebo něco, co se nedá rozparsovat, nebo prostě proto, že stránka nepřináší nic nového, nebo site, která stránku obsahuje nemá dostačnou vyhledávatelnost či návštěvnost na to, aby měla tolik zaindexovaných stránek.
Za druhé, jak říkám, nepotřebujete stahovat všechny stránky pro vyhodnocení fungování algoritmu. Klidně si stáhněte statistiky z TOPlistu a použijte seznam jako výchozí seznam url pro crawlování. Například stáhněte co nejvíc stránek z každé site v toplistu, co se nachází dostatečně vysoko. Garantuju Vám, že budete mít dost dat abyste obsáhl větší půlku českého internetu, včetně hodnotných zpětných odkazů.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 9:53
Nový
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
A vy těm odhadům věříte? Vy si opravdu myslíte, že google počítá kolik výsledků dá na nějaký dotaz? To číslo se odhaduje, třeba z velikosti záznamu, který je v bajtech a podělí se nějakou průměrnou hodnotou velikosti výsledku v bajtech.
Proboha a takový člověk má prý nějaký algoritmus :-D. Začíná mi to připomínat prodej velkého kulového.
Proboha a takový člověk má prý nějaký algoritmus :-D. Začíná mi to připomínat prodej velkého kulového.
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 9:58
Nový
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
Mimochodem, porovnejte tenhle odhad třeba na Seznamu
http://search.seznam.cz/?q=uk%C3%A1zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF&count=10&pId=sB UDxta6C-nDl1lMJZ-I&from=1
http://search.seznam.cz/?q=uk%C3%A1zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF& amp;count=10&pId=sBUDxta6C-nDl1lMJZ-I&from=999
a na Google
http://www.google.com/#hl=en&safe=off&q=uk%C3%A1zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF&am p;start=1&sa=N&fp=a048890d3c90c6fc
http://www.google.com/#hl=en&safe=off&q=uk%C3%A1 zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF&start=990&sa=N&fp=a048890d3c90c6fc
http://search.seznam.cz/?q=uk%C3%A1zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF&count=10&pId=sB UDxta6C-nDl1lMJZ-I&from=1
http://search.seznam.cz/?q=uk%C3%A1zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF& amp;count=10&pId=sBUDxta6C-nDl1lMJZ-I&from=999
a na Google
http://www.google.com/#hl=en&safe=off&q=uk%C3%A1zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF&am p;start=1&sa=N&fp=a048890d3c90c6fc
http://www.google.com/#hl=en&safe=off&q=uk%C3%A1 zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF&start=990&sa=N&fp=a048890d3c90c6fc
Titulek:
Re: Odpovědi
(Petr Hejl)
Nový
Datum: 4. 2. 10:03
Nový
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
Vložil: ondra.novacisko.cz (neregistrovaný) ---.seznam.cz
Titulek: Re: Odpovědi (Celé vlákno)
No tak to jste možná přišel o investora :-D
Sledování názorů
Registrovaným uživatelům nabízíme upozornění na nové názory e-mailem. Prosím, přihlaste se nebo se zaregistrujte.
