Projel jsem to rychle, ale nevšiml jsem si ničeho nového. Možná je to tím, že dost věci, co popisujete se IMHO řeší i v Seznamu. Nejste sám, kdo má nápady :-D
Mno, nicméně, zkuste to poslat Yuhuovi ze Seznamu, třeba s něčím prorazíte.
Držím palce.
PS: Nemá smysl psát "nový hledač", to je zbytečná práce. Spíš využít současné hledače, z nichž jeden nejbližší máte v Praze... s pobočkou v Brně.
http://www.firmy.cz/detail/429645-seznam-cz-brno-styrice.html
Vlákno názorů k diskusi Projekt "Nový hledač"
ondra.novacisko.cz (neregistrovaný)
---.35.broadband11.iol.cz
20. 12. 2009 1:35
RE: Projekt "Nový hledač"
20. 12. 2009 8:51
Odpovědi
Dobrý den,
díky za příspěvek, tady jsou mé odpovědi:
Nový je princip hledání. Místo "WWW stránek" hodnotím při stanovení pořadí "jiné objekty". To je výsledek mého tříletého bádání. Nedělám ramena, vím, že nejsem sám, kdo má nápady, nicméně se domnívám, že ten můj nápad je v oblasti hledání unikátní a posouvá kvalitu hledání na novou úroveň.
Nemyslím si, ýe v tomto stadiu můj princip a algoritmus hledání koupí některý ze stávajících seznamů nebo hledačů.
Potřebuji udělat ten minihledač jakožto "proof of concept",
tedy ukázat, že můj algoritmus je skutečně lepší než Google.
Nechci vyvíjet kompletní nový hledač. Na minihledači chci pouze ukázat kvalitu mého algoritmu ve srovnání s jinými hledači a následně tento algoritmus prodat. Kompletní hledač by se vyvíjel až v krajním případš, samozřejmě by k tomu byla třeba další velká investice, např cuil.com dostal 30 milionů USD.
Díky za držení palců.
Petr Hejl
díky za příspěvek, tady jsou mé odpovědi:
Nový je princip hledání. Místo "WWW stránek" hodnotím při stanovení pořadí "jiné objekty". To je výsledek mého tříletého bádání. Nedělám ramena, vím, že nejsem sám, kdo má nápady, nicméně se domnívám, že ten můj nápad je v oblasti hledání unikátní a posouvá kvalitu hledání na novou úroveň.
Nemyslím si, ýe v tomto stadiu můj princip a algoritmus hledání koupí některý ze stávajících seznamů nebo hledačů.
Potřebuji udělat ten minihledač jakožto "proof of concept",
tedy ukázat, že můj algoritmus je skutečně lepší než Google.
Nechci vyvíjet kompletní nový hledač. Na minihledači chci pouze ukázat kvalitu mého algoritmu ve srovnání s jinými hledači a následně tento algoritmus prodat. Kompletní hledač by se vyvíjel až v krajním případš, samozřejmě by k tomu byla třeba další velká investice, např cuil.com dostal 30 milionů USD.
Díky za držení palců.
Petr Hejl
ondra.novacisko.cz (neregistrovaný)
---.35.broadband11.iol.cz
20. 12. 2009 11:43
Re: Odpovědi
Já tedy nevím, ale slovo "hledání" znamená primárně hledat a zřejmě nejspíš text, protože zatím nic jiného hledat neumíme. Teoreticky bych si dokázal představit hledání hudby, kdy by uživatel zapískal melodii a vyhledávač by se pokusil najít mp3 písně nejvíce podobnou :-D
Ale na hodnocení relevance a tedy výsledného řazení se používá hromada pravidel, kritérií, ať už jsou to on-page, off-page faktory, oblíbenost uživatelů, návštěvnost, hledanost. Seznam také neustále dokola provádí testování kvality a hledání těch nejlepších vah. Takže otázkou je, zda náhodou neděláte něco hodně podobného.
Ale na hodnocení relevance a tedy výsledného řazení se používá hromada pravidel, kritérií, ať už jsou to on-page, off-page faktory, oblíbenost uživatelů, návštěvnost, hledanost. Seznam také neustále dokola provádí testování kvality a hledání těch nejlepších vah. Takže otázkou je, zda náhodou neděláte něco hodně podobného.
20. 12. 2009 11:49
Re: Odpovědi
Ano, muj princip a algoritmus se zabyva vyhradne zakladnim hledanim textu, zadnym parcialnim hledanim hudby, v socialnich sitich apod. Ale prisel jsme na to, jak proste zakladni hledani udelat lip.
Hodnoceni relevance vysledku hledani je vec jina, i kdyz ji mam take zahrnutu do me¨ho projektu, protoze ji potrebuji pro srovnani vysledku hledani s jinymi hledaci. V podstate jedinou objektivni metodou, jak kvalitu vysledku hledani hodnotit, je pravdepodobne nebo skutecna navstevnost nalezenych linku.
Hodnoceni relevance vysledku hledani je vec jina, i kdyz ji mam take zahrnutu do me¨ho projektu, protoze ji potrebuji pro srovnani vysledku hledani s jinymi hledaci. V podstate jedinou objektivni metodou, jak kvalitu vysledku hledani hodnotit, je pravdepodobne nebo skutecna navstevnost nalezenych linku.
ondra.novacisko.cz (neregistrovaný)
---.35.broadband11.iol.cz
20. 12. 2009 16:41
Re: Odpovědi
To je z prominutím nesmysl. Pokud hodnotíte relevanci jen podle návštěvnosti (přičemž nechápu význam "přavděpodobné") pak dopadnete přesně jako na Google. Věci, které hledá každý najdete běžně. Ale nepoužíváte vyhledávač proto, abyste našel to co každý zna, ne?
Objektivní hodnocení relevance vám provedou uživatelé, tak že po návštěvě stránky vyplní dotazník o tom, jak moc byli s hledáním spokojeni. Ano, potřebujete docela dost lidí zahrnující reprezentativní vzorek populace a musíte je drtit dostatečným množstvím výsledků... Není to jednoduchá práce. Ale garantuju vám, že výsledky jsou jiné, než prosté hodnocení návštěvnosti.
Objektivní hodnocení relevance vám provedou uživatelé, tak že po návštěvě stránky vyplní dotazník o tom, jak moc byli s hledáním spokojeni. Ano, potřebujete docela dost lidí zahrnující reprezentativní vzorek populace a musíte je drtit dostatečným množstvím výsledků... Není to jednoduchá práce. Ale garantuju vám, že výsledky jsou jiné, než prosté hodnocení návštěvnosti.
20. 12. 2009 16:46
Re: Odpovědi
Nehodnotim celkovou navstevnost hledace nebo pocty hledani danych klicovych slov, ale pravdepodobnost nebo skutecnost,
kolikrat kliknou navstevnici na dany nalezeny odkaz.
Tak to take pravdepodobne hodnoti studie City Group.
kolikrat kliknou navstevnici na dany nalezeny odkaz.
Tak to take pravdepodobne hodnoti studie City Group.
ondra.novacisko.cz (neregistrovaný)
---.vodafone.cz
21. 12. 2009 11:09
Re: Odpovědi
Navstevnost ale nic o kvalite vysledku nic nerika. Nevite, jestli uzivatel klikal proto, ze nasel co hledal, nebo ze se mu jen zalibil snippet nebo screenshot. Ani z historie chovani uzivatele nepoznate, zda uzivatel na tretim vysledku nasel to co hledal, nebo znechucen neuspesnym hledanim to vzdal. A ani statisticky. Ano, jako insider v jednom nejmenovanym vyhledavaci mohu potvrdit, ze statistiky klikani na vysledky se samozrejme sbiraji a vyhodnocuji, ale rozhodne nemaji vyznamnou vahu na vysledek. Tech kriterii je mnoho a jejich vahy se dnes komplikovane pocitaji, nikoliv ze by se zvolily proto, ze se nekomu libily.
21. 12. 2009 11:28
Re: Odpovědi
Tady jde asi o omyl.
Jedna vec je stanoveni poradi nalezenych WWW stranek.
A druha vec je "uspesnost" hledace.
A ta je jednoznacne dana tim, kolik hledajicich klikne
na nalezene WWW odkazy (ktere jsou prezentovany jejich popisy).
Podle toho ti navstevnici budto uzivaji hledac dale,
nebo presedlaji na jiny hledac.
Zadne jine objektivni kriterium pro kvalitu (uspesnost) hledace neexistuje.
Jedna vec je stanoveni poradi nalezenych WWW stranek.
A druha vec je "uspesnost" hledace.
A ta je jednoznacne dana tim, kolik hledajicich klikne
na nalezene WWW odkazy (ktere jsou prezentovany jejich popisy).
Podle toho ti navstevnici budto uzivaji hledac dale,
nebo presedlaji na jiny hledac.
Zadne jine objektivni kriterium pro kvalitu (uspesnost) hledace neexistuje.
ondra.novacisko.cz (neregistrovaný)
---.35.broadband11.iol.cz
21. 12. 2009 22:39
Re: Odpovědi
Moc jsem to nepochopil. Nevím o čem mluvíte. Nejprve jsem si myslel, že píšete nějaký vlastní fulltext, ale teď už jsem trošku zmaten. Skoro to vypadá, jako když se snažíte vyvinout hledač, který najde ten vyhledávač, který zná odpověd :-D.
Ne opravdu nevím o co jde a z toho co jsem se dozvěděl bych do takového projektu ani peníze neinvestoval.
Ale zkuste to v Brně v pobočce Seznamu. Tam najdete minimálně jeden plnohodnotný vyhledávač, který hledá aspoň tak dobře, aby si udržel celkem slušný náskok před Googlem (na české scéně).
Ne opravdu nevím o co jde a z toho co jsem se dozvěděl bych do takového projektu ani peníze neinvestoval.
Ale zkuste to v Brně v pobočce Seznamu. Tam najdete minimálně jeden plnohodnotný vyhledávač, který hledá aspoň tak dobře, aby si udržel celkem slušný náskok před Googlem (na české scéně).
21. 12. 2009 22:59
Re: Odpovědi
Prosim, zkuste si precist popis projektu:
http://www.lednice.org/projektnovyhledac
Nechci (tedka) vyvinout zadny novy hledac.
Vymyslel jsem a chci overit novy princip hledani (algoritmus hledani).
Pokud se ukaze, jak verim, ze je tento algoritmus lepsi (kvalitnejsi) nez ma Google, chci tento algoritmus prodat, a to nejlepe Microsoftu pro Bing.
V podstate to nechci nabizet jinym hledacum, dokud nebudu mit ten minihledac, tedy "proof of concept".
Seznam je na ceske pomery slusny hledac, i kdyz ma svoje mouchy...
http://www.lednice.org/projektnovyhledac
Nechci (tedka) vyvinout zadny novy hledac.
Vymyslel jsem a chci overit novy princip hledani (algoritmus hledani).
Pokud se ukaze, jak verim, ze je tento algoritmus lepsi (kvalitnejsi) nez ma Google, chci tento algoritmus prodat, a to nejlepe Microsoftu pro Bing.
V podstate to nechci nabizet jinym hledacum, dokud nebudu mit ten minihledac, tedy "proof of concept".
Seznam je na ceske pomery slusny hledac, i kdyz ma svoje mouchy...
jk (neregistrovaný)
---.static.masterinter.net
1. 2. 2010 4:17
Re: Odpovědi
Ne, mylite si vy. Uspesnost hledace neni dana tim, kolik hledajicich klikne. Extremni pripad: proklikam vsechno z top 10, presto se nedostanu k informaci, kterou hledam. Je vyhledavac 100% uspesny? Prave naopak! Priste pujdu jinam.
Ano, muzu dostat "spatne vysledky 1. druhu" - tj vysledky ktere jsou uz podle nazvu, popisu a url neco co nechci. Ano, mereni klikani je objektivni meritko - uspesnosti.
Ale muzu dostat i "spatne vysledky 2. druhu" - vysledky ktere vypadaji slibne, ale pote co si je otevru a ztratim nejaky cas jejich ctenim zjistim ze je taky nechci. Mereni poctu kliku je tez objektivni meritko - neuspesnosti.
IMO nejvetsim problemem hledani je nebo velmi zahy bude, oblast "adversarial information retrieval". Existuje dost dobrych moznosti ktere by slo pro razeni webu vyuzivat, ale malo odolnych proti umyslnemu zneuziti.
Ano, muzu dostat "spatne vysledky 1. druhu" - tj vysledky ktere jsou uz podle nazvu, popisu a url neco co nechci. Ano, mereni klikani je objektivni meritko - uspesnosti.
Ale muzu dostat i "spatne vysledky 2. druhu" - vysledky ktere vypadaji slibne, ale pote co si je otevru a ztratim nejaky cas jejich ctenim zjistim ze je taky nechci. Mereni poctu kliku je tez objektivni meritko - neuspesnosti.
IMO nejvetsim problemem hledani je nebo velmi zahy bude, oblast "adversarial information retrieval". Existuje dost dobrych moznosti ktere by slo pro razeni webu vyuzivat, ale malo odolnych proti umyslnemu zneuziti.
1. 2. 2010 6:47
Re: Odpovědi
Mam trochu jiny nazor:
1.
S vysledky hledani dostava uzivatel ikony a popisy.
Z techto udaju dokaze vetsinou predem odhadnout,
na ktery link ma kliknout a na ktery ne.
U zkusenych hledajicich je tento odhad takrka 100 procentni.
2.
Mete nejake jine kriterium pro uspesnost realneho hledace?
3.
Mozna by se to dalo udelat pomoci nejakeho "Page Tracking",
podobne Option existuje v Google Analytics,
ktere by sledovalo, jak dlouhu hledajici na strance zustanou, jak ji vyuziji, kam z ni jdou...
Ale pochybuji, ze by webmasteri podobneho takoveho bratra snesli.
1.
S vysledky hledani dostava uzivatel ikony a popisy.
Z techto udaju dokaze vetsinou predem odhadnout,
na ktery link ma kliknout a na ktery ne.
U zkusenych hledajicich je tento odhad takrka 100 procentni.
2.
Mete nejake jine kriterium pro uspesnost realneho hledace?
3.
Mozna by se to dalo udelat pomoci nejakeho "Page Tracking",
podobne Option existuje v Google Analytics,
ktere by sledovalo, jak dlouhu hledajici na strance zustanou, jak ji vyuziji, kam z ni jdou...
Ale pochybuji, ze by webmasteri podobneho takoveho bratra snesli.
ondra.novacisko.cz (neregistrovaný)
---.seznam.cz
1. 2. 2010 9:00
Re: Odpovědi
1) To je právě ten omyl. Vyhledávač jen nabízí snipet, kde je zvýrazněný výsledek. Nic neříká o tom, že je tam informace, kterou chcete vědět. Nehledě na to, že kolikrát člověk nehledá informaci, kterou napíše do okénka hledej, ale informaci, která je s tím nějak spojena. A ta se věšinou do snipu nevejde. Ale uživatel kliká už jen když vidí nějaký náznak toho, že by to mohlo být ono. (Nehledě na to, že třeba podle snipetu a ikonky vašich stránek bych těžko něco našel)
Ad 2) a Ad 3)
Jinými slovy, nevíte nic. Nemáte nic, jen mlátíte prázdnou slámou. Zkuste s tím jít do pořadu Den D, aspoň se zasmějeme.
Ad 2) a Ad 3)
Jinými slovy, nevíte nic. Nemáte nic, jen mlátíte prázdnou slámou. Zkuste s tím jít do pořadu Den D, aspoň se zasmějeme.
(: (neregistrovaný)
---.eurotel.cz
1. 2. 2010 10:08
Re: Odpovědi
V úterý na čt1 ve 22:00 uvidíte:
Petr Hejl – nový hledač lepší než Google,1 milion korun, 50% podíl
Petr Hejl – nový hledač lepší než Google,1 milion korun, 50% podíl
Fanoušek (neregistrovaný)
93.99.73.---
1. 2. 2010 10:42
Re: Odpovědi
... a zaručená návratnost x 17.000 při riziku jen 30%. Takže pokud je to podaří, tak za ten milion získají investoři zpátky 17 MILIARD! A pokud se to nepodaří - což je nepravděpodobné když na tom Hejl už 4 roky po večerech tak intenzivně maká že ještě nemá ani nefunkční demo - tak investici vrátí zpět.
No nekupte to! Investoři by byli HLOUPÍ pokud by se do takového skvělého kšeftu nehrnuli jak diví! ;-)
Tedy ale nesmí vám vadit že z toho milionu si 600 tisíc Hejl vezme jako úhradu za ty 4 roky intenzivní práce (po které bohužel není žádný viditelný výsledek). No ale když z toho bude 17 miliard zisku tak co je nějakých trapných 600 tisíc pro geniálního autora.
No nekupte to! Investoři by byli HLOUPÍ pokud by se do takového skvělého kšeftu nehrnuli jak diví! ;-)
Tedy ale nesmí vám vadit že z toho milionu si 600 tisíc Hejl vezme jako úhradu za ty 4 roky intenzivní práce (po které bohužel není žádný viditelný výsledek). No ale když z toho bude 17 miliard zisku tak co je nějakých trapných 600 tisíc pro geniálního autora.
jk (neregistrovaný)
---.static.masterinter.net
1. 2. 2010 17:00
Re: Odpovědi
Ok, nazor mejte... Ac jsem zkusenejsi hledajici nez >99.9% uzivatelu tento odhad rozhodne neni 100%, zavisi na tematu hledani a SEO-tlaku v dane oblasti.
Nemala cast hledajicich nedokaze poznat spravny vysledek ani u "navigacniho dotazu" typu "www neco cz" (aplikace tohoto nazoru vydelavat docela dost lidem docela dost penez ;-)
Jinac vas nechci od prodeje napadu odrazovat ani shazovat, prakticky si myslim v cechach to budete mit s hledanim investora tezke nezavisle na tom jestli jste vymyslel neco bezcenneho nebo revoluci v hledani.
Nemala cast hledajicich nedokaze poznat spravny vysledek ani u "navigacniho dotazu" typu "www neco cz" (aplikace tohoto nazoru vydelavat docela dost lidem docela dost penez ;-)
Jinac vas nechci od prodeje napadu odrazovat ani shazovat, prakticky si myslim v cechach to budete mit s hledanim investora tezke nezavisle na tom jestli jste vymyslel neco bezcenneho nebo revoluci v hledani.
1. 2. 2010 23:25
Re: Odpovědi
S nespravne polozenym dotazem zadyn hledac nic nenadela.
Ale divil byste se, jak i laici jsou schopni rozlisit
dobre vysledky hlednai od spatnych.
Ale divil byste se, jak i laici jsou schopni rozlisit
dobre vysledky hlednai od spatnych.
hans (neregistrovaný)
---.217.broadband7.iol.cz
2. 2. 2010 10:15
Re: Odpovědi
1. ja jsem schopen rozlisit vysledek jen tim, ze na odkaz kliknu a otevru ho. Az pak vim, jestli je dobry nebo ne. Tudiz vyhledavac nevi nic.
Abraxis (neregistrovaný)
---.tatrabanka.sk
1. 2. 2010 17:24
Re: Odpovědi
Hmmm a uvedomujete si, ze uz presne tohle Google dela? Kdykoliv uzivatel klikne na odkaz ve vysledku, tak je pre Javascript odeslana informace Googlu na co klik a ten urcite tuto informaci ve vysledcich vyhledavani zohlednuj.
ondra.novacisko.cz (neregistrovaný)
---.lam.cz
2. 2. 2010 1:55
Re: Odpovědi
V jiném vlákně vám Yuhu prozradil (ačkoliv netuším proč), že Seznam má okalibrované výsledky najatou partou brigádníků sestavenou tak, aby tvořili reprezentativní vzorek uživatelů. A neustále srovnávají svoje výsledky s výsledky brigádníků. Také Yuhu prozradil, že umí měřit úspěšnost i jiných vyhledávačů, například Googla (což je logický, porovnám výsledky brigádníků s výsledkem googla).
Napadlo Vás aspoň na chvíli, jak se ladí takových 118 kritérii? Myslíte si, že si tam sedne nějaký programátor a začne hýbat nějakýma vahama?
Ale houby. Když mám na jedné straně kritéria a na druhé straně požadované výsledky, pak takovéhle úlohy se řeší na VŠ v předmětu Problémy a Algoritmy, kdy problémem je třeba přábě naladění vah, aby výsledek hledání odpovídal kalibrovanému výsledku. Algoritmů, od genetických až po různě sofistikované, jako házení hrachu na N rozměrnou plochu, nebo ochlazovací algoritmy, to je pak sousto pro analitika a několik kilowattů výkonu a tisíce minut běhu jednoho trochu většího nabušeného stroje. I tak je problém dosáhnout ideálu.
A to co chci říct, že kdyby byla pravda, že by stačilo jen posuzovat klikání na výsledky, že by takový závěr musel vypadnout z výše uvedených algoritmů. Tedy že by všechny kritéria měli nulu a pouze klikání mělo 1? Zkuste se zamyslet a prozradit mi, proč tomu tak nebude. Proč nakonec každé kritérium dostane nějakou váhu tak, aby výsledky se optimálně přibližovali tomu, co by uživatel chtěl vidět.
To mi připomíná tu hádanku na rootu s tím autem a kozlama. Taky jsem byl přesvědčen, že to musí být 50:50, ale když to naprogramujete, zjistíte, že výsledky jsou jinde. Člověk se bohužel dost často plete.
Napadlo Vás aspoň na chvíli, jak se ladí takových 118 kritérii? Myslíte si, že si tam sedne nějaký programátor a začne hýbat nějakýma vahama?
Ale houby. Když mám na jedné straně kritéria a na druhé straně požadované výsledky, pak takovéhle úlohy se řeší na VŠ v předmětu Problémy a Algoritmy, kdy problémem je třeba přábě naladění vah, aby výsledek hledání odpovídal kalibrovanému výsledku. Algoritmů, od genetických až po různě sofistikované, jako házení hrachu na N rozměrnou plochu, nebo ochlazovací algoritmy, to je pak sousto pro analitika a několik kilowattů výkonu a tisíce minut běhu jednoho trochu většího nabušeného stroje. I tak je problém dosáhnout ideálu.
A to co chci říct, že kdyby byla pravda, že by stačilo jen posuzovat klikání na výsledky, že by takový závěr musel vypadnout z výše uvedených algoritmů. Tedy že by všechny kritéria měli nulu a pouze klikání mělo 1? Zkuste se zamyslet a prozradit mi, proč tomu tak nebude. Proč nakonec každé kritérium dostane nějakou váhu tak, aby výsledky se optimálně přibližovali tomu, co by uživatel chtěl vidět.
To mi připomíná tu hádanku na rootu s tím autem a kozlama. Taky jsem byl přesvědčen, že to musí být 50:50, ale když to naprogramujete, zjistíte, že výsledky jsou jinde. Člověk se bohužel dost často plete.
2. 2. 2010 6:25
Re: Odpovědi
My sme s Yuhu "kamaradi".
Akorat ohledne principu hledani sme se nak nepohodli. :-)
Na brigadniky mam holt jiny nazor, nez on.
Pokud uz, tak by podme mne byla potreba vetsi mnozina kvalitnejsich lidi.
"Napadlo Vás aspoň na chvíli, jak se ladí takových 118 kritérii? Myslíte si, že si tam sedne nějaký programátor a začne hýbat nějakýma vahama?"
Zpocatku urcite.
Ja si myslim, ze tech kombinaci je takove mnozstvi,
ze bude rychlejsi, efektivnejsi a kvalitnejsi,
pokud to udela zkuseny clovek, ktery bude vedet,
co ktera vaha ovlivnuje a bude s temi vahami v tom smeru hybat.
Ja nerikam, ze muj algoritmus je idealni.
Akorat si myslim, ze je o 10 procent idealnejsi,
nez Google.
Abych to dokazal, potrebuji ten minihledac.
Samozrejme klikani uzivatelu je jen jedno z N kriterii v realnem hledaci.
Hadanku neznam, sorry.
Ja se samozrejme taky 3 roky plet, nez jsem na ten novy princip hledani prisel.
Akorat ohledne principu hledani sme se nak nepohodli. :-)
Na brigadniky mam holt jiny nazor, nez on.
Pokud uz, tak by podme mne byla potreba vetsi mnozina kvalitnejsich lidi.
"Napadlo Vás aspoň na chvíli, jak se ladí takových 118 kritérii? Myslíte si, že si tam sedne nějaký programátor a začne hýbat nějakýma vahama?"
Zpocatku urcite.
Ja si myslim, ze tech kombinaci je takove mnozstvi,
ze bude rychlejsi, efektivnejsi a kvalitnejsi,
pokud to udela zkuseny clovek, ktery bude vedet,
co ktera vaha ovlivnuje a bude s temi vahami v tom smeru hybat.
Ja nerikam, ze muj algoritmus je idealni.
Akorat si myslim, ze je o 10 procent idealnejsi,
nez Google.
Abych to dokazal, potrebuji ten minihledac.
Samozrejme klikani uzivatelu je jen jedno z N kriterii v realnem hledaci.
Hadanku neznam, sorry.
Ja se samozrejme taky 3 roky plet, nez jsem na ten novy princip hledani prisel.
ondra.novacisko.cz (neregistrovaný)
---.seznam.cz
2. 2. 2010 9:31
Re: Odpovědi
> My sme s Yuhu "kamaradi".
Řekl bych, že Yuhu má jiný názor, ale nechci Vám brát iluze
> Ja si myslim, ze tech kombinaci je takove mnozstvi,
> ze bude rychlejsi, efektivnejsi a kvalitnejsi,
> pokud to udela zkuseny clovek, ktery bude vedet,
> co ktera vaha ovlivnuje a bude s temi vahami v tom smeru > hybat.
Dobrej úlet.
Tohle člověk nezvládne. Na to v klidu zapomeňte. To je rovnice o N neznámych, kde N je počet kritérií. A kde navíc nehledáme jedno konkrétní číslo, ale maximální kvalitu výsledku. Už jen to, že hledámé maximum ukazuje na NP problém, který zvládne počítač jen pomocí přiblížných numerických metod, zatím co člověk ani náhodou. Člověk je maximálně schopen najit nějaké lokální maximum, ale nikdy nebudete mít jistotu, že je to nejlepší výsledek. U genetik, nebo házení broků na N rozměrnou plochu (výpočet gradientu a hledání maxima) budete mít větší šanci najít lepší parametry. Těch N kriteríí totiž není jednoduchý N rozměrný kopec s jedním vrcholem.Račte si uvědomit, že těch extrémů bude mít hafo a najít ten nejvyšší prostě je záhul pro počítač a pro člověka neproveditelný úkol.
> Ja nerikam, ze muj algoritmus je idealni.
> Samozrejme klikani uzivatelu je jen jedno z N kriterii v realnem hledaci.
Že by změna pozic? Já si myslím, že neustále ukazujete, že nic nemáte, protože když to vezmu historicky, ze všech pozic jste ustoupil.
Jako každý si myslíme, že můžeme být lepší něž někdo jiný. Seznam taky chce být lepší než Google. Vy si myslíte, že můžete být o 10% lepší? Pokud ignoruju to, že je to sakra málo na nějakou investici, tak je to spíš snění snílků, než něco hmatatelného.
Hledač si můžete napsat v PHPku. Stačí vám třeba MySQL databáze se svým fulltextem. Indexer napíšete v shellscriptu a stránky si uložte do MySQL. Pak si při hledání nechte vytáhnout všechny výsledky z fulltextu a seřaďte si je podle Vašich kritéríí. Já vím, že to nebude rychlé, ale na počáteční pokusy to stačí. Kde jaký phápkáč vám něco takového napíše za pár desítek litrů a to přeháním.
Řekl bych, že Yuhu má jiný názor, ale nechci Vám brát iluze
> Ja si myslim, ze tech kombinaci je takove mnozstvi,
> ze bude rychlejsi, efektivnejsi a kvalitnejsi,
> pokud to udela zkuseny clovek, ktery bude vedet,
> co ktera vaha ovlivnuje a bude s temi vahami v tom smeru > hybat.
Dobrej úlet.
Tohle člověk nezvládne. Na to v klidu zapomeňte. To je rovnice o N neznámych, kde N je počet kritérií. A kde navíc nehledáme jedno konkrétní číslo, ale maximální kvalitu výsledku. Už jen to, že hledámé maximum ukazuje na NP problém, který zvládne počítač jen pomocí přiblížných numerických metod, zatím co člověk ani náhodou. Člověk je maximálně schopen najit nějaké lokální maximum, ale nikdy nebudete mít jistotu, že je to nejlepší výsledek. U genetik, nebo házení broků na N rozměrnou plochu (výpočet gradientu a hledání maxima) budete mít větší šanci najít lepší parametry. Těch N kriteríí totiž není jednoduchý N rozměrný kopec s jedním vrcholem.Račte si uvědomit, že těch extrémů bude mít hafo a najít ten nejvyšší prostě je záhul pro počítač a pro člověka neproveditelný úkol.
> Ja nerikam, ze muj algoritmus je idealni.
> Samozrejme klikani uzivatelu je jen jedno z N kriterii v realnem hledaci.
Že by změna pozic? Já si myslím, že neustále ukazujete, že nic nemáte, protože když to vezmu historicky, ze všech pozic jste ustoupil.
Jako každý si myslíme, že můžeme být lepší něž někdo jiný. Seznam taky chce být lepší než Google. Vy si myslíte, že můžete být o 10% lepší? Pokud ignoruju to, že je to sakra málo na nějakou investici, tak je to spíš snění snílků, než něco hmatatelného.
Hledač si můžete napsat v PHPku. Stačí vám třeba MySQL databáze se svým fulltextem. Indexer napíšete v shellscriptu a stránky si uložte do MySQL. Pak si při hledání nechte vytáhnout všechny výsledky z fulltextu a seřaďte si je podle Vašich kritéríí. Já vím, že to nebude rychlé, ale na počáteční pokusy to stačí. Kde jaký phápkáč vám něco takového napíše za pár desítek litrů a to přeháním.
Petr (neregistrovaný)
93.99.73.---
2. 2. 2010 11:15
Re: Odpovědi
Má cenu takováhle debata s někým, kdo pokládá za skvělý informační web tenhle paskvil?
http://www.lednice.org/
Jeho skvělé grafické provedení a přehlednost doplňují i odkazy v bočním menu, kde řada odkazů vede na tu samou dlooouhatáánskou stránku jen s upřesněním místa pomocí #
http://www.lednice.org/
Jeho skvělé grafické provedení a přehlednost doplňují i odkazy v bočním menu, kde řada odkazů vede na tu samou dlooouhatáánskou stránku jen s upřesněním místa pomocí #
3. 2. 2010 21:09
Re: Odpovědi
"Hledač si můžete napsat v PHPku."
Ha, ha.
Pravdepodobne budu potrebovat stahnout 250 milionu stranek,
vcetne jejich komponent (obrazky atd.),
Jeste dodejte, ze to jde i na PC s ADSL...
Ha, ha.
Pravdepodobne budu potrebovat stahnout 250 milionu stranek,
vcetne jejich komponent (obrazky atd.),
Jeste dodejte, ze to jde i na PC s ADSL...
Abraxis (neregistrovaný)
195.248.32.---
3. 2. 2010 22:44
Re: Odpovědi
Obrazku??? Naco? To snad pocitate i s algoritmem na rozpoznani obsahu obrazku?
Nicmene - stahnout 250 Mstranek neni takovy problem. Vemte si od libovolne banky pujcku ma 200-300 tisic, kupte si 2-3 servery, par TB disku, dejte to na mesic do server hostingu a je hotovo.
Nebo si snad tolik neverite, aby jste do toho projektu zainvestoval neco jineho, nez vas cas???
Nicmene - stahnout 250 Mstranek neni takovy problem. Vemte si od libovolne banky pujcku ma 200-300 tisic, kupte si 2-3 servery, par TB disku, dejte to na mesic do server hostingu a je hotovo.
Nebo si snad tolik neverite, aby jste do toho projektu zainvestoval neco jineho, nez vas cas???
4. 2. 2010 0:01
Re: Odpovědi
Stahuji a hodntotim vsechny komponenty WWW stranek.
Uz jsem investoval milion.
A spocital jsem, ze jeden server s rychlym pripojenim by to stahoval pres 7 let.
Uz jsem investoval milion.
A spocital jsem, ze jeden server s rychlym pripojenim by to stahoval pres 7 let.
Pakrbec Pahejl (neregistrovaný)
---.karneval.cz
4. 2. 2010 0:35
Re: Odpovědi
Takže stahujete i flw, wmw, mpg, wml, mp3, pdf, ogg i omg rtfm bfu... Jak jste ke svému výpočtu proboha došel!?!?!
Pakrbec Pahejl (neregistrovaný)
---.karneval.cz
4. 2. 2010 1:01
Re: Odpovědi
To bych se nedřív musel zbláznit, mít zápal mozkových blan, nějaký rozvinutý karcinom na mozku a bejt drzej jak hejl. Každopádně dík za duchaprázdnou odpověď. Argumenty a fakta nemáte, jen přisprostle plácáte bláznivé domněnky.
P.S.: člověka po zápalu mozkových blan znám osobně. Neměl jste ho také? Ani malinký? Těžko věřit.
P.S.: člověka po zápalu mozkových blan znám osobně. Neměl jste ho také? Ani malinký? Těžko věřit.
Abraxis (neregistrovaný)
---.tatrabanka.sk
4. 2. 2010 8:24
Re: Odpovědi
Investoval jste skutecne milion nebo pouze svuj cas, ktery si cenite na milion???
Jak chcete hodnotit GIF? Flash? MP3? Na to neexistuje zadny rozumny algoritmus. Muzete pouze hodnotit to, ze na nej stranka odkazuje - a na to jej nemusite stahovat.
250 Mstranek po ~20 kB/stranka = ~5 TB.
Slusne pripojeni do patere = 10 Mbit/s.
5 TB budete stahovat 1111 hodin = 46 dni. (pochopitelne bez overheadu)
Co proboha jste ty 4 roky delal, kdyz jste si neudelal ani takovyto zakladni vypocet???
Jak chcete hodnotit GIF? Flash? MP3? Na to neexistuje zadny rozumny algoritmus. Muzete pouze hodnotit to, ze na nej stranka odkazuje - a na to jej nemusite stahovat.
250 Mstranek po ~20 kB/stranka = ~5 TB.
Slusne pripojeni do patere = 10 Mbit/s.
5 TB budete stahovat 1111 hodin = 46 dni. (pochopitelne bez overheadu)
Co proboha jste ty 4 roky delal, kdyz jste si neudelal ani takovyto zakladni vypocet???
4. 2. 2010 9:14
Re: Odpovědi
To je totez (dle danoveho priznani).
Zkuste taky premyslet 3 roky, treba na neco prijdete.
Cas: stahuji vsechny komponenty.
Dle vypoctu je to na 1 serveru s rychlym pripojenim pres 7 let.
Zkuste taky premyslet 3 roky, treba na neco prijdete.
Cas: stahuji vsechny komponenty.
Dle vypoctu je to na 1 serveru s rychlym pripojenim pres 7 let.
Abraxis (neregistrovaný)
---.tatrabanka.sk
4. 2. 2010 10:07
Re: Odpovědi
Ju? Kde v danovem priznani vykazuju svuj cas??? Kam tam vykazu, zda jsem o vikendu koukal na Novu nebo premyslel nad algoritmem?
Neni snad jedno, jak dlouho nad necim kdo badal, ale jaky je vysledek? Vas vysledek = napad, ktery neni nijak prakticky overeny (neexistuje ani radek kodu) a ktery Vam klidne prvni programator ukradne.
Komponenty - tak nam reknete, co budete delat s 10 MB JPEGem? Jake informace z neho tak muzete ziskat??? Nemusite rikat uz, co s nimi budete delat, ani jak indexovat.
Vypocet - tak sem s nim. Ja svuj vypocet ukazal - jak jste dospel k 7 letum?
Neni snad jedno, jak dlouho nad necim kdo badal, ale jaky je vysledek? Vas vysledek = napad, ktery neni nijak prakticky overeny (neexistuje ani radek kodu) a ktery Vam klidne prvni programator ukradne.
Komponenty - tak nam reknete, co budete delat s 10 MB JPEGem? Jake informace z neho tak muzete ziskat??? Nemusite rikat uz, co s nimi budete delat, ani jak indexovat.
Vypocet - tak sem s nim. Ja svuj vypocet ukazal - jak jste dospel k 7 letum?
4. 2. 2010 10:14
Re: Odpovědi
Danove priznani je danove priznani.
Budete se mozna divit, ale ja jej uz 19 let vyplnuju poctive.
Ano, vysledkem je napad plu algoritmus.
Btw., vite, ze Guglaci nechteli zpocatku zadny hledac delat?
Jen vymysleli algoritmus a chteli je prodat.
Kdyz se jim to nepovedlo, vyvinuli hledac,
byla to z nouze ctnost.
Komponenty?
Opravdu si myslite, ze Vam muj algoritmus prozradim?
Vypocet:
250 mega stranek, v prumeru 10 komponentn na stranku = 2.5 miliardy komponent.
Pocitam 10 requestu za vterinu.
2.5 miliardy deleno 10 = 250 milionu sekund.
250 milionu sekund deleno 31536000 sekundami za rok = 7.92 roku.
Budete se mozna divit, ale ja jej uz 19 let vyplnuju poctive.
Ano, vysledkem je napad plu algoritmus.
Btw., vite, ze Guglaci nechteli zpocatku zadny hledac delat?
Jen vymysleli algoritmus a chteli je prodat.
Kdyz se jim to nepovedlo, vyvinuli hledac,
byla to z nouze ctnost.
Komponenty?
Opravdu si myslite, ze Vam muj algoritmus prozradim?
Vypocet:
250 mega stranek, v prumeru 10 komponentn na stranku = 2.5 miliardy komponent.
Pocitam 10 requestu za vterinu.
2.5 miliardy deleno 10 = 250 milionu sekund.
250 milionu sekund deleno 31536000 sekundami za rok = 7.92 roku.
Petr (neregistrovaný)
93.99.73.---
4. 2. 2010 10:27
Re: Odpovědi
JAK lze načíst 250 milionů stránek, aby byly AKTUÁLNÍ a aby byly VŠECHNY? To prostě není technicky možné.
Jenomže jako všechny ostatní připomínky, i tohle je pro vás jen osobní útok a nechcete si připustit že jste možná udělal v některé své myšlence chybu...
Jako "starému programátoru" bych vám jen chtěl připomenout jedno staré pravidlo platící od nepaměti:
1) V KAŽDÉM PROGRAMU JE CHYBA!
2) POKUD "TAM NENÍ" TAK PLATÍ PRAVILO ČÍSLO JEDNA, JEN ZATÍM NEBYLA OBJEVENA!
Jenomže jako všechny ostatní připomínky, i tohle je pro vás jen osobní útok a nechcete si připustit že jste možná udělal v některé své myšlence chybu...
Jako "starému programátoru" bych vám jen chtěl připomenout jedno staré pravidlo platící od nepaměti:
1) V KAŽDÉM PROGRAMU JE CHYBA!
2) POKUD "TAM NENÍ" TAK PLATÍ PRAVILO ČÍSLO JEDNA, JEN ZATÍM NEBYLA OBJEVENA!
4. 2. 2010 10:31
Re: Odpovědi
Lze.
Nemusi byt uplne aktualni a vsechny.
Vypocet je presny.
Proto musim programatora dobre zaplatit.
Nemusi byt uplne aktualni a vsechny.
Vypocet je presny.
Proto musim programatora dobre zaplatit.
Petr (neregistrovaný)
93.99.73.---
4. 2. 2010 10:33
Re: Odpovědi
Tak nemusí nebo musí být všechny? Celou dobu tady operujete tím, že musíte načíst 250 milionů stránek a najedou to už není potřeba :-O
Abraxis (neregistrovaný)
---.tatrabanka.sk
4. 2. 2010 14:44
Re: Odpovědi
Pokud jsem videl vasi kalkulaci, tak chcete mega, z toho 600k pro sebe a cca. 250 tisic za programatora. I kdyby na tom delal pul roku, tak to je 50 tisic super-hrube mzdy = cca. 30 tisic cisteho. Tomu rikate dobre zaplatit programatora???
4. 2. 2010 16:26
Re: Odpovědi
Presny rozpocet sdeluji invstorum, coz Vy, jak tak koukam, zrovna nejste.
Abraxis (neregistrovaný)
---.tatrabanka.sk
4. 2. 2010 17:54
Re: Odpovědi
Presny rozpocet investorum jste sdelil ve dni D i v diskuzi na WebTrhu - chcete 600 tisic za svuj vynalezeny algoritmus a ze zbytku se musi zaplatit programator a nejake zelezo, kde to pobezi, ucetni atd.
Abraxis (neregistrovaný)
---.tatrabanka.sk
4. 2. 2010 18:31
Re: Odpovědi
Aha - takze to co jste rikal na dni D a co mate na webu (1 mil. Kc) je lez?
4. 2. 2010 18:43
Re: Odpovědi
Nikoli, ale detaily nechte, prosim, na mne a na investorech, kterym Vy nejste.
Abraxis (neregistrovaný)
---.chello.sk
4. 2. 2010 23:44
Re: Odpovědi
Nikdo nechce detaily, ale jen bych rad vedel, z ceho chcete zaplatit programatora... Dobry programator totiz stoji 1 milion za rok (nikdo nerika, ze tolik dostane cisteho, ale to jsou naklady na nej)
Abraxis (neregistrovaný)
---.tatrabanka.sk
4. 2. 2010 14:54
Re: Odpovědi
A jak souvisi Google s vami? To, ze se byli v podobne situaci, tak nic neznamena - to neimplikuje, ze budete uspesny jako oni. V podobne situaci urcite bylo tisice projektu, ale jen maloktery uspel.
Ne, nechci aby jste prozradil algoritmus. Jen chci vedet, zda teda jste objevil prevratny indexovaci a vyhledavaci algoritmus nebo prevratny algoritmus, jak analyzovat obsah jakekoliv komponenty (flash, gif, etc.).
10 req/vterinu je velmi velmi malo. Jen muj notebook zvladne tisickrat vice. I kdyz budu konzervativni a reknu 100 rps, tak mame najednou z toho jen 10 mesicu a pri 5 pocitacich jen 2 mesice. A nemluve o tom, ze urcite lze dostat predbezne vysledky uz i pri par milionech stranek.
K danovemu priznani - ja jej taky vyplnuji poctive a nikde jsem nevidel, ze bych kdekoliv priznaval, ze jsem o vikendu premyslel nad nejakym algoritmem a sveho casu si cenim na tolik a tolik Kc. Vy snad ano? A platil jste z toho dane???
Takze opet - proc si nevezmete z banky pujcku (nebo hypoteku) a nevyzkousite to sam? Neverite si tolik? Kdyz odecteme cenu jiz vami investovaneho casu (coz byste si sam sobe pochopitelne neplatil), tak sehnat 400 tisic neni problem - pochopitelne pokud s navratnosti nekecate.
Ne, nechci aby jste prozradil algoritmus. Jen chci vedet, zda teda jste objevil prevratny indexovaci a vyhledavaci algoritmus nebo prevratny algoritmus, jak analyzovat obsah jakekoliv komponenty (flash, gif, etc.).
10 req/vterinu je velmi velmi malo. Jen muj notebook zvladne tisickrat vice. I kdyz budu konzervativni a reknu 100 rps, tak mame najednou z toho jen 10 mesicu a pri 5 pocitacich jen 2 mesice. A nemluve o tom, ze urcite lze dostat predbezne vysledky uz i pri par milionech stranek.
K danovemu priznani - ja jej taky vyplnuji poctive a nikde jsem nevidel, ze bych kdekoliv priznaval, ze jsem o vikendu premyslel nad nejakym algoritmem a sveho casu si cenim na tolik a tolik Kc. Vy snad ano? A platil jste z toho dane???
Takze opet - proc si nevezmete z banky pujcku (nebo hypoteku) a nevyzkousite to sam? Neverite si tolik? Kdyz odecteme cenu jiz vami investovaneho casu (coz byste si sam sobe pochopitelne neplatil), tak sehnat 400 tisic neni problem - pochopitelne pokud s navratnosti nekecate.
4. 2. 2010 16:29
Re: Odpovědi
Ja jen rikam, ze byli v podobne situaci:
puvodne chteli jen prodat algoritmus a investora hledali 3 roky.
Ad algoritmus: spise to prvni.
"Jen muj notebook zvladne tisickrat vice."
I Vy vtipalku jeden.
Dane se plati z prijmu, jak pravdepodobne vite.
Tedy ze zakladu dane...
Dluhy jsou cesta do pekel.
puvodne chteli jen prodat algoritmus a investora hledali 3 roky.
Ad algoritmus: spise to prvni.
"Jen muj notebook zvladne tisickrat vice."
I Vy vtipalku jeden.
Dane se plati z prijmu, jak pravdepodobne vite.
Tedy ze zakladu dane...
Dluhy jsou cesta do pekel.
0_o (neregistrovaný)
---.la.net.ua
4. 2. 2010 16:48
Re: Odpovědi
A promarněná investice cizích lidí není cestou do pekel??? Máte zvláštní uvažování. Kdyby jste si věřil, nebál by jste si půjčit.
4. 2. 2010 16:55
Re: Odpovědi
Ja odpovidam na dotazy investoru pravdive.
S moralnich i pravnich duvodu.
Je na nich, aby se pro investici rozhodli, nebo nikoli.
A, sorry, z Vasich dotazu plyne, ze jste spise stoura, nez investor.
S moralnich i pravnich duvodu.
Je na nich, aby se pro investici rozhodli, nebo nikoli.
A, sorry, z Vasich dotazu plyne, ze jste spise stoura, nez investor.
ondra.novacisko.cz (neregistrovaný)
---.seznam.cz
4. 2. 2010 17:40
Re: Odpovědi
A vy si myslíte, že investoři nebudou štourat? Co když tady diskutujete s potencionálními investory, kteří se vás snaží nachytat v nedbalkách? Nikdo nedá prachy jen tak někomu. A možná že svým postojem spíš investory odháníte.
A nemyslete si, že poznáte investora, který Vám na začátek řekne, že Vám prachy nedá. Nikdy nevíte, jestli to myslí vážně, nebo si s Vámi jen tak hraje.
A žádný investor Vám nepodepíše smlouvu, aniž by věděl co se bude dělat, jaký bude rozpočet. A bez smlouvy nemáte nikdy jistotu, že to co s Vámi mluvi je investor, klidně to může být Vaše konkurence, člověk se Seznamu, který se snaží získat co nejvíc informací, nebo novinář z IT magazínu. Trochu začarovaný kruh, který lze vyřešit jedině tak, že rozjedete podnikání na vlastní triko a prodávat budete až hotový produkt.
Mimochodem, milion není až tolik peněz. Pokud máte nemovitost, tak Vám to dá každá banka. Ani nebude chtít vědět na co. Vím to, mám barák na hypo s mnohem větší částkou.
A nemyslete si, že poznáte investora, který Vám na začátek řekne, že Vám prachy nedá. Nikdy nevíte, jestli to myslí vážně, nebo si s Vámi jen tak hraje.
A žádný investor Vám nepodepíše smlouvu, aniž by věděl co se bude dělat, jaký bude rozpočet. A bez smlouvy nemáte nikdy jistotu, že to co s Vámi mluvi je investor, klidně to může být Vaše konkurence, člověk se Seznamu, který se snaží získat co nejvíc informací, nebo novinář z IT magazínu. Trochu začarovaný kruh, který lze vyřešit jedině tak, že rozjedete podnikání na vlastní triko a prodávat budete až hotový produkt.
Mimochodem, milion není až tolik peněz. Pokud máte nemovitost, tak Vám to dá každá banka. Ani nebude chtít vědět na co. Vím to, mám barák na hypo s mnohem větší částkou.
Abraxis (neregistrovaný)
---.tatrabanka.sk
4. 2. 2010 18:04
Re: Odpovědi
OK, takze kdyz to prvni (jen hledaci a indexovaci algoritmus), tak nepotrebujete stahovat vsechny komponenty, staci jen jejich metadata.
Notebook - se svym 2-core notebookem klidne 1000 TCP req/s klidne udelam (otazka je, co linka, samozrejme muselo by byt to kam rychle ukladat atd. atd.). A vubec - cim vy mate podlozenych tech 10 req/s a nevite, ze to nebude treba 100 nebo 0.1?
S tim danovym priznanim jste zacal vy - tvrdil jste, ze z pohledu danoveho priznani je jedno, zda jste do projektu investoval svuj cas a ze "To je totez (dle danoveho priznani)." (totez jako penize).
Dluhy sou cesta do pekel, ale investora to neboli???
Notebook - se svym 2-core notebookem klidne 1000 TCP req/s klidne udelam (otazka je, co linka, samozrejme muselo by byt to kam rychle ukladat atd. atd.). A vubec - cim vy mate podlozenych tech 10 req/s a nevite, ze to nebude treba 100 nebo 0.1?
S tim danovym priznanim jste zacal vy - tvrdil jste, ze z pohledu danoveho priznani je jedno, zda jste do projektu investoval svuj cas a ze "To je totez (dle danoveho priznani)." (totez jako penize).
Dluhy sou cesta do pekel, ale investora to neboli???
4. 2. 2010 18:20
Re: Odpovědi
K te rychlosti, skutecne se musim pousmat.
Pokud budete stahovat stranky o autech z USA, vcetne obrazku apod., rad bych videl tu Vasi rychlost.
O tom totiz nerozhodujete Vy, ale Internet.
Pujcky je neco jineho nez investice.
To byste mohl chapat.
Pokud budete stahovat stranky o autech z USA, vcetne obrazku apod., rad bych videl tu Vasi rychlost.
O tom totiz nerozhodujete Vy, ale Internet.
Pujcky je neco jineho nez investice.
To byste mohl chapat.
lolek (neregistrovaný)
---.hsd1.pa.comcast.net
4. 2. 2010 18:29
Re: Odpovědi
Půjčka se musí vracet :)
Abraxis (neregistrovaný)
---.tatrabanka.sk
4. 2. 2010 18:30
Re: Odpovědi
A to snad je takovy problem pronajmout si VPS v USA? Spis naopak - je to levnejsi nez u nas!
A investor snad nechce, aby se mu penize vratili?
A investor snad nechce, aby se mu penize vratili?
4. 2. 2010 18:42
Re: Odpovědi
Ja nedelam hledac pro US.
Nikoli, investice se navraci.
Akorat mozny zisk...
Nikoli, investice se navraci.
Akorat mozny zisk...
lojza (neregistrovaný)
81.90.252.---
4. 2. 2010 20:22
Re: Odpovědi
A: Notebook - se svym 2-core notebookem klidne 1000 TCP req/s klidne udelam
PH: Pokud budete stahovat stranky o autech z USA, vcetne obrazku apod., rad bych videl tu Vasi rychlost.
A: A to snad je takovy problem pronajmout si VPS v USA?
PH: Ja nedelam hledac pro US.
:-D
PH: Pokud budete stahovat stranky o autech z USA, vcetne obrazku apod., rad bych videl tu Vasi rychlost.
A: A to snad je takovy problem pronajmout si VPS v USA?
PH: Ja nedelam hledac pro US.
:-D
Abraxis (neregistrovaný)
---.chello.sk
4. 2. 2010 23:42
Re: Odpovědi
Tak si proste pronajmes VPS na kazdem kontinentu. A v cem je tedy ten problem?
5. 2. 2010 0:39
Re: Odpovědi
Ha, ja, uz se vidim, jak se s Cinanama dohaduju na pronajmu serveru. Nejaky dalsi vtip?
Abraxis (neregistrovaný)
---.chello.sk
5. 2. 2010 1:10
Re: Odpovědi
http://www.google.com/search?source=ig&hl=en&rlz=&=&q=china+vps&btnG=Google+Search
(P.S. Drobny hint - Asie != China)
nejaky dalsi problem?
(P.S. Drobny hint - Asie != China)
nejaky dalsi problem?
lojza (neregistrovaný)
81.90.252.---
4. 2. 2010 21:36
Re: Odpovědi
Jak jste přišel na těch 10 requestů za vteřinu a proč to počítáte přes requesty a vůbec nezohledňujete předpokládaný objem dat a tloušťku drátu? Nebo je to taky tajná informace?
4. 2. 2010 21:39
Re: Odpovědi
Je to odhad.
A nezavisi to uplne jen na tloustce dratu,
ale i na pruchodnosti cele cesty internetem,
od zdroje stranek ke mne.
A nezavisi to uplne jen na tloustce dratu,
ale i na pruchodnosti cele cesty internetem,
od zdroje stranek ke mne.
5. 2. 2010 0:38
Re: Odpovědi
Na me zkusenosti ze stahovani stranek z Netu.
Jiz jsme kdysi naprogramoval rozsahly system konverzi mezi Webem a SMS, kde jsm stranky stahoval a rozebiral.
Sorry, Vase 1000 nedava smysl.
Jiz jsme kdysi naprogramoval rozsahly system konverzi mezi Webem a SMS, kde jsm stranky stahoval a rozebiral.
Sorry, Vase 1000 nedava smysl.
Abraxis (neregistrovaný)
---.chello.sk
5. 2. 2010 1:11
Re: Odpovědi
Kdysi? A ze treba technologie nejak pokrocila, mame tady vice-core CPU apod. apod?
5. 2. 2010 1:15
Re: Odpovědi
Rychlost pripojeni a vykonnost serveru jsou jen jedna polovina mince.
Druha je celkova rychlost Internetu, tedy "vzdalenost" stahovane stranky od stahovaciho serveru.
Druha je celkova rychlost Internetu, tedy "vzdalenost" stahovane stranky od stahovaciho serveru.
lojza (neregistrovaný)
81.90.252.---
5. 2. 2010 6:01
Re: Odpovědi
A to vás nenapadlo, že to co vás hlavně omezuje je vaše strana drátu a když druhá strana neodpovídá dostatečně rychle, tak můžete jet víc stahování najednou, abyste ten váš drát vytížil?
5. 2. 2010 8:49
Re: Odpovědi
Requesty se vysilaji jak rychle to pujde.
I kdybych pripustil Vasi tisicovku za vterinu,
je to porad jeste 9 mesicu, coz je moc.
Ja to potrebuju, vzhledem k casovemu planu,
stahnout cca za mesic.
Pote budou nasledovat vypocty poradi,
coz take neni legrace, nebot v pripade dvou kriterii se jedna o iterace nad mnoha objekty.
A pote optimalizace vah.
Tohle uz neni legrace, s investory podepisuji pravne zavazne smlouvy, kde je i termin vyhotoveni minihledace.
Muj odhad v minimalni variante je jeden velky server s rychlym pripojenim, v maximalni variante 5 hodne velkych serveru se superrychlym pripojenim.
Ktera varianta je spravna,
tedy kolik WWW stranek bude treba stahnout,
se ukaze az pri optimalizaci vah kriterii.
I kdybych pripustil Vasi tisicovku za vterinu,
je to porad jeste 9 mesicu, coz je moc.
Ja to potrebuju, vzhledem k casovemu planu,
stahnout cca za mesic.
Pote budou nasledovat vypocty poradi,
coz take neni legrace, nebot v pripade dvou kriterii se jedna o iterace nad mnoha objekty.
A pote optimalizace vah.
Tohle uz neni legrace, s investory podepisuji pravne zavazne smlouvy, kde je i termin vyhotoveni minihledace.
Muj odhad v minimalni variante je jeden velky server s rychlym pripojenim, v maximalni variante 5 hodne velkych serveru se superrychlym pripojenim.
Ktera varianta je spravna,
tedy kolik WWW stranek bude treba stahnout,
se ukaze az pri optimalizaci vah kriterii.
lojza (neregistrovaný)
81.90.252.---
5. 2. 2010 9:16
Re: Odpovědi
1. ta tisícovka neni moje, já jen citoval někoho jiného
2. kdybyste připustil tisícovku, tak je to 28,93 dní
ta vaše desítka je výsledkem nějakého experimentu (a jaké byly parametry) nebo je to vycucané z prstu?
2. kdybyste připustil tisícovku, tak je to 28,93 dní
ta vaše desítka je výsledkem nějakého experimentu (a jaké byly parametry) nebo je to vycucané z prstu?
lojza (neregistrovaný)
81.90.252.---
5. 2. 2010 9:41
Re: Odpovědi
asi vám možná přesně nerozumím, ale když jste při 10 req/s vypočítal stahování 7 let, tak když to bude 100x rychlejší (1000req/s), tak to bude trvat 100x menší dobu.
Vycházel ten odhad z nějakých technický parametrů použitého stroje a připojení?
Vycházel ten odhad z nějakých technický parametrů použitého stroje a připojení?
ondra.novacisko.cz (neregistrovaný)
---.seznam.cz
5. 2. 2010 9:51
Re: Odpovědi
Nic nemá spočítaný. Už jenom těch 250mil stránek. Všechno co tu řiká jen má zakrýt velký pozlacený prd.
Na posouzení kvality hledání není potřeba 250mil stránek. To že nějaká stránka není ve vyhledávání není chyba kvality. Měří se většinou to, jak moc je stránka relevantní vůči svému pořadí. Takže lze začínat s menším množstvím dokumentů, klidně i s 1000x menším. Tolik stránek nesosá ani Seznam, který má několik desítek downloaderů. Už proto, že mnoho stránek se musí stahovat několikrát denně, kvůli aktualizaci. To co vyhledávače spíš honí je právě ta aktualita, než úplnost souboru. Ano, je pěkné, když je vyhledávač úspěšný i v long-tailu, ale z hlediska komerční úspěšnosti to není až tak důležitý. Což se ukazuje na oblíbenosti Seznam vs Google. I když Seznam má horší vyhledávání, než Google, přesto v něm uživatelé hledají a nacházejí.
Na posouzení kvality hledání není potřeba 250mil stránek. To že nějaká stránka není ve vyhledávání není chyba kvality. Měří se většinou to, jak moc je stránka relevantní vůči svému pořadí. Takže lze začínat s menším množstvím dokumentů, klidně i s 1000x menším. Tolik stránek nesosá ani Seznam, který má několik desítek downloaderů. Už proto, že mnoho stránek se musí stahovat několikrát denně, kvůli aktualizaci. To co vyhledávače spíš honí je právě ta aktualita, než úplnost souboru. Ano, je pěkné, když je vyhledávač úspěšný i v long-tailu, ale z hlediska komerční úspěšnosti to není až tak důležitý. Což se ukazuje na oblíbenosti Seznam vs Google. I když Seznam má horší vyhledávání, než Google, přesto v něm uživatelé hledají a nacházejí.
5. 2. 2010 10:01
Re: Odpovědi
Jedna se o zpetne linky.
Ty nelze legalne ziskat jinak,
nez crawlovanim urcite "nezanebtalene" mnoziny stranek z Netu.
A ja nedelam cesky hledac, ja delam svetovy hledac,
takze ten pocet stranek je trosku vetsi.
Napriklad Google da na "cars" pres 400 milionu linku.
Ty nelze legalne ziskat jinak,
nez crawlovanim urcite "nezanebtalene" mnoziny stranek z Netu.
A ja nedelam cesky hledac, ja delam svetovy hledac,
takze ten pocet stranek je trosku vetsi.
Napriklad Google da na "cars" pres 400 milionu linku.
lojza (neregistrovaný)
81.90.252.---
5. 2. 2010 10:10
Re: Odpovědi
A děláte teď "minihledač" na ověření algoritmu, nebo už chcete jet na ostro?
5. 2. 2010 10:16
Re: Odpovědi
Na overeni algoritmu.
Minihledac bude mit omezeny pocet klicovych slov (cca 50) a omezeny pocet prohledavanych stranek (50 tisic az 250 milionu).
Ovsem samozrejme bude psan tak, aby se z nej po odstraneni techto technickych omezeni mohl stat plnohodnotny hledac, nebo aspon jeho jadro.
Vysledkem minihledace bude, ze na leve pulce obrazovky uvidite moje poradi, na prave polovine poradi Google a budete to moci porovnat.
Potencialni kupec algoritmu si bude moci zvolit vlastni testovaci klicova slova, ktera mu muj minihledac v rozumne dobe schrousta, a takle vlastni metriku porovnani kvality poradi linku.
Minihledac bude mit omezeny pocet klicovych slov (cca 50) a omezeny pocet prohledavanych stranek (50 tisic az 250 milionu).
Ovsem samozrejme bude psan tak, aby se z nej po odstraneni techto technickych omezeni mohl stat plnohodnotny hledac, nebo aspon jeho jadro.
Vysledkem minihledace bude, ze na leve pulce obrazovky uvidite moje poradi, na prave polovine poradi Google a budete to moci porovnat.
Potencialni kupec algoritmu si bude moci zvolit vlastni testovaci klicova slova, ktera mu muj minihledac v rozumne dobe schrousta, a takle vlastni metriku porovnani kvality poradi linku.
Petr (neregistrovaný)
93.99.73.---
5. 2. 2010 10:52
Re: Odpovědi
To je nesmyslné zadání. Omezit můžete počet prohledávaných stránek, ale vracet výsledky to musí na KAŽDÉ slovo které se v těch zaindexovaných stránkách objeví.
Jinak neděláte nic jiného než automaticky generovaný katalog, kdy si dopředu určíte několik desítek/stovek frází a na ně si připravíte výsledky. To lidi pak ani nemusíte trápit tím že to slovo budou zadávat, dejte jim rovnou seznam ze kterých slov si mohou vybrat.
Jinak neděláte nic jiného než automaticky generovaný katalog, kdy si dopředu určíte několik desítek/stovek frází a na ně si připravíte výsledky. To lidi pak ani nemusíte trápit tím že to slovo budou zadávat, dejte jim rovnou seznam ze kterých slov si mohou vybrat.
5. 2. 2010 11:00
Re: Odpovědi
Nikoli, ja tech 50 klicovych slov budu pouzivat pro srovnani s Googlem, na to pouziji svoji metriku, pripadne si potencialni kupce bude moci zvolit vlastni metriku.
Katalog = seznam, to ja nedelam.
Ale tech 50 klicovych slov bude predem dano.
Potencialni kupec algoritmu si bude moci zvolit vlastni klicova slova, pro ktera mu muj minihledac schrousta jinou mnozinu stranek. Ale nikoli online, bude to nejaky cas trvat.
Katalog = seznam, to ja nedelam.
Ale tech 50 klicovych slov bude predem dano.
Potencialni kupec algoritmu si bude moci zvolit vlastni klicova slova, pro ktera mu muj minihledac schrousta jinou mnozinu stranek. Ale nikoli online, bude to nejaky cas trvat.
uživatel si přál zůstat v anonymitě
---.dobris.net
14. 2. 2010 19:12
Názor a rada
Tím pádem ale nedostanete relevantní výsledek ani relevantní porovnání s googlem. Vámi předpokládané množství předvybraných slov či frází nebude v předpokládaném množství dostatečně kvalitním reprezentativním vzorkem celého obsahu internetu. Vzhledem k předpokládanému množství se spíše dá říci, že to bude naprosto nekvalitní vzorek a tím pádem i výsledek zpracování i porovnání s googlem.
Na druhou stranu stále můžete mít pravdu vy a ne já, neznám totiž váš algoritmus pro zpracování. Výše uvedený názor je postaven an informacích, které jste doposud poskytnul.
Poradím vám něco trošku jiného než jít do banky a půjčit si, když si na to dost nevěříte. Zkuste podnikatelský inkubátor - bude to pro prvotní testování levnější. Většinou spolupracují s vysokými školami a budou schopni vás pustit na velmi výkonný HW s parádní linkou do internetu (nejen přes NIC) a mají i IT odborníky, kteří vám budou schopni dát podporu a znalosti...
Tuším že při Brněnském VUT něco takového jede a při pražském CVUT také.
Hodně štěstí
Na druhou stranu stále můžete mít pravdu vy a ne já, neznám totiž váš algoritmus pro zpracování. Výše uvedený názor je postaven an informacích, které jste doposud poskytnul.
Poradím vám něco trošku jiného než jít do banky a půjčit si, když si na to dost nevěříte. Zkuste podnikatelský inkubátor - bude to pro prvotní testování levnější. Většinou spolupracují s vysokými školami a budou schopni vás pustit na velmi výkonný HW s parádní linkou do internetu (nejen přes NIC) a mají i IT odborníky, kteří vám budou schopni dát podporu a znalosti...
Tuším že při Brněnském VUT něco takového jede a při pražském CVUT také.
Hodně štěstí
5. 2. 2010 9:58
Re: Odpovědi
Sorry, s tisici requesty by to bylo asi 30 dni.
Ale to je podle mne neralne...
Ale to je podle mne neralne...
5. 2. 2010 13:19
Re: Odpovědi
Je v tom zapocitana stredni doba poruchy pocitace a pripadne vymeny elektronek ? :-))))
5. 2. 2010 13:22
Re: Odpovědi
Ale, ale, elektronky se uz par let nepouzivaji,
tedka prece leti tranzistory :-)
A k tem porucham pocitace:
tedka melo UPC nekolikahodinovy globalni vypadek
(i kdyz jinak jsem s nimi spokojen).
tedka prece leti tranzistory :-)
A k tem porucham pocitace:
tedka melo UPC nekolikahodinovy globalni vypadek
(i kdyz jinak jsem s nimi spokojen).
ondra.novacisko.cz (neregistrovaný)
---.seznam.cz
4. 2. 2010 7:59
Re: Odpovědi
Proč 250mil stránek? To Vám k vyhodnocení kvality nebude stačit index s velikosti tisíce maximálně milion stránek? 250mil stránek ještě nedávno (rok dva dozadu) neměl ani Seznam.
Věděl jste, že první crawler od dvojky Lukačovič-Škrob byl tuším Perlu? (vyhledávač byl v C). Na začátek to stačilo.
Proč obrázky? Pokud vám jde jen náhledy stránek, tak ty nemusíte vůbec programovat. Pokud Váš algoritmus vyžaduje náhledy stránek, tak si je nechte vygenerovat na internetu. Tuhle službu nabízí i Seznam a myslím že je to zdarma. Nebo zkuste tohle: http://www.web-screenshots.com/
Jinak dneska můžete vzít kde jakou o generaci starší šunku a strčit jí do libovolného serverhostingu. Ty ceny nejsou tak hrozné. A nebo si zaplaťit virtuální server hosting, na začátek to určitě postačí (ceny jsou od 300kč na měsíc, pokud jste IT aktivní, tak mít vlastní veřejný server se úrčitě vyplatí). O výkon bych se nebál, spíš si dát pozor jen na datové přenosy. Ale hostingy často spíš sledují odchozí trafic, než příchozí. Ale to určitě jako majitel 21 serverů jistě znáte. A vůbec, určitě máte s tím zkušenosti. Já jsem takhle rozbíhal jen 2 servery, jeden na virtuálu a jeden fyzicky ale nějak mám pocit, že o tom vím víc, než vy.
Věděl jste, že první crawler od dvojky Lukačovič-Škrob byl tuším Perlu? (vyhledávač byl v C). Na začátek to stačilo.
Proč obrázky? Pokud vám jde jen náhledy stránek, tak ty nemusíte vůbec programovat. Pokud Váš algoritmus vyžaduje náhledy stránek, tak si je nechte vygenerovat na internetu. Tuhle službu nabízí i Seznam a myslím že je to zdarma. Nebo zkuste tohle: http://www.web-screenshots.com/
Jinak dneska můžete vzít kde jakou o generaci starší šunku a strčit jí do libovolného serverhostingu. Ty ceny nejsou tak hrozné. A nebo si zaplaťit virtuální server hosting, na začátek to určitě postačí (ceny jsou od 300kč na měsíc, pokud jste IT aktivní, tak mít vlastní veřejný server se úrčitě vyplatí). O výkon bych se nebál, spíš si dát pozor jen na datové přenosy. Ale hostingy často spíš sledují odchozí trafic, než příchozí. Ale to určitě jako majitel 21 serverů jistě znáte. A vůbec, určitě máte s tím zkušenosti. Já jsem takhle rozbíhal jen 2 servery, jeden na virtuálu a jeden fyzicky ale nějak mám pocit, že o tom vím víc, než vy.
Petr (neregistrovaný)
93.99.73.---
4. 2. 2010 8:20
Re: Odpovědi
To nejde, moc by to snížilo cenu. Základ totiž je že chce 1 milion a z toho si 600.000,- okamžitě vezme jako výplatu za "práci kterou odvedl za posledních X let".
Takže pokud by snížil snížil náklady z 400 třeba jen na 100 tisíc, taky by tuplem blbě vypadalo že si z toho 600 vezme pro sebe a do projektu investuje jen 100 tisíc. No a tu výplatu pro sebe si samozřejmě snížit nemůže, vždyť na tom přece intenzivně makal několik let a za to si zaslouží zaplatit! :-)
Takže pokud by snížil snížil náklady z 400 třeba jen na 100 tisíc, taky by tuplem blbě vypadalo že si z toho 600 vezme pro sebe a do projektu investuje jen 100 tisíc. No a tu výplatu pro sebe si samozřejmě snížit nemůže, vždyť na tom přece intenzivně makal několik let a za to si zaslouží zaplatit! :-)
ondra.novacisko.cz (neregistrovaný)
---.seznam.cz
4. 2. 2010 8:28
Re: Odpovědi
Pak je otázka, zda to chce dělat pro přínos nebo pro prachy. Vím, že dnes je v móde dělat vše pro prachy, ale bez přínosu to ty prachy nevydělá. Tedy bez jakéhosi úsilí vivinout za minimum peněz nějaké technologické demo se to prostě neobejde. A investor chce vidět něco fungujícího, byť to zatím nedosahuje požadovaného výkonu. Kolikrát investor vrazil peníze do garážového projektu, pokud ten garážový projekt fungoval a měl ambice. Opravdu málo investorů vloží prachy jen do myšlenky. Maximálně tak v případě, že investor je zároveň ten nadšenec, ale to je snad lepší hrát sportku.
4. 2. 2010 9:35
Re: Odpovědi
Prodejem algoritmu chci vydelat prachy pro mne i pro investory. Nic vic, nic min.
4. 2. 2010 9:16
Re: Odpovědi
Nebude, skrzeva zpetne odkazy.
Hledac Seznamu: pred vice nez 10 lety.
Od te doby Net o kouske nabobtnal.
Ad obrazky: pro muj algoritmus potrebuji vsechny komponenty.
Se screeny to nema co delat.
Ha, ha, pro 250 milionu stranek se vsemi komponentami.
Zkuste kupecke pocty.
Hledac Seznamu: pred vice nez 10 lety.
Od te doby Net o kouske nabobtnal.
Ad obrazky: pro muj algoritmus potrebuji vsechny komponenty.
Se screeny to nema co delat.
Ha, ha, pro 250 milionu stranek se vsemi komponentami.
Zkuste kupecke pocty.
ondra.novacisko.cz (neregistrovaný)
---.seznam.cz
4. 2. 2010 9:38
Re: Odpovědi
> Nebude, skrzeva zpetne odkazy.
Jo to chápu. Považujete zpětné odkazy za důležité, protože vaše linkfarmy jsou na nich závislé. Ale ani seznam nemá šanci nasosat všechny stránky a vyhodnotit všechny zpětné odkazy.
> Hledac Seznamu: pred vice nez 10 lety.
> Od te doby Net o kouske nabobtnal.
Pro Vaši informaci. Teoreticky jste schopen vytvořit web s nekonečně mnoha stránek. Robot totiž nepozná, zda stránka je statická nebo generovaná. Vemte si třeba generátory náhodného textu. Pokud tam robot zabloudí, tak se tam ztratí. Proto crawlery ani nemají ochotu sosat "všechny" stránky. Upozorňuji Vás, že před takovými třemi roky měl Seznam kapacitu na maximálne 20 mil stránek a víc se tam prostě nevešlo.
> Ad obrazky: pro muj algoritmus potrebuji vsechny komponenty.
A co s nimi proboha chce dělat? Bude nějak hodnotit bitové poslopnousti? Plánujete nějak parsovat a vyhodnocovat obsah těch souborů? Co budete hledat v MP3? Maximálne název písničky, ale tam není třeba stahovat celou MP3. Nehlědě na to, že legálních MP3 je na internetu procento a zbytek jsou polo/nelegální ripy, které tyto informace neobsahují.
Co budete hledat v obrázku? Meta informace, třeba jak byl zaostřen objektiv a jaká byla clona? Nehledě na to, že 99% obrázku tuto informaci nemá, často zcela záměrně.
>Ha, ha, pro 250 milionu stranek se vsemi komponentami.
>Zkuste kupecke pocty.
Zaprvé, netuším jak jste přišel na 250 milionů stránek. Jestli berete nějaké oficiální statistiky vyhledávačů (možná ze Seznamu), tak vězte, že třeba Seznam nasosá mnohem víc unikátních stránek , než je v databázi a obrovské množství z toho zahodí, protože jsou to buď duplicity, spam, stránky bez textu, nebo něco, co se nedá rozparsovat, nebo prostě proto, že stránka nepřináší nic nového, nebo site, která stránku obsahuje nemá dostačnou vyhledávatelnost či návštěvnost na to, aby měla tolik zaindexovaných stránek.
Za druhé, jak říkám, nepotřebujete stahovat všechny stránky pro vyhodnocení fungování algoritmu. Klidně si stáhněte statistiky z TOPlistu a použijte seznam jako výchozí seznam url pro crawlování. Například stáhněte co nejvíc stránek z každé site v toplistu, co se nachází dostatečně vysoko. Garantuju Vám, že budete mít dost dat abyste obsáhl větší půlku českého internetu, včetně hodnotných zpětných odkazů.
Jo to chápu. Považujete zpětné odkazy za důležité, protože vaše linkfarmy jsou na nich závislé. Ale ani seznam nemá šanci nasosat všechny stránky a vyhodnotit všechny zpětné odkazy.
> Hledac Seznamu: pred vice nez 10 lety.
> Od te doby Net o kouske nabobtnal.
Pro Vaši informaci. Teoreticky jste schopen vytvořit web s nekonečně mnoha stránek. Robot totiž nepozná, zda stránka je statická nebo generovaná. Vemte si třeba generátory náhodného textu. Pokud tam robot zabloudí, tak se tam ztratí. Proto crawlery ani nemají ochotu sosat "všechny" stránky. Upozorňuji Vás, že před takovými třemi roky měl Seznam kapacitu na maximálne 20 mil stránek a víc se tam prostě nevešlo.
> Ad obrazky: pro muj algoritmus potrebuji vsechny komponenty.
A co s nimi proboha chce dělat? Bude nějak hodnotit bitové poslopnousti? Plánujete nějak parsovat a vyhodnocovat obsah těch souborů? Co budete hledat v MP3? Maximálne název písničky, ale tam není třeba stahovat celou MP3. Nehlědě na to, že legálních MP3 je na internetu procento a zbytek jsou polo/nelegální ripy, které tyto informace neobsahují.
Co budete hledat v obrázku? Meta informace, třeba jak byl zaostřen objektiv a jaká byla clona? Nehledě na to, že 99% obrázku tuto informaci nemá, často zcela záměrně.
>Ha, ha, pro 250 milionu stranek se vsemi komponentami.
>Zkuste kupecke pocty.
Zaprvé, netuším jak jste přišel na 250 milionů stránek. Jestli berete nějaké oficiální statistiky vyhledávačů (možná ze Seznamu), tak vězte, že třeba Seznam nasosá mnohem víc unikátních stránek , než je v databázi a obrovské množství z toho zahodí, protože jsou to buď duplicity, spam, stránky bez textu, nebo něco, co se nedá rozparsovat, nebo prostě proto, že stránka nepřináší nic nového, nebo site, která stránku obsahuje nemá dostačnou vyhledávatelnost či návštěvnost na to, aby měla tolik zaindexovaných stránek.
Za druhé, jak říkám, nepotřebujete stahovat všechny stránky pro vyhodnocení fungování algoritmu. Klidně si stáhněte statistiky z TOPlistu a použijte seznam jako výchozí seznam url pro crawlování. Například stáhněte co nejvíc stránek z každé site v toplistu, co se nachází dostatečně vysoko. Garantuju Vám, že budete mít dost dat abyste obsáhl větší půlku českého internetu, včetně hodnotných zpětných odkazů.
4. 2. 2010 9:44
Re: Odpovědi
Moje stranky jsou zde OT.
"A co s nimi proboha chce dělat?"
To je prave ten mij figl.
Samozrejme chapete, ze Vam jej neprozradim.
250 milionu: skrzeva zpetne linky.
Napr. Google da na "Morava" cca 5 milionu stranek,
na "cars" pres 400 milionu stranek.
A to jsou klicova slova, kter abudu pouzivat pro optimalizaci vah kriterii.
"A co s nimi proboha chce dělat?"
To je prave ten mij figl.
Samozrejme chapete, ze Vam jej neprozradim.
250 milionu: skrzeva zpetne linky.
Napr. Google da na "Morava" cca 5 milionu stranek,
na "cars" pres 400 milionu stranek.
A to jsou klicova slova, kter abudu pouzivat pro optimalizaci vah kriterii.
ondra.novacisko.cz (neregistrovaný)
---.seznam.cz
4. 2. 2010 9:53
Re: Odpovědi
A vy těm odhadům věříte? Vy si opravdu myslíte, že google počítá kolik výsledků dá na nějaký dotaz? To číslo se odhaduje, třeba z velikosti záznamu, který je v bajtech a podělí se nějakou průměrnou hodnotou velikosti výsledku v bajtech.
Proboha a takový člověk má prý nějaký algoritmus :-D. Začíná mi to připomínat prodej velkého kulového.
Proboha a takový člověk má prý nějaký algoritmus :-D. Začíná mi to připomínat prodej velkého kulového.
ondra.novacisko.cz (neregistrovaný)
---.seznam.cz
4. 2. 2010 9:58
Re: Odpovědi
Mimochodem, porovnejte tenhle odhad třeba na Seznamu
http://search.seznam.cz/?q=uk%C3%A1zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF&count=10&pId=sBUDxta6C-nDl1lMJZ-I&from=1
http://search.seznam.cz/?q=uk%C3%A1zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF&count=10&pId=sBUDxta6C-nDl1lMJZ-I&from=999
a na Google
http://www.google.com/#hl=en&safe=off&q=uk%C3%A1zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF&start=1&sa=N&fp=a048890d3c90c6fc
http://www.google.com/#hl=en&safe=off&q=uk%C3%A1zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF&start=990&sa=N&fp=a048890d3c90c6fc
http://search.seznam.cz/?q=uk%C3%A1zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF&count=10&pId=sBUDxta6C-nDl1lMJZ-I&from=1
http://search.seznam.cz/?q=uk%C3%A1zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF&count=10&pId=sBUDxta6C-nDl1lMJZ-I&from=999
a na Google
http://www.google.com/#hl=en&safe=off&q=uk%C3%A1zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF&start=1&sa=N&fp=a048890d3c90c6fc
http://www.google.com/#hl=en&safe=off&q=uk%C3%A1zka+po%C4%8Dtu+v%C3%BDsledk%C5%AF&start=990&sa=N&fp=a048890d3c90c6fc
4. 2. 2010 10:00
Re: Odpovědi
Sorry, jednak nechapu, jednak si myslim,
ze diskuze s Vami nema smysl, viz Vase neslusne
vyjadreni ve Vasem predchozim prispevku.
ze diskuze s Vami nema smysl, viz Vase neslusne
vyjadreni ve Vasem predchozim prispevku.
ondra.novacisko.cz (neregistrovaný)
---.seznam.cz
4. 2. 2010 10:03
Re: Odpovědi
No tak to jste možná přišel o investora :-D
4. 2. 2010 10:07
Re: Odpovědi
No podle Vaseho drivejsiho vyjadreni nemusim litovat.
Dokazete si predstavit nasi obchodni komunikaci po Vasem neslusnem vyroku?
Sorry, ja nikoli.
Nechci, aby to znelo pysne, ale i ja si mezi investory do urcite miry vybiram.
Dokazete si predstavit nasi obchodni komunikaci po Vasem neslusnem vyroku?
Sorry, ja nikoli.
Nechci, aby to znelo pysne, ale i ja si mezi investory do urcite miry vybiram.
Petr (neregistrovaný)
93.99.73.---
4. 2. 2010 9:55
Re: Odpovědi
To číslo 400 milionů je jen odhad, neznamená to že má přesně 400 milionů stránek s tímto slovem ve své databázi. Ani při listování je neukáže, končí na zobrazení tisícího odkazu - http://www.google.cz/search?hl=cs&lr=&safe=off&q=cars&start=990&sa=N
Google totiž není magor aby si myslel že pro správné vyhledávání musí mít zaindexovaný VEŠKERÝ obsah internetu. Navíc to ani z principu není možné, stránky se neustále mění, vznikají a zanikají. Proto je potřeba nejdříve zaindexovat pár "důležitých" stránek a až potom POSTUPNĚ procházet další odkazy. A mezi tím samozřejmě průběžně aktualizovat i starší stránky. Mezi tím ale už musí také fungovat vyhodnocování jednotlivých stránek.
Teorie, že se nejdříve musí VŠE NAČÍST aby se mohlo začít na projektu dále pracovat je nesmyslná. Ani kdyby vám investoři dali místo jednoho miliónu deset miliard tak není technicky možné to realizovat!
Google totiž není magor aby si myslel že pro správné vyhledávání musí mít zaindexovaný VEŠKERÝ obsah internetu. Navíc to ani z principu není možné, stránky se neustále mění, vznikají a zanikají. Proto je potřeba nejdříve zaindexovat pár "důležitých" stránek a až potom POSTUPNĚ procházet další odkazy. A mezi tím samozřejmě průběžně aktualizovat i starší stránky. Mezi tím ale už musí také fungovat vyhodnocování jednotlivých stránek.
Teorie, že se nejdříve musí VŠE NAČÍST aby se mohlo začít na projektu dále pracovat je nesmyslná. Ani kdyby vám investoři dali místo jednoho miliónu deset miliard tak není technicky možné to realizovat!
Erw (neregistrovaný)
195.47.93.---
4. 2. 2010 8:33
Re: Odpovědi
Pane Hejl,
vyrobte alespon ten vyhledavaci formular s jednim polickem, ktery podle Vaseho algoritmu prohledava alespon tech Vasich 21 stranek (prominte, ale nazvat je "servery" nemuzu, urazil bych ostatni tvurce webu).
Tvrdite ze jste na nich svuj algoritmus testoval, tak kde je problem? Takovy formular v PHPku Vam udela podprumerny bastlista za jediny vecer (co je to proti Vasim 4 rokum badani?). Nemusite nic stahovat, zadna data navic nikam ukladat, staci Vam na to vyuzit i jedna z tech 21 stranek, doplnena o ten vyhledavaci formular.
Kdyz budete ukladat vysledky hledani i od tech ostatnich vyhledavajicich, bude pro Vas nasbirany material daleko kvalitnejsi nez mate ted. A mozna se budete divit.
Tak... rukavice je vhozena, doufam, ze ji zvednete.
vyrobte alespon ten vyhledavaci formular s jednim polickem, ktery podle Vaseho algoritmu prohledava alespon tech Vasich 21 stranek (prominte, ale nazvat je "servery" nemuzu, urazil bych ostatni tvurce webu).
Tvrdite ze jste na nich svuj algoritmus testoval, tak kde je problem? Takovy formular v PHPku Vam udela podprumerny bastlista za jediny vecer (co je to proti Vasim 4 rokum badani?). Nemusite nic stahovat, zadna data navic nikam ukladat, staci Vam na to vyuzit i jedna z tech 21 stranek, doplnena o ten vyhledavaci formular.
Kdyz budete ukladat vysledky hledani i od tech ostatnich vyhledavajicich, bude pro Vas nasbirany material daleko kvalitnejsi nez mate ted. A mozna se budete divit.
Tak... rukavice je vhozena, doufam, ze ji zvednete.
ondra.novacisko.cz (neregistrovaný)
---.seznam.cz
4. 2. 2010 8:37
Re: Odpovědi
Nevím jak se to řekně česky, ale on těmi servery myslí spíš asi "sites". Stránka je "1 stránka na obrazovce". "Site" je ucelená skupina stránek tématicky zaměřená. "Server" je pak stanice, která hostuje několik (desítek) "sites".
4. 2. 2010 9:36
Re: Odpovědi
Sorry, nejakch 3000 stranek pro dukaz nestaci.
Ja jich budu stahovat cca 250 milionu.
Ja jich budu stahovat cca 250 milionu.
Erw (neregistrovaný)
195.47.93.---
4. 2. 2010 9:48
Re: Odpovědi.
Vy tady vsem tvrdite (dokonce i na Vasi strance o projektu), ze ten algoritmus mate overeny na svych 21 strankach, tak ukazte alespon to - navod jak na to jsem Vam napsal. Nic vic, nic min.
Pokud ani to nedokazete, nikdo se s Vami o investici bavit nebude, slysel jste to koneckoncu i ve Dni D (a evidentne nepochopil).
Pokud ani to nedokazete, nikdo se s Vami o investici bavit nebude, slysel jste to koneckoncu i ve Dni D (a evidentne nepochopil).
4. 2. 2010 9:51
Re: Odpovědi.
Ale v kontextu s dalsimi cca 1000 WWW strankami.
Samostatne radit me stranky nedava smysl.
Samostatne radit me stranky nedava smysl.
Erw (neregistrovaný)
195.47.93.---
4. 2. 2010 9:59
Re: Odpovědi.
Tvrdite, ze jste svuj algoritmus overil, tak to overeni zopakujte verejne! Predvedte se!
Pokud na to nemate, ztracime tu s Vami cas.
Pokud na to nemate, ztracime tu s Vami cas.
Erw (neregistrovaný)
195.47.93.---
4. 2. 2010 10:35
Re: Odpovědi.
Jinymi slovy, mate prd a chcete za to milion.
Dekuji, nemam zajem.
Dekuji, nemam zajem.
3. 2. 2010 21:12
Re: Odpovědi
"Navstevnost ale nic o kvalite vysledku nic nerika."
Omyl, analytici a burza pouzivaji prave tohle kriterium.
A i zde plati MONEY FIRST.
Omyl, analytici a burza pouzivaji prave tohle kriterium.
A i zde plati MONEY FIRST.
ondra.novacisko.cz (neregistrovaný)
---.seznam.cz
4. 2. 2010 7:36
Re: Odpovědi
- Tohle platí za předpokladu, že jí dokážete měřit
- zárověň to ale generuje velice nepěknou klasnou zpětnou vazbu. Pokud budete lidem nabízet stránky s největší návštěvností, u výsledků s vyrovnanou kvalitou (pokud jich je víc než cca 50, a jako že to je úplně běžné) tak se zjistíte, že návštěvnost podporuje výsledky a výsledky podporují návštěvnost, což ale není vůbec správně (lidé klikají na první odkaz proto, že je prostě první).
Vést statistiku návštěvnosti má nějaký význam v případě, že vysokou návštěvnost sledujete třeba u 9.výsledku. Musí to být ale výrazný rozdíl. Pak lze říct, že ten 9. výsledek je asi relevantnější, protože přilákal víc lidí (a to pracujete jen s tím, že víte, že mnoho uživatelů si URL ani nepamatuje, a na své oblíbené stránky chodí přes vyhledávač napsáním klíčových slov do hledacího okénka). Jinak to totiž o ničem nevypovídá.
Když v LOGu uvidíte, že uživatel otevřel prvních pět výsledků a pak jeho session skončila, co to znamená? Našel na 5. výsledku to co hledal? Je 5. výsledek relevantní? Nebo to našel u 3. výsledku,ale byl jen zvědavý, co je dál? Nebo to nenašel a vzdal to?
- zárověň to ale generuje velice nepěknou klasnou zpětnou vazbu. Pokud budete lidem nabízet stránky s největší návštěvností, u výsledků s vyrovnanou kvalitou (pokud jich je víc než cca 50, a jako že to je úplně běžné) tak se zjistíte, že návštěvnost podporuje výsledky a výsledky podporují návštěvnost, což ale není vůbec správně (lidé klikají na první odkaz proto, že je prostě první).
Vést statistiku návštěvnosti má nějaký význam v případě, že vysokou návštěvnost sledujete třeba u 9.výsledku. Musí to být ale výrazný rozdíl. Pak lze říct, že ten 9. výsledek je asi relevantnější, protože přilákal víc lidí (a to pracujete jen s tím, že víte, že mnoho uživatelů si URL ani nepamatuje, a na své oblíbené stránky chodí přes vyhledávač napsáním klíčových slov do hledacího okénka). Jinak to totiž o ničem nevypovídá.
Když v LOGu uvidíte, že uživatel otevřel prvních pět výsledků a pak jeho session skončila, co to znamená? Našel na 5. výsledku to co hledal? Je 5. výsledek relevantní? Nebo to našel u 3. výsledku,ale byl jen zvědavý, co je dál? Nebo to nenašel a vzdal to?
Petr (neregistrovaný)
93.99.73.---
4. 2. 2010 9:37
Re: Odpovědi
Tak fajn, ale to třeba asi ta vaše lednice.org musí hodně zapadnout, protože podle rychlého pohledu na http://search.seznam.cz/stats?collocation=lednice lidi daleko hledají "ledničky" než město Lednice. ;-)
Statistika prokliků je téměř k ničemu, když z hledaného slova nebo fráze nelze jednoznačně zjistit co přesně uživatel vlastně chtěl. To co pro jednoho byl na toto slovo výborný a užitečný výsledek, je pro druhého výsledek k ničemu.
Statistika prokliků je téměř k ničemu, když z hledaného slova nebo fráze nelze jednoznačně zjistit co přesně uživatel vlastně chtěl. To co pro jednoho byl na toto slovo výborný a užitečný výsledek, je pro druhého výsledek k ničemu.
4. 2. 2010 9:41
Re: Odpovědi
Sorry, ale musim opakovat, frekvence je jen jednim z kriterii.
Lip to nedokazu vysvetlit.
Ale snad analogie:
Navstevnost hledace je jedine kriterium, zda je v realu dobry.
Lip to nedokazu vysvetlit.
Ale snad analogie:
Navstevnost hledace je jedine kriterium, zda je v realu dobry.
3. 2. 2010 21:14
Re: Odpovědi
"Takže otázkou je, zda náhodou neděláte něco hodně podobného."
Nikoli, ja jsem vymyslel novy princip hledani,
podival jsme se na hledani z jineho uhlu pohledu.
Nikoli, ja jsem vymyslel novy princip hledani,
podival jsme se na hledani z jineho uhlu pohledu.