Hlavní navigace

Názory k článku Nové paradigma internetových aplikací

  • 5. 9. 2000 12:17

    David Nebesky (neregistrovaný)
    Nikde nikdo, tak musím začít já :-)

    První otázka je opravdu jen zahřívací. Nemusím o tom příliš přemýšlet a napadají mě desítky možností, kde lze z dat vyseparovat stručnou, jednoznačnou informaci. Jsou to především všechna katalogová čísla čehokoli - ať jsou to ISBN kódy knih, o kterých chci právě teď diskutovat, kódy akcií, s kterými chci právě teď obchodovat, návratový chybový kód v určitém programu, s kterým chci právě teď poradit atd atd...

    Drobný problém samozřejme je v tom, kde ta katalogová čísla vzít. Chci-li si s někým vyměnit dojmy o knize Nicholase Monsarrata Kruté moře, chci si vyměnit dojmy právě o "knize Kruté moře", nikoli o "knize s ISBN 80-7257-231-8". Proměnit název v katalogové číslo však může nějaká aplikace.

    Problém je někde úplně jinde: jak vytvořit obecný nástroj, tedy nástroj, který mi umí nejen najít někoho, s kými si popovídám nějaké knize, ale i někoho, od koho koupím akcie, návod jak si poradit s programem a především cokoli dalšího, na co teď nemyslím. A v obecném případě pravděpodobně stručnou informaci z objemných dat vypreparovat nelze.

    Přeji dobrý den
  • 5. 9. 2000 12:51

    Radek Voltr (neregistrovaný)
    Zdravim, (cestina neprosla jazykovou korekci :-))
    ze clanku jasne vydime ze sila Napsteru je v tom ze nejvetsi cast indexace je provadena klientem na lokalnim disku. V pripade MP3 je vse umocneno tim ze neni treba indexovat obsah strany ale pouze jeji hlavicku.

    Otazka znela : Dalsi mozne implementace.
    Odpoved je jednoducha : Veskere hledace.

    Zacnu u nejrozsirenejsiho - WWW : Budu uvazovat takto - jsem hledaci server.Pro to abych mel velkou navstevnost (a penize) potrebuji aktualni a velke mnozstvi informaci. To v soucasnosti znamena vytvorit indexovaci farmu a mit silne pripojeni pro stahovani web stranek. A prave toto lze distribuci ala Napster prakticky zrusit. Napadaji me dva modely :
    1. Jsem provider obsahu a chci aby me stranky byly nachazeny v databazi hledace (a pokud mozno aktualizovany okamzite a ne jednou za tejden nebo i vic). Pak budu i ochoten neco pro to udelat - napr. poustet klienta ktery bude indexovat me stranky.Ten provede lokalni indexaci, kompresi dat, zasifrovani a odeslani hledaci. Ten pouze zaradi data do databaze a zpristupni je k hledani.

    2.moznost - princip SetiHome - udelam klienta (napr. ve forme screen saveru) a reknu, kazdy kdo me zindexuje urcite mnozstvi stranek na webu dostane x dolaru (nebo jine vyhody).

    Vyhody jsou jasne : Kompresovana data po zpracovani jsou mnohem mensi (napr. staci vyhazet html tagy) a jsou na server dopravovana zabezpecene a po davkach (napr. nebudu posilat data ze sveho serveru v noci pri nizsim provozu serveru).
    Pokud pudeme dal a vytvorime inkrementalni zpracovani muzeme posilat index informaci o kazde strance (ktera bude opravdu mala) a po zabudovani do publikacniho systemu webu je to cinnost automaticka.
    V pripade SetiHome modelu si pak vlastne pronajimam strojovy cas od uzivatelu site (a myslim si ze bych se jich naslo hodne).

    V pripade aplikace tohoto modelu na obchodni databaze (mate obchod - udelejte jeden SQL select kde budou polozky jmeno zbozi,cena,druh , ten zabalte a poslete hledaci)

    Pokud se zamyslime zjistime ze neni nutno ani data indexovat na lokale - staci je predpripravit (treba vyhozenim tagu) a zabalit , a i tak dojde k obrovske uspore komunikace.

    Hledaci tak odpadne nutnost prolejzat i neexistujici stranky. V klientu pak muze byt uvedeno nekolik desitek cilovych serveru (v pripade vypadku jednoho se data poslou na druhy a po najeti si servery vymeni prijata data napr. po LAN).

    Pokud si vemu ze do teto akce by se zapojily servery jako Geocities nebo MujWeb muze dojit celkove ke snizeni provozu na Inetu a i odlehceni samotnych serveru.

    Radek Voltr
    BTW : Pokud by nekdo do toho nekdo z nasich hledacu chtel jit , jsem k disposici.
    BTW2 : To LUPA : Please , trochu vetsi okenko na psani.
  • 5. 9. 2000 13:37

    David Nebesky (neregistrovaný)
    Obávám se, že Váš příspěvek jde trochu mimo: předpokládáte centrum, které by data shromažďovalo a které by odpovídalo na dotazy. To, že by těch center mohlo být více, řeší problém obrany proti "vypnutí" pouze částečně.

    Na druhou stranu myšlenka on-line prohledávání, založená na tom, že by majitel dat automaticky při každé změně odeslal zaindexovaná změněná data, je také zajímavá.

    Ad BTW: proč jen NAŠI hledači?
  • 5. 9. 2000 13:51

    Radek Voltr (neregistrovaný)
    K Vypnuti a Mimo: Myslim si ze Napster pracuje uplne stejne. Nebo ne ??.Vzdycky prece nekde musi byt server, ktery bude data shromazdovat. Mam za to ze i Napster ma server na ktery jsou data odesilana a na kterych uzivatele mohou hledat. Samozrejme ze je mozne aby si kdokoliv vytvarel dalsi servery a lide mu posilaly data ,ale nedovedu si predstavit ze bych kvuli nejake informaci prohledaval nekolik desitek serveru (toto hledani ma kazdy server udelane).

    Jedine mozne reseni je vytvorit lokalniho klienta ktery by postupne kontaktoval vsechny servery a hledal na nich data. To vsak znamena napsat klienta pro vsechny mozne platformy. Myslim si ze reseni nekolika center (s velkou databazi) je schudnejsi.

    To BTW: Protoze nepredpokladam ze by nekdo z altavisty tento clanek cetl. Ale pokud vis o nekom ze zahranicnich hledacu , klidne at se ozve.
  • 5. 9. 2000 15:00

    I.Hanzlik (neregistrovaný)
    Pri citani clanku som musel mysliet na Cluetrain Manifesto (http://www.cluetrain.com). Pretoze popisovana problematika sa netyka len technologie ale aj stavu spolocnosti a spolocenskych vztahov. Interne to nazyvam aj "Networked intelligence".
    Lebo architektura ludskych nastrojov (aj IT) je zrkadlom vztahov. Centralizovane struktury sa lahsie riadia a menezuju. Sprava decentralizovanych struktur vyzaduje kvalitne nastroje a vysoku mieru delegovania.

    Popisovana architektura vyzaduje ochotu zdielat. Ale zaroven ju aj podporuje. Ponuka nieco za nieco. Napster sa pohyboval v oblasti, kde tato ochota existovala, pretoze ludia si vymienali cosi, do coho nemuseli temer nic investovat. Je velky problem, vytvorit podobnu komunitu v komercnej oblasti. Ale verim, ze to je buducnost. Vyzaduje to vsak isty "Shift in mind".
    Z ineho konca sa k rovnakemu cielu blizi paradigma Outsourcingu. Robim len to co viem, na to sa sustredim a ostatne posuvam inym.
    Napster nam naznacuje, ze sa mame pripravit na eru otvorenosti a zdielania. Ked bude pripravena poda, samotna implementacia je bezproblemova. Pristup pana Donata (aj v Debatach) naznacuje, ze to chape. Lebo nebude miliardar ten, kto urobi silnu Napster-like aplikaciu teraz, ale ten, kto ju urobi v spravnu chvilu. Identifikaciu spravnej chvile povazujem za rozhodujuci problem.
  • 5. 9. 2000 15:02

    Petr Baláš (neregistrovaný)
    Ad 1) - vidím možný problém v tom, že provider obsahu může mít zájem poskytovat falešné údaje - např. pro zvýšení zájmu o své stránky si do indexu přidá i to, co na nich není. Co s tím?
  • 5. 9. 2000 15:31

    Ladislav Zajicek (neregistrovaný)
    V diskusi navrhovany zpusob dodavani indexu stranek z klientu do prohledavacu ma jeden nedostatek. Prohledavace indexuji vsechno jednim vrzem, cili vytvareji kompletni index vseho, co kde nacucaji. Dodavky separovanych indexu z klientu by jim nebyly k nicemu (jejich prohledani by trvalo dlouho predlouho). Separovany index farmy ma vyznam jen pro ni. Jsou prohledavace, ktere separovane indexovani vetsiho poctu adresaru nabizeji za uplatu (obnova mozna i denne).

    Krome jineho, co jde od klientu, v tom mohou byt podvody (viz treba Napster, kde to, co o sobe rika, ze je necim, tim neni).

    Site peer-to-peer se s prohledavanim perou ruzne. Napster je neaktualizovany po dobu, po kterou je klient pripojen - lze resit cyklickymi dotazy ze serveru Napsteru, podobne jako to resi ICQ pri zjistovani pritomnosti klientu (a propos - pokud jste zkouseli server ICQ, prisli jste na nedostatek teto komunikace - pocitac je zahlcovan cyklickymi dotazy spolu s rostoucim poctem ucastniku).

    Nejhorsi v prohledavani je Gnutella (jde se po klientech), ale je aktualni. O velky stupen lepsi je Freenet - prohledavaji se servery, k nimz jsou pripojeny skupinky klientu (neboli nodes). Bohuzel k hledani je nutno znat klice. Jeste lepsi je vyvijeny Mojo Nation s kategorizaci, cili oddelovanim dat podle typu/zajmu/druhu - jde hybrid Freenetu s dynamickyou distribuci dat a mnohym jinym. Zcela aktualni.

    A nakonec - jsou soubory s "pevnym" obsahem, jako jsou hudebni skladby, at uz v jakemkoli formatu ci kompresi. To nabizi moznosti jejich notne zkracene charakteristiky, viz muj vcerejsi clanek o zvukovych otiscich. Samotny textovy popis nic neresi (podvody, neurcitosti). Jednoznacnou identifikaci technickymi prostredky lze zajistit i u filmu apod. Jejich hledani je (bude) pak snadne i s vyvolavanim pridanych informaci z nejruznejsich databazi.

    Pak jsou soubory s promennym obsahem, jako je vetsina webovskych stranek. Myslim, ze tam se obrim indexum nevyhneme (aspon pokud budeme chtit indexovat kompletni obsahy stranek). Prohledavace davaji odpovedi rychle, takze no problem (i kdyz nemohou mapovat vsechno a odpovedi jsou holt ruzne). Neco jineho by byl semanticky prohledavac, ale k nemu je jeste daleko. Pomohl by napr. i s oddelenim idexovanych dat do kategorii.

    P.S. Lupo, zmen mi v clanku, co's do nej nandala, a co jsem zadal navratit do puvodniho stavu, ale kde nic, tu nic. Za slovy "viz" nechci tvoje tecky. To je hrubka! "Viz" znamena "pohled", neni to zadna zkratka. slovaci maji sve "vid". ...tahle tecka je az za vetou:)

    P.P.S. Ctenarum Lupy - nekdo na Lupe mi meni Inet na Internet, inetovy na internetovy apod. Komu vadi Inet? Pokud se dohodneme na zakazu Inetu na Lupe, budiz. Pokud ne, nemel by to nejaky "zuslechtovac" likvidovat. Na dotaz zaslany Lupe jsem opet nedostal odpoved, tak to davam do placu.
  • 5. 9. 2000 15:37

    David Nebesky (neregistrovaný)
    To, ze Napster pracuje s centralni databazi, je prave kamen urazu. Proto muze byt (a mozna bude) vypnut.

    V tvorbe klienta pro vsechny mozne platformy nevidim zasadni problem (Netscape je take pro vsechny mozne platformy a pokud ma nejaky problem, tak je to jinde). Navic klient muze byt napsan treba v Jave.

    Reseni s nekolika centry s velkou databazi je samozrejme mnohem schudnejsi. Plne dstribuovane reseni je vsak mnohem pokrocilejsi a take (pro me) lakavejsi. Jen je dnes asi jeste jeho obecna varianta technicky nepruchodna :(
  • 5. 9. 2000 15:38

    MK (neregistrovaný)
    Pokud bychom kopirovali princip NAPSTERu, mozna by stacil skutecne metavyhledavac, ktery by se ptal lokalnich serveru. Samozrejme, ze je problem v tom, ze je ptreba ptat se nekolika milionu pocitacu posktyujicich sluzby, ale na druhou stranu kvalita dnesnich indexu rozhodne neni o celem webu. navic se da cekat, ze servery s velkou uzitnou informaci jsou pripojeny rychle (odhad pusobeni 8 let na ceskem Inetu) a jsou dostatecne dimenzovane. Proto by informace od nich prisla drive. Zaroven je treba videt, ze clovek muze svuj server zaradit do jakychsi skupin, cimz se omezi pocet dotazovnych serveru. Kvalita vyhledavani se dle vseho nezhorsi oproti soucasnemu stavu.

    Kazdy balik software by mohl mit dve slozky (indexovaci a vyhledavaci). Pokud by se system dokazal transparentne vyrovnat s navazanim spojeni (multicasting?) v pripade padu komunikacnich partneru, mohl by mit kazdy altavistu na svem WWW serveru :-)))

  • 5. 9. 2000 15:40

    GOsoft (neregistrovaný)
    Bylo zde nekolikrat zmineno "datove centrum", pro indexovani informaci. Proc by neslo si vzit priklad z jiz pouzivane distribuovane databaze, ktera nema centralni server, na jehoz vypadku by byl system zavisly. Myslim, muzete se mnou polemizovat, ze system zaznamu, ktery pouziva DNS by byl resenim. Nekolik navzajem na sebe navazujicich databazovych serveru se vzajemnym sdilenym dat. Vypadek takove databaze by byl resen stejne jako v pripade DNS, informace je vzdy ulozena mnohonasobne redundantne.

    Nebo si myslite, ze se jedna o nerealizovatelny nesmysl?
  • 5. 9. 2000 16:30

    Dan Lukes (neregistrovaný)
    DNS asi neni uplne nejlepsi pripad. Je to sice masivne distribuovana databaze, jenze je vhodna pouze pro jasne hierarchicky definovana data. Tato databaze se velice dobre hodi k vyhledani "hodnoty" k (presne) znamemu klici - tedy IP adresy (informace) ke klici, rekneme, www.fio.cz. Je ale zcela nevhodna, pokud klic neznate presne. Napriklad dotaz "vsechny stroje, ktere maji v hostname slovo 'fio' " je pro databazi typu DNS prakticky nezodpoveditelny.

    Pro diskutovane ucely tedu nehledame distribuovanou databazi, spise potrebujeme databaze replikovanou - takove, kde kazda kopie je identicka a kazdy stroj ma plnou funkci. Popravde receno, kdyz se mluvi o "datovem centru", nenapadlo me, ze by se mluvilo o jednotlivem pocitaci ve fyzickem slova smyslu, ale prave o jednom logickem centru, ktere muze byt realizovano v mnoha fyzickych kopiich.

  • 5. 9. 2000 16:42

    MK (neregistrovaný)
    Ahoj Dane,
    nepotrebujeme exaktni dotaz, ale spis fuzzy logiku :-) V opacnem pripade je toliz klient zahlcen prilisnym mnozstvim informaci ;-)
    Proto se priklanim k distribuovane databazi, nehlede na to, ze replikace prinasi dost nerovnomerne datove toky v siti ...
  • 5. 9. 2000 17:12

    Ladislav Zajicek (neregistrovaný)
    Dane, neodmitej tolik myslenku s analogii DNS. Budou data, ktera budou velmi jednoznacna. Vyvoj technologii, ktere je budou "zjednoznacnovat", a to tak, ze jejich zaznam v necem, jako je DNS, bude velmi kratky, je za rohem. Znova musim pripomenout zvukovy otisk, na ktery tady stale nikdo nereaguje. To meni prohledavani tak zasadnim zpusobem, ze by se tomu mela venovat nalezita pozornost.
    Zadne univerzalni reseni pro vsechno nikdy existovat nebude, protoze samo velike Universum je diverzifikovane.
  • 5. 9. 2000 19:58

    pavel (neregistrovaný)
    ne opravdu nezertuji. A pokud jste cetl neco o .NET tak toto je jednoznacne cesta budoucnosti. Kdo dnes neco v tomto smeru zacne konat, bude z toho mit myslim velky business.
  • 5. 9. 2000 20:05

    Mirek Zeman (neregistrovaný)
    Plne distribuovane aplikacni prostredi narazi na zajimavy "kulturni rozpor kapitalizmu" -- pokud totiz bude reseni skutecne plne distribuovane -- a teoreticky tedy nezranitelne -- dostane se mimo kontrolu a bude postradat kanal, kterym by smerem k autorovi tekly penize. Bude-li tento kanal existovat, teoreticka nezranitelnost aplikace je razem ta tam. Plne distribuovane aplikace maji pravdepodobne sanci prezit vyhradne jako nekomercni ci na systemu dobrovolnych prizpevku, centralizovanych vsak kdesi vne samotne aplikace.

    Pokud by se ale podarilo prosadit plne distribuovany system, povazoval bych jej za zajimavy predevsim z hlediska moznosti vymeny informaci. Vzdy mne fascinovala utopicka vize "metamana" -- tedy jakehosi spolecneho vedomi lidstva, jehoz vznik byl predpokladan do obdobi rozvoje internetu. Avsak prave diky technicky centralizovane a informacne decentralizovane podstate internetu k naplneni teto vize nikdy nedoslo. Bylo by tedy treba vytvorit pravy opak dnesniho internetu -- technicky decentralizovanou a informacne centralizovanou (nikoli ovladanou z jednoho mista!) aplikaci. "Mentalni upgrade" internetu.
  • 5. 9. 2000 20:25

    David Nebeský (neregistrovaný)
    S "kulturním rozporem kapitalizmu" souhlasím, jen bych to pojmenoval jinak a když už bych mluvil o kapitalismu, tak skutečně o kapitaliSmu, ne kapitaliZmu.

    Přiznám se, že od počátku nerozumím tomu, kde Jiří Donát vidí ony miliardy. V prodeji klientů určitě ne - ty musí být zadarmo. Že by klienti předávali výrobci nějaké exkluzivní informace? To by neprošlo. Že by mu předávaly informace nikoli exkluzivní, ale volně dostupné a výhoda by byla jen v jejich komplexnosti? Ani to se mi nezdá, byť to je asi jediná cesta k penězům, která mě napadá.

    Musí to ale být o penězích? Vždyť první průkopníci a "vynálezci" Internetu také nepatří mezi nejbohatší lidi na světě (že by jim něco uteklo?).

    BTW: Nechce někdo napsat na Lupu úvahu o tom, proč je ausgerecht Gates nejbohatší člověkem na světě a proč za některé myšlenky platíme a jiné jsou zadatmo?
  • 5. 9. 2000 20:37

    David Nebeský (neregistrovaný)
    Pokud to myslíte vážne, tak tady nechte svůj e-mail. Třeba se vám ozve někdo, s kým uděláte štěstí. Já to ovšem rozhodně nebudu, přestože mě to také velmi zajímá. Silně totiž pochybuji o tom, že je to parketa pro business a myslím, že uvažovat o obecném distribuovaném komunikačním systému na bázi businessu je ztráta času.
  • 5. 9. 2000 21:00

    Mirek Zeman (neregistrovaný)
    ..uff.. nemam po ruce PCP, ale tusim, ze v Pravidlech z r. 1993 byla zavedena dvoji pravopisna podoba (dublet) v psani prejatych jmen na -ismus (nove tedy i -izmus). Mate vsak pravdu, ze za zakladni se podle uvedeneho Dodatku povazuji podobe se s.
  • 5. 9. 2000 21:02

    Václav Dvořák (neregistrovaný)
    Aktuálnost indexu je jistě dobrá věc, ale jako podstatnější výhoda Napsteru & spol. mi připadá spíše to, že velmi usnadňuje "publikování" a "replikaci". Tj. uživatel, který si nainstaluje Napster, tak pravděpodobně činí především pro svůj prospěch (aby si stáhnul MP3ky), ale pokud nezmění nastavení, tak to, co si stáhne, zároveň poskytuje dále ostatním. Navíc triviálním nastavením (které je dost možná přímo součástí instalace?) poskytuje ostatním i ostatní svou hudbu. To mi připadá to podstatné: poskytování obsahu (a indexu) je víceméně automatické, bezproblémové, téměř bez vlastního přičinění, v podstatě jako "vedlejší efekt". Pravděpodobně právě díky tomu je databáze Napsteru tak bohatá.

    Udělat distribuovanou síť vzájemně spolupracujících, částečně redundantních vyhledávacích, indexovacích či jiných serverů mi připadá jako čistě technický problém, jistě již mnohokrát vyřešený. Zajímavější je vymyslet co konkrétně, proč, jak pro to lidi zaujmout, jak to ufinancovat, jak na tom případně i vydělat.

    Napadla mě zajímavá myšlenka: nejrozšířenějším webovým serverem je Apache. Apache je dostupný včetně zdrojáků. Kdyby k němu někdo napsal modul, který by, jsa triviálním způsobem nakonfigurován, automaticky indexoval svůj vlastní obsah a přispíval jím do sítě vyhledávačů zmíněné v předchozím odstavci... A v ideálním případě, kdyby tento modul byl časem zařazen do oficiální distribure Apache... Časem, kdyby se toto rozšířilo, bychom měli možná nejúplnější a nejaktuálnější možný index a vyhledávač.

    Navíc, každý takto přispívající server by měl pro indexování k dispozici daleko více kapacity, než centrální server, a mohl by tedy nad obsahem provádět složitější operace. Například... Dnes jsem (díky jiné diskusi zde na Lupě :-) ) narazil na Ústav českého národního korpusu, ucnk.ff.cuni.cz. Byl jsem fascinován zjištěním, co všechno to umožňuje - ve stručnosti, zadáte české slovo a dostanete jeho základní tvar, popis původního tvaru a několik různých významů s popisem. Zadáte slovo i s kontextem, a dostanete vybraný ten správný význam!

    BTW: Připojuji se k tomu "viz". Je to normální sloveso v přikazovacím způsobu, za ním se nepíše tečka ani první pád, nýbrž čtvrtý pád! (Viz koho/co, slyš koho/co.)

    Uf, to mělo být "narychlo"... :-)
  • 5. 9. 2000 22:04

    Róbert Drotár (neregistrovaný)
    K tomu ma este napada, ze by sa mozno dalo vyuzit hasovanie k tomu, aby som to rozdelil... teda na zaklade kluca (fio) zistim v ktorom centre by dana informacia mohla byt. A to uz sa da pouzit i prisne hierarchicka struktura ala DNS.
    Druha myslienka, ktora ma v tomto kontexte napada, je ze by to mohlo byt dalej clenene hierarchicky, nieco ako trie. Tieto riesenia vsak predpokladaju, ze budu stroje (centra), kotre budu pritomne stale, teda nie dynamicky sa meniacu strukturu, ide skor o to, ze sa zataz i spolahlivost celeho systemu rozlozi na velku skupinu spolupracujucich serverov. Samozrejme redundanciou mozeme zabezpecit, ze danu informaciu nebude drzat len jeden server, ale i jeho sekundar (ako u DNS).
  • 6. 9. 2000 0:25

    Libor Novacek (neregistrovaný)
    1. co se tyce "nejúplnějšího a nejaktuálnějšího možneho indexu a vyhledávače" - to je sen kazdeho, ktery se vam rozplyne, kdyz si prectete skvele clanky Dr. Lawrence ( http://www.neci.nj.nec.com/homepages/lawrence ), publikovane v casopise Science. Nejvetsi vyhledavace indexuji cca po 1/3 statickych stranek, k dynamickym se nedostanou vubec (tech je temer nekonecno a cim dal vice stranek se meni v aplikace s daty generovanymi z databazi - tezko je nekam poslete, kdyz jsou to mnohdy GB dat). Zatimco nic netusici majitel stranky ma tedy jistou sanci, dostat se prirozene diky nejakym odkazum z jinych stranek do fulltextove datbaze, kdyby toto byla starost lidi, kteri by museli nejaka data nechat zpracovat a odeslat kamsi "vyse", obavam se, ze by to moc dobre nedopadlo. A ze by se skoro nic neusetrilo - vyhazeni HTML prikazu nic neresi - nekde se bere v uvahu i jakym HTML kodem je text obklopen a zda to udela nejaky lokalni SW a pak se nekde budou data tlacit ve fronte - to stale vidim jako lepsi reseni,ze si robot sam urci kdy a co udela. Staci se podivat na vyuzivani META tagu ve strankach - tady bych bojoval za jejich vetsi rozsireni - treba popisek do Seznamu by si mohl Seznam prebirat sam pri tvorbe fulltextu prave diky META tagu. Nikdo jiny nez clovek sam (=majitel stranek) neprovede lepe obsahovou analyzu a popis svych stranek, ktere do seznamu pridava. Sam jsem nasel nami provozovane weby v katalozich, kde jejich prezentace byla znacne zkreslena - protoze ji provadel clovek, ktery mel minutu na to, aby mohl rychle vytvorit popis a sup na dalsi. Jako kdyby nekdo napsal, ze Lupa.cz je server pro optiky ;-) Lidskou praci pri tvorbe katalogu nelze (zatim?) vyradit. Mozna jednou budou stroje indexovat 99% webu, ale musi se zmenit i uzivatele. Pokud je dnes polovina dotazu do fulltextu pouhe jedine slovo nebo neznaji poradne rozdil mezi katalogem a fulltextem, co k tomu dodat? Projekty jako AskJeevs, ktere pracuji s prirozenym jazykem se zatim moc nevyznamenaly, navic pro cestinu je treba prvotnim predpokladem dokonale zpracovany jazykovy korpus - ten na FF UK je vazne skvely, u nich primo (ve sklepe v budove FF UK na Palachove namesti) se toho da provadet jeste mnohem vice, nez co muzou lidi delat pres web. Mam tam znameho a mozna by mohl neco na Lupu o korpusu napsat, pokud by to tu nekoho zajimalo - nebo se toho ujmu ja, az bude cas.

  • 6. 9. 2000 0:40

    Libor Novacek (neregistrovaný)
    Jeste neco - co mi na vyhledavacich vadi spise, nez je je v nich jen kousek z celeho webu je nizka mira relevance i pri relativne dost dobre postavenych dotazech. To vidim jako nejvetsi bolest hledacu a priznavam se, ze pouzivam zcela jine metody, kde najit relevantnejsi informace resp. cesty k nim. Neocenitelne jsou napr. starting points mnohych studentu a profesoru a vubec stranky na univerzitach. Z takovych odkazu se pak proklikam k pozadovanym informacim rychleji, nez kdyz je najdu na 1001. strance, kterou mi na perfektni dotaz vrati AlltheWeb, Google ci AltaVista.
    Zajimavy clanek vysel ve Svete Namodro - autor radi prijit na chat (mozn amyslel treba na xchat ;-) a tam zacit otravovat lidi a ze se pry nekdo chytne a odpovi. Tolik jednou vetou clanek, k jehoz stylu podani a i z casti i k obsahu se stavim kriticky - http://svet.namodro.cz/go/r-art.asp?id=1000809157
    Muze to fungovat na nejake "obycejne" veci. Ve sve podstate kdyby existovala sit expertu a kazdy by si sebral tu svoji "parketu", mohlo by to teoreticky fungovat. Otazka je, zda by to nekdo delal za solidaritu ostatnich, jako funguje distribuce hudby pres Napster atd. Preci jen, kdyz jsem odbornik na ekonomicke informace, proc sedet u webu a radit nekomu kam s penezi - nebo kde najde weby, jak na to? Za to, ze mi pak doktor, ktery sedi u webu, rekne, co mam delat, kdyz mam tam a tam takovou a takovou vyrazku nebo mi padaji vlasy /z toho sezeni u webu :o)/?
    Hudba za hudbu menit jde, ale znalosti za znalosti - kdyz nektere jsou vyrazne ekonomicky hodnotnejsi - nevidim v tom technicky, ale lidsky problem.
  • 6. 9. 2000 1:45

    Mojzis Stupka (neregistrovaný)
    V prispevku kdesi nahore se v kratkosti pravi, ze pri plne "oboustranne" distribuci odpada moznost kontroly a tim i vydelku, ktery je nutne spojen s odpovednosti za vec (tak sem si alespon vysvetlil narazku na ruseni Napstera).
    Mam dojem, ze tomu odporuje zrejme funkcni model Gozilly - tedy ta jeho soucast s kanaly. Ty umoznuji kazdemu oznamit ostatnim, ze u nich je ke stazeni to a to. No a oni si to stahnou Gozillou a pritom se juknou na reklamku (za kterouz shrabnou penize tvurci gozilly).
    (ciste teoreticky jim nekdo muze vypalit rybnik vyvinutim neceho chytrejsiho, co by cetlo gozilli format channelu).
  • 6. 9. 2000 2:44

    Lukas Vondracek (neregistrovaný)
    To, co tu bylo naznaceno pod oznacenim "kulturni rozpor kapitalismu" ve vztahu k uvedenym vlastnostem distribuovanych systemu neni jiste jen plana vytka, ovsem zpusobu, kterymi se lze dobrat vydelecnosti resp. prospesnosti a tedy i zajimavosti i za techto podminek take nemusi byt malo. Mohou takto velmi dobre fungovat systemy, kde je prinosem pro vsechny zucastnene uz jen moznost pruzne a spolehlive sdilet data resp.vymenovat si informace na relativne otevernem foru...(napr. systemy pro sdileni a odprodej zasob, zadavani zakazek, burzy prace etc... etc...) . Navic, ani myslenka "zpoplatnovani konzumace" sluzeb distribuovanych systemu nemusi byt nesmyslna... Otazkou je jen konkretni implementace "poskytovani protihodnoty" v takovych systemech. Zde se, odhaduji, asi jako nejjednodussi jevi aplikace primeho vymahani protihodnoty napr. cestou okamziteho "vnuceni reklamy" nebo treba i to jiz zminene "vas system nam za to poskytne XY strojoveho casu pro indexaci nasich dat" nebo "vas system nam uskladni na XY sec. tato nase data nebo poslouzi jako jejich distribucni bod..." .... (takovych moznosti muze byt mnoho...). Nemyslim, ze cokoliv z toho by se jevilo jako jednoznacny nesmysl byt v prostredi distribuovanych systemu (jak ostatne dokazuje SETI nebo rada banner exchange systemu). Je to jen veci toho, jake vlastnosti budou nebo maji byt implementovany v jednotlivych nodech takove site.
  • 6. 9. 2000 11:25

    Dan Lukes (neregistrovaný)
    Hasovani je ale znovu vhodne v pripade, ze se tim doberu k informaci, kde sezenu CELOU pozadovanou informaci, coz je jednoduche v pripade tak jednoducheho dotazu jako je "Which IP has www.fio.cz", nikoli vsak dotazu "Who is responsible person for IP address of www.fio.cz." (ti, co umi anglicky doopravdy mi prominou). Povsimnete si, ze pro zodpovezeni tohoto dotazu je v soucasne dobe spojit informace ze tri databazi (DNS, IANA, RIPE). A to jsem prilis nevybocil z "Internetu". Stejne tak dotaz "Ktere knihkupectvi na Praze 1 prodava knihu 'Varime s konopim'" vyzaduje kooperaci nejmene dvou databazi. I v pripade, ze to nepolozim jako zcela obecny dotaz, ale naformuluji to "pro stroj" do formy - "SELECT knihkupectvi WHERE 'knihkupectvi sidlici na praze 1' and 'knihkupectvi majici na sklade vyse zminenou knihu' " bude potreba zastresujici centralni prvek, ktery tento dotaz vyresi (i kdyz dve zminene databaze mohou byt nezavisle).

    Mozna premyslim o daleko obecnejsim informacne - vyhledavacim systemu a tim vznikaji rozpory - takovyhle system se bude opravdu pomerne slozite distribuovat - ledaze by se skutecne pouzil model "DNS" - ten muze byt distribuovany vice mene proto, ze kazda databaze (BIND) zaroven obsahuje logiku pro vyrizovani dotazu (i kdyz treba jen systemem odkazu na jiny BIND). Vratime-li se ale zpet k nasemu systemu zjistime, ze logika vyrizovani dotazu je velice komplikovana nato, aby bylo ucelne mit ji na kazde databazi. Budou tedy existovat "pristupove dotazovaci body", ktere jsou navzajem plne zamenne, ktere mohou dotazy vyrizovat pomoci libovolne databazove struktury, vcetne distribuovane a ty (nikoli klient) budou plne vyrizovat jak a kde ziskaji informace pro vyrizeni dotazu.

    V teto casti oz vlastne spise reaguji na Michala a p. Zajicka - panove, kdyz to naformuluji takto, odstranil jsem rozpor o tom, zda databaze muze nebo nemuze byt distribuovana ?

  • 6. 9. 2000 14:37

    pavel (neregistrovaný)
    kdo by tedy mel zajem spolupracovat na tom, o cem se pise v clancich .."Paradigmata .." ... napiste mi. Ja si osobne myslim, ze prave toto jsou trendy budoucnosti, a ne ani prilis vzdalene, ktere budou jiz zanedlouho hybat internetem.
  • 6. 9. 2000 22:27

    Jiří Donát (neregistrovaný)
    Každý útok hrubou silou připomíná zapálení papíru zvětšovacím sklem: na jedno malé místo soustředíme sluneční energii, která by normálně dopadla na velkou plochu. Jinými slovy, pro každý vyřazený počítač potřebujeme soustředit sílu mnoha útočících počítačů.
    Musíme se smířit s tím, že pomocí mechanismů, jako je útok DoS, lze vyřadit libovolný počítač sítě. Proti tomu nemůžeme bojovat.
    Můžeme ale dosáhnout toho, že aplikace nebude záviset na funkci několika (relativně málo) počítačů a nezmizí spolu se zmizením těchto počítačů ze sítě. Kolik už není "málo"? Inu, 20 miliónů klientů Napsteru se už odstranit nedá, ale řekněme řádově tisíce by měly bohatě stačit (protože - stejně jako u lupy - těžko sestrojíme takové zvětšovací sklo, které nám zapálí najednou předmět o velikosti fotbalového hřiště).
  • 7. 9. 2000 11:04

    MK (neregistrovaný)
    Bohuzel existuji utoky typu "Poison victim", kdy proste otravite zdroje informaci. Da se predpokladat, ze pri masivni distribuovatelnosti bude mozne velmi efektivne uplatnit tento typ utoku. Utocnik totiz bude uvnitr systemu :-)))
  • 7. 9. 2000 14:13

    Dan Lukes (neregistrovaný)
    To je sice zajimava myslenka, ale pri podrobnejsim pohledu nikam nevede. Pominme, ze Napster je velice spatny priklad, protoze ten vyzaduje centralni pocitac jehoz vyrazenim funkcnost Napster site zanika. Bavme se spise o necem bez centralni autority, rekneme o Gnutelle. Hacek hodny pozornosti je v tom, ze jde o velice "uzky"- takrka jednoucelovy - software a krome toho, to co nabizi je velice jednoducha sluzba. Takovy software skutecne muze bezet prakticky vsude, v statisicich kopii. Cim slozitejsi software ale budete potrebovat (slozitejsi sluzby jsou uz napriklad i probirane vyhledavace) tim mene pravdepodobne je, ze je takovou aplikaci mozne spustit na nejakem nahodne pevne zvolenem pocitaci. V tom okamziku ztracite moznost do provozu sluzby zapojit "sirokou verejnost", ktera vam hardware poskytne v podstate zdarma a dostavate se do situace, kdy je pocet pocitacu poskytujicich sluzbu limituje zustatek na beznem uctu. A to nemluvim ani o tom, ze kooperativni sit nemusi byt pouzita pouze k bohulibym ucelum - tentyz princip, ktery umoznuje provozovat gnutella sit tak, ze je opravdu takrka nemozne jeji provoz zlikvidovat muze byt pouzit (a takove pokusy uz zde dokonce byly) na vytvoreni site zamerene na likvidaci urcite sluzby. Nelze sice sestrojit lupu, ktera nam zapali cele fotbalove hriste. Ale stotisic mensich lup to jiz dokaze ...

    Domnivam se tedy, ze stav, kdy je sluzba takrka absolutne odolna proti ztrate funkcnosti je spise vyjimecny a takovych aplikaci je v soucasne dobe minimum nikoli jen proto, ze teprve vznikaji, ale proto, ze v pripade mnoha sluzeb nelze "gnutella princip" vubec pouzit. A konecne, ani gnutella neni celosvetova nenapadnutelna sit - zejmena neni prilis dobre odolna proti utoku statni moci, pokud se takova moc k utoku odhodla. To je ale na trochu delsi samostatne povidani - a tento clanek nam i s diskusi uz pomerne rychle ujizdi do archivu starsich clanku ...

  • 6. 9. 2000 11:50

    Dan Lukes (neregistrovaný)
    Jednim z pozadavku zlanku byla diskuse nad systemy odolavajicimi DoS utokum. Ja se domnivam, ze takovy system neni mozne principielne sestrojit. DoS utoky jsou utoky spocivajici v takovem vyuziti sluzeb site, ktere sit neni schopna uspokojit a dojde k pretizeni. Pominme trivialni pripad, kdy lze DoS utoku zabranit tim, ze prestaneme poskytovat prislusnou sluzbu (i tento zpusob se pouziva, napriklad se jiz obvykle neodpovida na PING smerovany na broadcast adresu coz je sluzba site, lec sluzba bez vetsich problemu postradatelna). Druhy trivialni zpusob jak zabranit DoS utoku je zabranit vycerpani zdroju - tedy bud tim, ze budou neomezene (tak tento zpusob take asi nebudeme moci obvykle pouzit) nebo alespon tim, ze zadost o sluzbu bude vyzadovat srovnatelne mnozstvi zdroju jako jeji vyrizeni (to zlikviduje utocniky tim, ze nebudou mit dost silny stroj, linku, vypocetni kapacitu a podobne).

    Zbyva posledni zpusob - rozeznat uziti sluzby od zneuziti sluzby. Bez toho, ze bych byl schopen sve tvrzeni dokazat rikam, ze tento problem neni plne algoritmizovatelny - to znamena, ze se nepodari najit jasny algoritmus, ktery by nad prichazejici zadosti o poskytnuti sluzby dokazal jednoznacne rozhodnout, zda jde o uziti nebo o zneuziti - a to ani v pripade, ze bude mit kompletni stavovou informaci o vsech minulych vyrizenych zadostech. DoS utoku se tedy muzeme branit pouze heuristicky a tedy s nikoli zajistenou uspesnosti.

    Pokud jde o utok necileny proti konkretni organizaci ci sluzbe, pak muze pomoci proste - sluzbu zajistuje vice ruznych stroju, pricemz uzivatele jsou na ne smerovani podle urciteho algoritmu. Takovyto princip "zaloznich" ci "konkurujicich si" stroju je zatim jednoduse realizovatelny pouze pro SMTP a to pomoci MX zaznamu v DNS. Obecny mechanismus, pouzitelny pro prakticky veskere sluzby je sice jiz take na svete (SRV zaznam v DNS), zatim vsak neni v praxi pouzivan, protoze na jeho pouzivani nejsou pripraveny "resolver" knihovny. Ani tento mechanismus vsak neresi smerovany utok proti konkretni sluzbe nebo organizaci, protoze utocnik si samozrejme najde vsechny dostupne servery a utocit bude proti vsem.

    Dalsim zajimavym mechanismem by mohlo byt teritorialni rozdeleni kdy pozadavky prichazejici z urcite oblasti vyrizuje konkretni skupina serveru, kdezto dotaz odjinud jina. Tim bychom dosahli toho, ze DoS utok z jedne oblasti by narusil poskytovani sluzby pouze do teto oblasti. Bohuzel, nejprve by ale muselo byt prijato opatreni, ktere by zabranovalo falsovat identitu (napr. IP adresu) tazatele a muselo by take (a to celosvetove) dojit k zmenam v DNS systemu (aby cloveku z urcite oblasti podaval jine informace nez cloveku odjinud).

    Zakladni obranou proti DoS utokum tak stale zustava brutalni sila - priste mit tolik a tak dobre vybavenych serveru, aby k vycerpani zdroju nemohlo tojit nijak lehce. A krome toho se muzeme branit proti kazdemu konkretnimu DoS utoku, obvykle ale az pote, co byl nekde (uspesne) pouzit. Znovu tedy jde o obranu silou, v tomto pripade je vsak "silou" velice schopny spravce systemu.

    DoS utoky vsak podle meho nazoru zustanou (na Internetu v soucasnem slova smyslu) nikdy nerozhodnutou bitvou sestavajicich se z bitev v pretlacovani "kdo je chytrejsi". To samozrejme nerika, ze si nemame pokouset branit - a nektere zpusoby obrany jsem zde nabidnul k diskusi, jine jiste doplni nekdo dalsi.