Vlákno názorů k článku Vyhledávání v multimédiích na Internetu od Michal Krsek - Takze jste delal testy, ze kterych vyplynulo, ze...

  • Článek je starý, nové názory již nelze přidávat.
  • 4. 11. 2003 13:42

    Michal Krsek (neregistrovaný)
    Takze jste delal testy, ze kterych vyplynulo, ze indexace dat je 250x pomalejsi nez je realny cas (obvykle 25 snimku za vterinu).

    Omezujici podminky jste pro definoval sam. Nasim cilem bylo neco jineho :-)

    Pokud se tyce podnikatelskych prilezitosti - myslim, ze na zacatku bylo celkem jasne, ze neslo o vec, kterou by resitele delali pro profit. Takze Vam rozhodne nebudou konkurovat, az spustite Vas vyhledavac.

  • 4. 11. 2003 12:01

    jan chavel (neregistrovaný)
    vypocetni kapacita neni vubec zadnej problem.

    delal sem nake testy v ImageMagicku s filtrama a projeti HQ obrazku pres nekolik filtru trva pod 10 sekund.
    protoze analyzu jednoho obrazku budete stejne delat jen jednou za zivot, a pak pouzijete treba MD5 nebo jinej hash primo na originalni data a budete vedet, ze binarni soubor s timhle hashem ma takovej a takovej obsah. To je prave obrovskej rozdil proti indexovani html stranek, kterych obsah se casto meni a musite je teda porad analyzovat.
    takze ke kazdem binarnim souboru budete mit hash (rychlej) a specialni malej otisk pouzitelnej pro hledani podobnych dat.

    aplikace pochopitelne vychazi z toho, ze uz nake binarni data mate a shanite k nim komentar/popis/vice informaci/dalsi podobne (takze v dotazu neni text, ale binarni data).

    treba si umim predstavit, ze najdu obrazek na Inetu, libi se mne a chci ho pouzit v clanku a tak mne zajima, kdo drzi copyright a vubec jakej ma puvod, nebo treba, kdo ma podobne obrazky na svych strankach a teda ma podobne zajmy jako ja. Protoze muj obrazek prosel nekolika rukama a treba i nekolika usenet grupama, kde snazivci orizli veskere copyright hlasky a nakonec jeste nazev prejmenovali, tak v dnesni dobe se to vlastne nemam sanci dovedet.

    pochopitelne uzivatel by musel mit u sebe specialniho klienta, kterej by ten jeho soubor taky zpracoval, aby z nej dostal nakej otisk, kterym by se dotazoval ve vyhledavaci.

    v podstate to je neco jako P2P site (ed2k:\\.....|MD4 hash|/)
    s tim rozdilem, ze treba v donkey2k je od jednoho souboru sto verzi lisicich se jen v bitech (error pri downloadu), ovsem kazdy ma uplne odlisnej hash, takze neni mozne rict, jestli ty data jsou podobna nebo ne.
    uz jenom tahle jedina aplikace (nahrazeni 100+ verzi jedinou) by mela dopad na miliony uzivatelu.

    RIAA ma podobnej scanner, ale ten neni nic moc, je zalozen stejne jako donkey2k na hashi.

    Zajimavej scanner ma APIC (organizace chranici autorska prava velkych porno sajt jako je Suze Randall).
    testoval sem ho tak, ze sem udelal sajtu, kam sem dal ukradene obrazky, nejdriv originalni, pak ruzne pozmenene a prekvapive identifikoval i ty pozmenene.
    Pozdeji sem prisel nato, ze to je tim, ze v tech obrazcich je zakodovan ten copyright steganografii:-)
    Coz ovsem neresi zadani o kterem tady mluvim.

    Dalsi aplikaci je treba ochrana deti pred pornem.
    Proste se udela klient, kterej pred natazenim kazdeho obrazku da dotaz na server a pokud ten prohlasi, ze to je XXX, tak se nestahne.
    Tohle dela prave Skeptic scanner, tam se to ale neoveruje proti databazi.
    primo se analyzuje samotnej obrazek pomoci neuronove site, kterou naucili rozeznavat ruzne porno sceny:-)
    To je mimochodem dalsi dukaz pro me tvrzeni, ze vypocetni kapacita je dostatecna.

    Jak vidite poptavka po ruznych aplikacich by urcite byla, vypocetni kapacita bude taky, fakt netusim, proc to jeste nikdo nenaprogramoval. klidne by to moh bejt zlatej dul (uz treba jen fanove ruznych pornstars by zaplatili tisice za nalezeni vsech mist kde muzou najit obrazky sve hvezdy) :-)))
  • 3. 11. 2003 15:28

    Michal Krsek (neregistrovaný)
    Na problemy s vypocetni kapacitou uz se poukazali jini.

    Pokud se me tyce, muzete mi rict, jak bych pomoci tech Vasich filtru vyhledat napriklad nejaky klip od Lucie?

  • 2. 11. 2003 0:31

    ss (neregistrovaný)
    anebo si predstavte nejcastejsi velikost .avi videa na netu, ze by to bylo 7OOMB? :-)
  • 1. 11. 2003 3:11

    jan chavel (neregistrovaný)
    zajimavy projekt, ovsem vse stoji a pada natom jak podrobnej bude komentar v metadatech.
    z vlastni zkusenosti vim, ze do metadat se davaj vetsinou nejake copyright kecy, ale malokdy podrobnej popis o co jde:-(
    proto se obavam, ze pouziti vaseho systemu bude mit velice malou skupinu uzivatelu.

    vetsina uzivatelu (alespon mych zakazniku) funguje tak, ze si nekde stahne kus dat (jeden obrazek, 1 minutovou zmensenou animaci/trailer v silene kvalite), libi se jim a chce najit o tehle datech vice informaci.
    Ovsem nemaj sanci.
    vzdy kdyz vidim nekde release softu umoznujiciho "katalogizovat" multimedia, tak ho ihned zkousim, ale z tech 300+ softu co sem vyzkousel se vysseuvedenym nezabyva zadnej. Multimedialni vyhledavace funguji pres meta-data nebo pres nazvy souboru, hashe u p2p siti konci kdyz nekdo ten jpeg zedituje nebo spatne stahne (pozmeni 1 bit):-(

    Pokud vim existuji jen 3 akademicke projekty na katalogizaci multimedii podle obsahu (prej nejlepsi je Skeptic Technology od MessageLabs) a ani jeden nefunguje poradne a nikdo se nesnazil na jejich zaklade udelat vyhledavac:-(

    Zahadou pro mne je, proc to jeste nikdo neudelal.
    Urcite existuji filtry, ktere dokazi obraz zacentrovat, udelat B/W, kontury a pak treba vysledek zakatalogizovat.
    Nastavit tyto filtry tak, aby se vysledek nemenil ani kdyz original nekolikrat opetovne probehnu jpeg kodovanim,
    nebo ho treba cropnu (proto to zacentrovani na zacatku, malokdo vyrazi z obrazku centralni cast, nebo tam strci svou reklamu/radek s copyrightem).
    To same urcite plati i pro animace - staci najit treba nejvetsi frame a indexovat pomoci nej, nebo podle barevnosti... urcite by programatora napadlo hodne moznosti filtru...

    To, ze tohle neexistuje musi mit nakej zahadnej duvod, ale zatim sem neprisel nato jakej. Netusite ?
Upozorníme vás na články, které by vám neměly uniknout (maximálně 2x týdně).