Hlavní navigace

Vyhledávání v multimédiích na Internetu

Michal Krsek 31. 10. 2003

S rozvojem širokopásmového přístupu k Internetu se zvětšují možnosti uživatelů využívat i pokročilejší formy multimediálního obsahu, například audio a video. Plnohodnotné využití potenciálu těchto služeb na Internetu uživatelem vyžaduje možnost vyhledávání obsahu. Vyhledávače netextových informací prakticky neexistují.

Jak si někteří naši kolegové v praxi ověřili (na údržbě videoarchivu CESNET), údržba rozsáhlejšího videoarchivu je časově velmi náročná, nevděčná a nikdy nekončící činnost.

Toto byly základní premisy, se kterými jsme přistoupili k realizaci projektu, jehož nejviditelnějším výstupem je možnost vyhledávání v multimediálních souborech na plnotextovém vyhledávači Jyxo.

Dále jsme zjistili, že počet veřejně dostupných audio a video souborů, které jsou pod veřejným URL k dispozici na českém Internetu, dosahuje aktuálně (říjen 2003) objem nejméně 23.000 příspěvků (což je mnohem více, než jsme očekávali).

Stav před projektem

S rozvojem širokopásmového připojení si začali důležitost Internetu uvědomovat velcí majitelé obsahu. Jejich portály jsou ovšem postaveny pro uživatele pasivně konzumujícího televizní program, který se pohybuje pouze v rámci jednoho poskytovatele. Pokud obsahují vyhledávání, pak pouze v rámci jednoho portálu.

Protipólem k velkým mediálním koncernům existuje množství uživatelů, kteří svůj audio a video materiál vystavují jako obohacení svých stránek. Vyhledávání v těchto materiálech je klasickými metodami prakticky nemožné.

Podobná situace existuje ve světě WWW (respektive HTML), nicméně pro WWW jsou k dispozici vyhledávací stroje, které umožňují vyhledávání dat založených na textové informaci.

Před realizací projektu jsme zjistili, že na téma vyhledávání v multimédiích bylo publikováno několik příspěvků, nicméně se nám nepodařilo objevit ani jeden vyhledávač, který by umožňoval vyhledávat (víme ale, že jedním takovým disponuje IFPI a RIAA, které jím „odhalují“ nelegální autorská díla).

Na Internetu existují také rozsáhlé peer-to-peer sítě, jež jsou tvořené aplikacemi určenými ke sdílení uživatelů mezi sebou. Tyto sítě obsahují vyhledávací mechanismy jako nedílnou součást své funkčnosti, a proto nejsou cílem projektu.

Návrh řešení

Vyhledávání v audio a video souborech je možné dvěma způsoby.

Prvním způsobem je porovnávání obsahu s vyhledávaným vzorem (například slovo vůči zvukovému záznamu, obrázek vůči filmu nebo text vůči titulkům). Tento způsob vyhledávání vzhledem k Internetu nelze v současné době díky nízké kvalitě záznamů, nízkému relativnímu výkonu vyhledávacích algoritmů na běžně dostupných zařízeních a heterogenitě materiálu (velké množství kodeků a formátů) aplikovat.

Druhým způsobem je vyhledávání v metadatech, což jsou textová data, která jsou uložena tak, aby byla dostupná současně s vlastním materiálem. V prostředí Internetu převažují metadata uložená přímo v multimediálních souborech, respektive na webových stránkách, které na příslušné soubory ukazují. Textovou informaci je potom možné zpracovat analogicky k plnotextovému vyhledávání. Pro plnotextové vyhledávání je dnes k dispozici velké množství softwaru (včetně balíků dostupných zdarma). My jsme zvolili formu spolupráce s plnotextovým vyhledávačem Jyxo (řešitelský tým se nemusel zabývat během systému a front-endem pro uživatele). Spolupráce s běžícím systémem nám také umožnila získat dostatečně široký objem materiálu k vyhledávání.

Popis systému

Systém je tvořen standardními komponentami plnotextového internetového vyhledávače (crawler, indexer, front-end), se kterými je integrována komponenta „distiller“, jež získává metadata z definovaných multimediálních souborů. Tato komponenta komunikuje offline s ostatními komponentami systému standardními protokoly (SSH/SCP), rozhraními (čistý text a XML) je snadno integrovatelná do jakéhokoliv prostředí.

Komponenta crawler ze stránek, které získá procházením WWW, uloží URL audio a video souborů (filtr je nastaven na přípony souborů a content-type poskytované serverem) do textového souboru (každé URL jeden řádek). Tento soubor je následně protokolem SCP přenesen na server, kde k němu má přístup distiller. Distiller při zpracování souboru prochází jednotlivá URL a z nalezených metadat vytváří XML soubory , které umisťuje do výstupního adresáře. Z tohoto adresáře jsou protokolem SCP přeneseny do systému, kde běží indexer, který z dat vytváří běžnou plnotextovou databázi, nad níž uživatelé vyhledávají.

Distiller

Klíčovou komponentou systému je distiller. Vzhledem k potřebě indexovat co nejširší spektrum formátů a kodeků (a dynamickému vývoji v této oblasti) jsme upustili od tvorby vlastního dekodéru. V průběhu vývoje jsme vyzkoušeli několik jednoúčelových utilit dostupných volně na Internetu, nicméně se nám nepodařilo získat uspokojivou kvalitu dat a stabilitu systému.

Výsledná podoba distilleru je Win32 aplikace, jež předává jednotlivá URL ActiveX (OLE) objektům, které jsou součástí multimediálních přehrávačů (RealOne Player a Windows Media Player). Tyto objekty se posléze pokoušejí otevřít URL některým z kodeků nabízených operačním systémem (Windows Media) nebo dodávaných pro přehrávač RealOne Player. Data získaná porovnáním výstupů z obou objektů jsou pak transformována do formátu XML.

Dostupnost materiálu a jeho korektní formát řeší přehrávač (v případě, že soubor nelze načíst, vrátí ActiveX objekt chybový stav).

Závěr

Podařilo se nám přiměřeným úsilím dosáhnout stavu, kdy máme k dispozici vyhledávač audio a video dat. Systém není závislý na použitých kodecích ani na formátech, pokud jsou podporovány dostupnými multimediálními prohlížeči (ano, v další verzi počítáme s podporou MPEG-4). Systém podporuje jak materiál vystavený ke stažení (download), tak materiál dostupný proudováním (streaming).

V průběhu práce jsme narazili na několik problémů, které se nám nepodařilo uspokojivě vyřešit. Problémem systémovým, který není možné odstranit, je fakt, že vystavovatelé multimediálního obsahu metadata prostě nevyplňují (obvykle z neznalosti). Jisté problémy způsobila také skutečnost, že užívané ActiveX objekty nejsou schopny podat korektní informace o některých metadatech uložených u souborů (typicky jde o rychlost přenosu u formátu Real Video) – tyto problémy hodláme řešit v další verzi distilleru.

Upřesnění

Článek je zkrácenou a zjednodušenou verzí technické zprávy, která bude publikována v průběhu měsíce listopadu na této adrese.

Tento projekt je společným dílem sdružení CESNET (výzkumný projekt Platformy pro přenos a produkci videa) a společnosti Jyxo.

Řešitelský tým sestával z následujících osob:

Ivan Doležal, CESNET
Michal Illich, Jyxo
Michal Krsek, CESNET

Anketa

Potřebujete vyhledávat v audio a video datech?

Našli jste v článku chybu?

4. 11. 2003 17:42

Michal Krsek (neregistrovaný)
Pokud herci nemaji dojem, ze odehrali Hamleta celeho :-)

4. 11. 2003 13:55

Venkovan (neregistrovaný)
Je to prece Vas problem. Vy vite proc ho resite. Ja si jen precetl zpravu a urcite nejsem priznivcem toho, aby si po prvnim jednani herci sedli do jeviste a obecenstvo Hamleta dohralo.
Měšec.cz: Kdy vám stát dá na stěhování 50 000 Kč?

Kdy vám stát dá na stěhování 50 000 Kč?

Vitalia.cz: Pravda o přibírání na zimu

Pravda o přibírání na zimu

Vitalia.cz: To není kašel! Správná diagnóza zachrání život

To není kašel! Správná diagnóza zachrání život

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

DigiZone.cz: Mňam TV splnila slib a odešla z DVB-T

Mňam TV splnila slib a odešla z DVB-T

Podnikatel.cz: K EET. Štamgast už peníze na stole nenechá

K EET. Štamgast už peníze na stole nenechá

Podnikatel.cz: Zavře krám u #EET Malá pokladna a Teeta?

Zavře krám u #EET Malá pokladna a Teeta?

Podnikatel.cz: Babiše přesvědčila 89letá podnikatelka?!

Babiše přesvědčila 89letá podnikatelka?!

Vitalia.cz: Tesco: Chudá rodina si koupí levné polské kuře

Tesco: Chudá rodina si koupí levné polské kuře

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Vitalia.cz: Spor o mortadelu: podle Lidlu falšovaná nebyla

Spor o mortadelu: podle Lidlu falšovaná nebyla

DigiZone.cz: Recenze Westworld: zavraždit a...

Recenze Westworld: zavraždit a...

120na80.cz: Pánové, pečujte o svoje přirození a prostatu

Pánové, pečujte o svoje přirození a prostatu

120na80.cz: 5 poporodních problémů a jejich řešení

5 poporodních problémů a jejich řešení

Podnikatel.cz: Změny v daních z příjmů u zaměstnávání

Změny v daních z příjmů u zaměstnávání

Vitalia.cz: Chtějí si léčit kvasinky. Lék je jen v Německu

Chtějí si léčit kvasinky. Lék je jen v Německu

Lupa.cz: Google měl výpadek, nejel Gmail ani YouTube

Google měl výpadek, nejel Gmail ani YouTube

Lupa.cz: UX přestává pro firmy být magie

UX přestává pro firmy být magie

Vitalia.cz: Znáte „černý detox“? Ani to nezkoušejte

Znáte „černý detox“? Ani to nezkoušejte

Lupa.cz: Babiš: E-shopů se EET možná nebude týkat

Babiš: E-shopů se EET možná nebude týkat