Netextové vyhledávání je na Internetu stále problém

9. 10. 2008

Doba čtení: 8 minut

Autor: 29

Také byste chtěli vyhledávat mezi obrázky, videi nebo hudbou? Dostupná řešení zatím většinou pracují s textovým popisem objektu, objevují se ale i jiná řešení. Některé zajímavé projekty přitom vznikají i v Česku.

Každý z uživatelů Internetu někdy vyhledával mezi netextovým obsahem, tedy v obrázcích, videu nebo v dalších souborech, které nejsou pro vyhledávače snadným soustem. V současné době naprostá většina vyhledávačů při hledání v takovém obsahu používá nakonec stejně text, například v názvu souboru, nebo v dalších popiscích, které obrázky nebo videa provázejí.

Google ve své nápovědě radí uživatelům, jak připravit internetové stránky pro úspěšné vyhledání jejich obsahu, například flashových animací nebo obrázků.

Obecně lze říci, že všechny vyhledávače jsou založeny na textu. To znamená, že aby mohl být váš obsah procházen a indexován, musí být v textovém formátu. Navíc na rozdíl od některých jiných vyhledávačů dokáže Google nyní indexovat textový obsah souborů Flash. Neznamená to, že na svých stránkách nemůžete mít obrázky, soubory Flash, videa a další multimediální obsah. Jde o to, že veškerý obsah, který vložíte do těchto souborů, by měl být rovněž dostupný v textovém formátu, jinak k němu vyhledávače nebudou moci přistupovat. Níže uvedené příklady se zaměřují na nejběžnější typy netextového obsahu, pokyny jsou však podobné i u všech ostatních typů: pro všechny netextové soubory zadejte textové ekvivalenty. Tím nejen zvýšíte schopnost prohledávače Googlebot úspěšně procházet a indexovat váš obsah. Zlepšíte tím i přístupnost svého obsahu. Mnoho lidí, včetně zrakově postižených uživatelů používajících hlasové čtečky nebo uživatelů používajících připojení s nízkou přenosovou kapacitou, nemůže vaše obrázky na webových stránkách zobrazit a poskytnutím textového ekvivalentu tak rozšiřujete své publikum, radí Google svým uživatelům.

Velkým pokrokem je již vyhledávání v textech, které obsahuje Flash. Ostatní netextové informace Google zaznamenává hlavně díky textovým alternativám. Pro zajímavost se vyplatí podívat na seznam formátů, které Google umí bez problémů indexovat.

V poslední době se technologické společnosti snaží přijít na způsob, jak prohledávat i obsah, který zatím například Googlu nebo dalším vyhledávačům uniká. Je to složitý, ale důležitý úkol, jelikož dnes je světová síť zaměřená zejména na netextový obsah, hlavně obrázky a videa. Čím více přibývá netextového obsahu, tím více roste chuť uživatelů v něm hledat. Zatím je to dost velký problém a pokud obrázek neobsahuje v názvu nebo v popisu relevantní text, uživatel ho prostě nemá šanci najít.

Jaké zajímavosti při vyhledávání netextových dat nabízí Google? Vyjádření za český Google poskytl Jan Šedivý: U videa jde o Google Video Fingerprints, to je služba na YouTube. Na Picassaweb funguje rozpoznávání tváří. Najde to jednotlivé lidi na fotografiích. Goog411 je local directory (vyhledávání telefonních čísel) servis, zatím je k dispozici jen v anglicky mluvících státech. Jedná se o rozpoznávání řeči, řeknete lokaci, podnik a dostanete telefonní číslo. (např. New York, 5th Ave., McDonald's). Tuto službu je možné vyzkoušet přes Skype na čísle +18004664411. Co se týká algoritmů, všechny tyto metody jsou založeny na statistickém modelování. Jsou to metody náročné na velikost dat i na zpracování – velká výkonnost procesoru.

A jak je na tom největší lokální hráč na poli vyhledávání, Seznam.cz? Fulltext Seznamu v současné době hledá v textech a v obrázcích. Co se týká videa, vyhledávání v něm by bylo uživatelsky velmi lákavé, ale naše představy v tomhle směru dost kříží autorská práva k videím. Pokud bychom hledali jen podle popisků videí, neměl by zase výsledek hledání smysl pro uživatele. Navíc stále nemáme po ruce žádný vhodný algoritmus, který by převáděl mluvené slovo do textu, v němž by se dalo vyhledávat. To jsou důvody, proč hledání ve videích prozatím na Seznamu nenajdete, píše Rita Gabrielová, mluvčí Seznamu. Podle informací z webu Seznamu je dodavatelem databáze obrázků Picsearch. V databázi jsou prý neuvěřitelné 2 miliardy obrázků.

Další český vyhledávač Jyxo ústy Michala Illicha sdělil svůj přístup k netextovému vyhledávání takto: V případě obrázků prohledáváme texty přiřazené samotnému obrázku a relevantní texty na stránce, kde je umístěn. V případě videa využívá náš partner Cesnet volnou kapacitu počítačů k destilaci metadat z video souborů.

Na Fakultě informatiky Masarykovy univerzity v Brně probíhá nyní zajímavý projekt pod vedením profesora Pavla Zezuly pod názvem MUFIN (Multi-Feature Indexing Network). Jeho cílem je přinést nové řešení netextového vyhledávání. Jde o rozsáhlou databázi obrázků, ve kterých je možné vyhledávat podle obsahu.

Projekt nyní pracuje s více než padesáti miliony obrázků, brzy jich bude dvakrát tolik. Celá databáze má pomoci vyřešit problém vyhledávání ve velkých databázích obsahujících netextové prvky. Na velkém vzorku dat výzkumníci hledají cestu, jak přinést světu systém vyhledávání, který začíná uživatelům povážlivě chybět. Ze zkušebního vyhledávání je zřejmé, že vyhledávání je skutečně relevantní. Způsob založený na podobnosti obrázků je zdá se správnou cestou.

Pavel Zezula k projektu poznamenává: Co se týče komerčního využití, mluvíme s řadou organizací, ale konkrétní vlastní nasazení, které by se dalo zveřejnit, zatím neexistuje. Co je možná nutné zdůraznit je, že MUFIN je univerzální vyhledávací stroj schopný pracovat pro libovolná data porovnávaná metrickou funkcí podobnosti. Demonstrační aplikace na obrázcích má jen ukázat jednu možnost, že to funguje a je schopno zpracovávat velké objemy dat (škálovatelnost). To, že je projekt na světové úrovni, ukazuje i článek na serveru Msearchgroove, kde je MUFIN kladně hodnocen.

A jak je to se zahraniční konkurencí projektu MUFIN? Co se týče vyhledávání mezi obrázky, Pavel Zezula zmínil následující služby:

TILTOMO – stejně jako MUFIN pracuje s testovací databází obrázků z Flickeru, umí vyhledat fotku s podobnou barevností nebo texturou. Stránka slouží hlavně k testování vyhledávacích algoritmů pro použití ve vyhledávání podobností mezi obrázky.

ALIPR – služba pro tagování fotek, na základě sesbíraných dat je možné vyhledávat mezi obrázky. Jde také o projekt, který spadá pod univerzitu, tentokrát jde o Penn State v USA. Profesoři LI a WANG se problematikou zabývají více než 10 let.

ImBrovse – umožňuje vyhledávat v obrázcích podle několika různých parametrů. Tento vyhledávač podle zkoušek dobře rozeznává tvary v obrázcích a dokáže najít opravdu podobné obrázky. Databáze jich obsahuje více než 700 tisíc. Projekt byl bohužel před několika lety ukončen, což vylučuje případné použití nových poznatků v praxi.

Matton – jedná se o databázi volně použitelných snímků (royalty free). I zde je možné použít netextové vyhledávání mezi obrázky, které funguje hlavně díky rozdělení snímků do kategorií a zadání parametrů snímku.

Problematika netextového vyhledávání samozřejmě zasahuje i komerční sféru a vývoj klientských aplikací, několik poznámek ze zkušeností klientů na toto téma poskytl Jan Havel ze společnosti Actum.

První diskuse se vyvinula na téma samotného pojmu netextové vyhledávání. Shodli jsme se, že má jít o vyhledávání netextového obsahu, jen je ale zajímavá úvaha, že vyhledávací GUI je stejně textový, tj. do textového pole popíšu, co hledám. V praxi je komerční zájem ze strany subjektů, pro které je tento typ obsahu jejich core business. Typicky obrázková banka (například tisková kancelář), která si ručně k obsahu pořizuje metadata, nad kterými provozuje textové vyhledávání. Zde je užitek očividný. Tato zkušenost je asi průvodním znakem netextového vyhledávání jako takového, zatím jde v podstatě o vyhledávání textové mezi metadaty.

Jan Havel pokračuje v popisu svých zkušeností s netextovým vyhledáváním ze svého osobního pohledu: Řešil jsem situaci v oblasti odborných publikací a vyhledávání v audiozáznamech ze seminářů a konferencí. Tam byl zájem vyhledávat v audiozáznamu klíčová slova přednášky, protože z hlediska uživatele ten záznam měl obdobnou hodnotu jako odborný text. Tenkrát se to myslím vyřešilo brigádníkem, který dělal přepis přednášky do skriptu, ve kterém se pak vyhledávalo textově. Ano, zatím se podobné úkoly řeší spíše „hrubou silou“ a není asi moc komerčních subjektů, který by si mohly dovolit vyvíjet nebo zaplatit vývoj aplikace, která by pracovala s matematickými modely třeba na základě podobnosti obrázků.

A jak se Jan Havel dívá na využití netextového vyhledávání běžnými uživateli Internetu? Nenašel jsem nikoho, kdo by nadšeně vyhledával obrázky kamarádů nebo z dovolených. Téměř vždy lidé „vyrazí“ směrem ke kompletní stránce, která obsahuje kombinaci textu a netextu. Jde o zajímavou myšlenku, jelikož z vlastní zkušenosti vím, že i při vyhledávání obrázků nakonec většina uživatelů skončí na webu, ze kterého obrázek pochází a zkoumá kompletní obsah, tedy texty i netextové prvky. Přesto je přínos netextového vyhledávání pro komerční i nekomerční využití neoddiskutovatelný.

Microsoft nedávno uvolnil dlouho připravovanou laboratorní hračku PhotoSynth. To mě neskutečně nadchlo, ale spíš jako technologie, než že bych viděl reálné využití. Pokud by to ale dokázalo například podle jedné fotky vyhledat podobné fotky stejného místa, najít to na mapě atd., tak to je podle mého revoluční – protože by se změnila na netextovou i část uživatelského rozhraní, zakončil Jan Havel pohledem do budoucna.

A jak vypadá takové řešení projektu netextového vyhledávání pro komerční subjekt? Stručný popis poskytl Michal Vallo ze společnosti Actum, konkrétně šlo o klienta ČTK. Jde v podstatě o zmíněný přístup, při kterém se stejně pracuje s texty.

V projektu fotobanky jsme používali poměrně komplexní systém vyhledávání pomocí metadat. Fotobanka je určená pro klienty v ČR a zahraničí, proto se zohledňovaly dvě jazykové verze. Při vyhledávání se aplikovala lemmatizace pro český a anglický jazyk, následně se uplatňoval překlad do druhého jazyka, vyhledání relevantních synonym a transkripcí (při neslovanských a arabských názvech), také odstranění nerelevantních výrazů. Toto vyhledávání se může omezit dodatečnými podmínkami, konkrétně hledání obrázků vzniklých v daném časovém období, v lokalitě, vytvořených autorem, orientovaných na výšku nebo na šířku a pod. Návrh systému je obtížný, protože zpracování požadavků je časově náročné a při miliónech popsaných obrázků v databázi se komplikovanost zvyšuje. Dostupné současné technologie neumožňují automatické rozpoznání obsahu v reálném čase a proto se pro popis obrazových dat nedají použít. Existují však některé aplikace, které řeší specifický problém. Například. rozpoznání poznávací značky automobilu na snímku je možné, protože aplikace předpokládá, že na snímku bude automobil snímaný z předem definovaného úhlu a bude mít na standardním místě značku.

Netextovému vyhledávání se prostě neubráníme, potřebujeme ho a budoucnost ukáže, jak moc. Proč by měli být uživatelé Internetu ochuzeni o vyhledávání mezi zajímavým obsahem?

Pozn. aut.: následující odkazy poskytl Pavel Zezula jako zdroj informací o dalších projektech nebo studiích, které se snaží řešit problematiku netextového vyhledávání, především mezi obrázky:

Content-based Multimedia Information Retrieval: State of the Art and Challenges [PDF, 164 kB]
Content-Based Image Retrieval Systems: A Survey
Image Retrieval: Ideas, Influences, and Trends of the New Age [PDF, 2,67 MB]

Vyhledáváte často obrázky, videa nebo jiný netextový obsah?

Vstoupit do diskuse (22 názorů)

Líbí

Nelíbí

Jan Handl

Autor je kromě jiného publicista, více informací najdete na LinkedIn. Na stránkách iNazor.net odkazuje na své články pro Lupu a další média. Ze všech vymožeností moderní doby má nejraději Twitter, zajímá ho historie a píše HistorieBlog.cz.