Hlavní navigace

Pomohou metadata vyhledávání na Internetu?

Ladislav Zajíček

Profesním specialistům pomohou nejvíce. Ale při hledání běžnějších informací na tom asi ještě nějakou dobu nebudeme o moc lépe než dosud. Snah o přidělení každému souboru dat nějaký popis, určující jeho obsah, bylo a je nemálo. Tak, jak se postupně ukázaly jejich slabiny, vznikají stále nové návrhy na řešení věci.

Otázka v titulku je vlastně zbytečná. Bez metadat bychom mohli naději na nějaké rozumnější vyhledání informací v budoucnu rovnou zabalit. Určitě do doby, než povstane tak oslnivě inteligentní umělá inteligence, která pro nás vždy najde všechno přesně podle našeho osobního vkusu a tužeb.

Proč se ale metadatům dosud nedaří zapustit do Internetu kořeny? Jeho vývoj předběhl představivost. Asi jen těžko kdo si dokázal představit, jak živelným boomem Internet projde. Dnes je na něm obrovské moře dat, ale co všechno v něm plave, nikdo neví. To by možná až tak nevadilo. Ale pokud se chcete dostat k relevantním informacím o čemkoli, současné prohledávače vám nabídnou jen jejich část, ke všemu ještě povýtce historickou. Ani v Googlu neobjevíte novější podstatné, natož aktuální informace.

Chce to metadata. Ta se objevila už v raných standardech HTML pro web. Ale pro široké využití se stala bezcennými a shořela jako papír. Je smutné, že důvodem, pro který se nelze na obsah těchto metadat spolehnout, je lidské podvádění. Dříve se prohledávače Internetu řídily obsahem metadat (popisem obsahu stránek). Problém je však v tom, že si do nich každý může napsat, co chce. Největšími podvodníky byly (a jsou) erotické servery. Tak jste se třeba při hledání informací o počasí mohli ocitnout uprostřed těžkého porna.

Jedním z pokusů o charakterizování obsahu souboru dat bez ohledu na to, zde jde o webovou stránku či jiný formát dat, byla metadata PICS (Platform for Internet Content Selection). PICS se ale ukázal být příliš rigidním. Prosadil se a prosazuje především ve filtračních programech, které blokují přístup k různým formátům dat týkajících se erotiky apod. PICS je přespříliš centralistický, je nutné dodržovat jedny regule skoro pro všechno. Jedním z jeho hlavních znaků se stalo takřka školní známkování dat rozdělených do kategorií. Nicméně se od něj odvinuly některé úžeji zaměřené podoby metadat, např. MedPICS pro medicínu.

Rigidita metadat PICS se stala podnětem vývoje jejich nadějnějšího provedení RDF (Resource Description Framework). RDF využívá XML. Na RDF je zajímavá jeho decentralizovanost a „všeobjímavost“. Jak už ze slova „framework“ v názvu RDF vyplývá, jde o systém vzájemně spolupracujících částí. Na rozdíl od PICS nevyžaduje jeden stanovený slovník pro charakteristiku obsahu souborů – slovníků může být libovolný počet. Ty se mohou různě prostupovat, resp. prolínat. Prohledávání metadat RDF tak vytváří vektory, jejichž průběžná podoba se v praxi předem ani nedá určit.

V RDF můžete použít spousty slovníků od charakteristik nějakého artiklu (i kde ho na Internetu či fyzicky najdete) až po slovníky, umožňující udržovat metadata o skupinových diskusích, ba i moderovaných (jehož ověřovací kód moderátora může být součástí metadat). Pokud vás RDF zajímá, zavítejte na uvedený odkaz (a odtud na další uvedené odkazy) – možná budete velmi příjemně překvapeni tím, co všechno se s RDF bude moci dělat (je stále ve vývoji pod správou W3C).

Jednou ze zajímavostí RDF je možnost odkazovat pomocí URI (URL je subkategorie URI) nejen na jeden subjekt, ale i na jejich množinu. Tou množinou mohou být webovské stránky, servery, jakákoli skupina dat, de facto cokoli, ba i další soubor metadat.

Databáze metadat se mohou udržovat na spoustách vzájemně spolupracujících serverů. Lahůdkou pak už je prostor pro softwarové agenty, které budou metadata projíždět a hledat mezi nimi stále nové vazby, aby se jejich prohledávání urychlilo i nabylo na relevantnosti obecně nebo jen na vaše určité přání.

Samozřejmá je námitka, že když si kdokoli bude moci vytvořit jakýkoli slovník a dát si do něj cokoli, jak se zabrání podvodům? Odpověď je jednoduchá – nezabrání se jim. Ale mohou se omezit tím, na co všichni u nás už tak dlouho čekáme – elektronickým podpisem. Je zřejmé, že např. dobré recenze čehokoli píšou hlavně zdatní recenzenti. Pokud bude součástí metadat jejich podpis, který bude souhlasit s jejich podpisem v databázi podpisů profesních recenzentů, vyšťouráte ze změti dat dobré recenze na téma, jaké právě hledáte. Pro zajištění přísunu kvalitních dat bude systém ověřování zdrojů zárukou kvality (pro přesnost – nikoli však nezbytností za každou cenu). (Pozn. pro šťoury – ano, pokusů o orientaci v obsahu souborů jejich popisy je víc, ale místa je tady málo :-)

CIF17_Williams1

Jak z velmi stručné charakteristiky RDF vyplývá, je tento systém metadat jako stvořený pro sítě peer-to-peer, ať už je v nich každý uživatel klientem i serverem současně, nebo je v síti množství specifických serverů, které na sebe berou provádění určitých služeb. Jakmile si vyberete nějaký ze slovníků RDF, který se bude vyhovovat vašim účelům a opatříte své soubory metadaty RDF, v síti peer-to-peer se budou aktuálně prohledávat i vaše metadatové popisy. Představte si třeba takovouhle parádu – každý nový článek, opatřený metadaty, by byl via systém RDF ihned dostupný při příslušně implementovaném prohledávání sítě peer-to-peer. Na otázku po nějakém žhavém či jakémkoli jiném tématu byste z Internetu dostali tolik nabídek z tolika velkých i menších webzinů, že byste se nestačili divit. A vše vysoce aktuální od momentu, kdy se jakýkoli článek objeví na Internetu.

Stejně by to platilo pro manuály, hudební skladby, akvarijní rybičky či pletení dlouhých šál… :-) Tož, co myslíte – chce to metadata? A jak!

Našli jste v článku chybu?