Hlavní navigace

Pomohou metadata vyhledávání na Internetu?

Ladislav Zajíček 22. 1. 2001

Profesním specialistům pomohou nejvíce. Ale při hledání běžnějších informací na tom asi ještě nějakou dobu nebudeme o moc lépe než dosud. Snah o přidělení každému souboru dat nějaký popis, určující jeho obsah, bylo a je nemálo. Tak, jak se postupně ukázaly jejich slabiny, vznikají stále nové návrhy na řešení věci.

Otázka v titulku je vlastně zbytečná. Bez metadat bychom mohli naději na nějaké rozumnější vyhledání informací v budoucnu rovnou zabalit. Určitě do doby, než povstane tak oslnivě inteligentní umělá inteligence, která pro nás vždy najde všechno přesně podle našeho osobního vkusu a tužeb.

Proč se ale metadatům dosud nedaří zapustit do Internetu kořeny? Jeho vývoj předběhl představivost. Asi jen těžko kdo si dokázal představit, jak živelným boomem Internet projde. Dnes je na něm obrovské moře dat, ale co všechno v něm plave, nikdo neví. To by možná až tak nevadilo. Ale pokud se chcete dostat k relevantním informacím o čemkoli, současné prohledávače vám nabídnou jen jejich část, ke všemu ještě povýtce historickou. Ani v Googlu neobjevíte novější podstatné, natož aktuální informace.

Chce to metadata. Ta se objevila už v raných standardech HTML pro web. Ale pro široké využití se stala bezcennými a shořela jako papír. Je smutné, že důvodem, pro který se nelze na obsah těchto metadat spolehnout, je lidské podvádění. Dříve se prohledávače Internetu řídily obsahem metadat (popisem obsahu stránek). Problém je však v tom, že si do nich každý může napsat, co chce. Největšími podvodníky byly (a jsou) erotické servery. Tak jste se třeba při hledání informací o počasí mohli ocitnout uprostřed těžkého porna.

Jedním z pokusů o charakterizování obsahu souboru dat bez ohledu na to, zde jde o webovou stránku či jiný formát dat, byla metadata PICS (Platform for Internet Content Selection). PICS se ale ukázal být příliš rigidním. Prosadil se a prosazuje především ve filtračních programech, které blokují přístup k různým formátům dat týkajících se erotiky apod. PICS je přespříliš centralistický, je nutné dodržovat jedny regule skoro pro všechno. Jedním z jeho hlavních znaků se stalo takřka školní známkování dat rozdělených do kategorií. Nicméně se od něj odvinuly některé úžeji zaměřené podoby metadat, např. MedPICS pro medicínu.

Rigidita metadat PICS se stala podnětem vývoje jejich nadějnějšího provedení RDF (Resource Description Framework). RDF využívá XML. Na RDF je zajímavá jeho decentralizovanost a „všeobjímavost“. Jak už ze slova „framework“ v názvu RDF vyplývá, jde o systém vzájemně spolupracujících částí. Na rozdíl od PICS nevyžaduje jeden stanovený slovník pro charakteristiku obsahu souborů – slovníků může být libovolný počet. Ty se mohou různě prostupovat, resp. prolínat. Prohledávání metadat RDF tak vytváří vektory, jejichž průběžná podoba se v praxi předem ani nedá určit.

V RDF můžete použít spousty slovníků od charakteristik nějakého artiklu (i kde ho na Internetu či fyzicky najdete) až po slovníky, umožňující udržovat metadata o skupinových diskusích, ba i moderovaných (jehož ověřovací kód moderátora může být součástí metadat). Pokud vás RDF zajímá, zavítejte na uvedený odkaz (a odtud na další uvedené odkazy) – možná budete velmi příjemně překvapeni tím, co všechno se s RDF bude moci dělat (je stále ve vývoji pod správou W3C).

Jednou ze zajímavostí RDF je možnost odkazovat pomocí URI (URL je subkategorie URI) nejen na jeden subjekt, ale i na jejich množinu. Tou množinou mohou být webovské stránky, servery, jakákoli skupina dat, de facto cokoli, ba i další soubor metadat.

Databáze metadat se mohou udržovat na spoustách vzájemně spolupracujících serverů. Lahůdkou pak už je prostor pro softwarové agenty, které budou metadata projíždět a hledat mezi nimi stále nové vazby, aby se jejich prohledávání urychlilo i nabylo na relevantnosti obecně nebo jen na vaše určité přání.

Samozřejmá je námitka, že když si kdokoli bude moci vytvořit jakýkoli slovník a dát si do něj cokoli, jak se zabrání podvodům? Odpověď je jednoduchá – nezabrání se jim. Ale mohou se omezit tím, na co všichni u nás už tak dlouho čekáme – elektronickým podpisem. Je zřejmé, že např. dobré recenze čehokoli píšou hlavně zdatní recenzenti. Pokud bude součástí metadat jejich podpis, který bude souhlasit s jejich podpisem v databázi podpisů profesních recenzentů, vyšťouráte ze změti dat dobré recenze na téma, jaké právě hledáte. Pro zajištění přísunu kvalitních dat bude systém ověřování zdrojů zárukou kvality (pro přesnost – nikoli však nezbytností za každou cenu). (Pozn. pro šťoury – ano, pokusů o orientaci v obsahu souborů jejich popisy je víc, ale místa je tady málo :-)

Jak z velmi stručné charakteristiky RDF vyplývá, je tento systém metadat jako stvořený pro sítě peer-to-peer, ať už je v nich každý uživatel klientem i serverem současně, nebo je v síti množství specifických serverů, které na sebe berou provádění určitých služeb. Jakmile si vyberete nějaký ze slovníků RDF, který se bude vyhovovat vašim účelům a opatříte své soubory metadaty RDF, v síti peer-to-peer se budou aktuálně prohledávat i vaše metadatové popisy. Představte si třeba takovouhle parádu – každý nový článek, opatřený metadaty, by byl via systém RDF ihned dostupný při příslušně implementovaném prohledávání sítě peer-to-peer. Na otázku po nějakém žhavém či jakémkoli jiném tématu byste z Internetu dostali tolik nabídek z tolika velkých i menších webzinů, že byste se nestačili divit. A vše vysoce aktuální od momentu, kdy se jakýkoli článek objeví na Internetu.

Stejně by to platilo pro manuály, hudební skladby, akvarijní rybičky či pletení dlouhých šál… :-) Tož, co myslíte – chce to metadata? A jak!

Našli jste v článku chybu?

16. 4. 2010 18:29

Eduard Nud (neregistrovaný)
To rozhodně. Vůbec nechápu, jak jsem to bez nich mohl ty čtyři roky na internetu vůbec vydržet. Obávám se ale a právem, že s těžkým pornem to bude pořád těžké. Osobně se na internetu řídím jedním pravidlem, které funguje stoprocentně tak, že to nefunguje. Zadejte absolutně cokoliv a dostanete zpět absolutně cokoliv. Na všechno existuje nápověda, tedy i na toto, řekl bych avšak, že lyžařské boty, lyžařské bundy a lyžařské lyže bych si troufl najít i bez nějaké té zasvědcené odborné studie.

23. 1. 2001 17:46

Milan Berka (neregistrovaný)
Myšlenka je OK. Neuchytí se v celém spektru Internetu, ale
mohou vzniknout oborové lokální popisy dokumentů, např. v
rámci veřejné správy, kde se dá došlápnout na to, aby se používaly nějaké společné číselníky a společné popisy, vytvoří se portály, které budou tyto popisy z důvěryhodných zdrojů aktualizovat a pak prostřednictvím těchto tématických nebo oborových portálů budeme některé informace vyhledávat.
Snahy o celý popis Internetu a relevantní vyhledávání v něm jako celku jsou asi spíše z…


Vitalia.cz: Naučí vás péct kváskový chléb bez lepku i s lepkem

Naučí vás péct kváskový chléb bez lepku i s lepkem

Vitalia.cz: Jste stále nemocní? Chybí vám zinek

Jste stále nemocní? Chybí vám zinek

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Root.cz: Vypadl Google a rozbilo se toho hodně

Vypadl Google a rozbilo se toho hodně

Lupa.cz: Babiš: E-shopů se EET možná nebude týkat

Babiš: E-shopů se EET možná nebude týkat

DigiZone.cz: ČT má dalšího zástupce v EBU

ČT má dalšího zástupce v EBU

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Podnikatel.cz: Na 3. prosince se chystá protest proti EET

Na 3. prosince se chystá protest proti EET

Podnikatel.cz: 3, 2, 1..EET startuje. Na co nezapomenout?

3, 2, 1..EET startuje. Na co nezapomenout?

Podnikatel.cz: S.r.o. využívá cizí auto. Jak je to s daněmi?

S.r.o. využívá cizí auto. Jak je to s daněmi?

DigiZone.cz: Další dva kanály nabídnou HbbTV

Další dva kanály nabídnou HbbTV

Měšec.cz: Zdravotní a sociální pojištění 2017: Připlatíte

Zdravotní a sociální pojištění 2017: Připlatíte

Měšec.cz: Golfové pojištění: kde si jej můžete sjednat?

Golfové pojištění: kde si jej můžete sjednat?

Vitalia.cz: Chtějí si léčit kvasinky. Lék je jen v Německu

Chtějí si léčit kvasinky. Lék je jen v Německu

Podnikatel.cz: K EET. Štamgast už peníze na stole nenechá

K EET. Štamgast už peníze na stole nenechá

Měšec.cz: Banky mlží o nákladech na předčasnou splátku hypotéky

Banky mlží o nákladech na předčasnou splátku hypotéky

Root.cz: Telegram spustil anonymní blog Telegraph

Telegram spustil anonymní blog Telegraph

Měšec.cz: Kdy vám stát dá na stěhování 50 000 Kč?

Kdy vám stát dá na stěhování 50 000 Kč?

120na80.cz: Rovnátka, která nejsou vidět

Rovnátka, která nejsou vidět

DigiZone.cz: Milan Kruml: procházka TV historií

Milan Kruml: procházka TV historií