Pomohou metadata vyhledávání na Internetu?

22. 1. 2001

Doba čtení: 4 minuty

Profesním specialistům pomohou nejvíce. Ale při hledání běžnějších informací na tom asi ještě nějakou dobu nebudeme o moc lépe než dosud. Snah o přidělení každému souboru dat nějaký popis, určující jeho obsah, bylo a je nemálo. Tak, jak se postupně ukázaly jejich slabiny, vznikají stále nové návrhy na řešení věci.

Otázka v titulku je vlastně zbytečná. Bez metadat bychom mohli naději na nějaké rozumnější vyhledání informací v budoucnu rovnou zabalit. Určitě do doby, než povstane tak oslnivě inteligentní umělá inteligence, která pro nás vždy najde všechno přesně podle našeho osobního vkusu a tužeb.

Proč se ale metadatům dosud nedaří zapustit do Internetu kořeny? Jeho vývoj předběhl představivost. Asi jen těžko kdo si dokázal představit, jak živelným boomem Internet projde. Dnes je na něm obrovské moře dat, ale co všechno v něm plave, nikdo neví. To by možná až tak nevadilo. Ale pokud se chcete dostat k relevantním informacím o čemkoli, současné prohledávače vám nabídnou jen jejich část, ke všemu ještě povýtce historickou. Ani v Googlu neobjevíte novější podstatné, natož aktuální informace.

Chce to metadata. Ta se objevila už v raných standardech HTML pro web. Ale pro široké využití se stala bezcennými a shořela jako papír. Je smutné, že důvodem, pro který se nelze na obsah těchto metadat spolehnout, je lidské podvádění. Dříve se prohledávače Internetu řídily obsahem metadat (popisem obsahu stránek). Problém je však v tom, že si do nich každý může napsat, co chce. Největšími podvodníky byly (a jsou) erotické servery. Tak jste se třeba při hledání informací o počasí mohli ocitnout uprostřed těžkého porna.

Jedním z pokusů o charakterizování obsahu souboru dat bez ohledu na to, zde jde o webovou stránku či jiný formát dat, byla metadata PICS (Platform for Internet Content Selection). PICS se ale ukázal být příliš rigidním. Prosadil se a prosazuje především ve filtračních programech, které blokují přístup k různým formátům dat týkajících se erotiky apod. PICS je přespříliš centralistický, je nutné dodržovat jedny regule skoro pro všechno. Jedním z jeho hlavních znaků se stalo takřka školní známkování dat rozdělených do kategorií. Nicméně se od něj odvinuly některé úžeji zaměřené podoby metadat, např. MedPICS pro medicínu.

Rigidita metadat PICS se stala podnětem vývoje jejich nadějnějšího provedení RDF (Resource Description Framework). RDF využívá XML. Na RDF je zajímavá jeho decentralizovanost a „všeobjímavost“. Jak už ze slova „framework“ v názvu RDF vyplývá, jde o systém vzájemně spolupracujících částí. Na rozdíl od PICS nevyžaduje jeden stanovený slovník pro charakteristiku obsahu souborů – slovníků může být libovolný počet. Ty se mohou různě prostupovat, resp. prolínat. Prohledávání metadat RDF tak vytváří vektory, jejichž průběžná podoba se v praxi předem ani nedá určit.

V RDF můžete použít spousty slovníků od charakteristik nějakého artiklu (i kde ho na Internetu či fyzicky najdete) až po slovníky, umožňující udržovat metadata o skupinových diskusích, ba i moderovaných (jehož ověřovací kód moderátora může být součástí metadat). Pokud vás RDF zajímá, zavítejte na uvedený odkaz (a odtud na další uvedené odkazy) – možná budete velmi příjemně překvapeni tím, co všechno se s RDF bude moci dělat (je stále ve vývoji pod správou W3C).

Jednou ze zajímavostí RDF je možnost odkazovat pomocí URI (URL je subkategorie URI) nejen na jeden subjekt, ale i na jejich množinu. Tou množinou mohou být webovské stránky, servery, jakákoli skupina dat, de facto cokoli, ba i další soubor metadat.

Databáze metadat se mohou udržovat na spoustách vzájemně spolupracujících serverů. Lahůdkou pak už je prostor pro softwarové agenty, které budou metadata projíždět a hledat mezi nimi stále nové vazby, aby se jejich prohledávání urychlilo i nabylo na relevantnosti obecně nebo jen na vaše určité přání.

Samozřejmá je námitka, že když si kdokoli bude moci vytvořit jakýkoli slovník a dát si do něj cokoli, jak se zabrání podvodům? Odpověď je jednoduchá – nezabrání se jim. Ale mohou se omezit tím, na co všichni u nás už tak dlouho čekáme – elektronickým podpisem. Je zřejmé, že např. dobré recenze čehokoli píšou hlavně zdatní recenzenti. Pokud bude součástí metadat jejich podpis, který bude souhlasit s jejich podpisem v databázi podpisů profesních recenzentů, vyšťouráte ze změti dat dobré recenze na téma, jaké právě hledáte. Pro zajištění přísunu kvalitních dat bude systém ověřování zdrojů zárukou kvality (pro přesnost – nikoli však nezbytností za každou cenu). (Pozn. pro šťoury – ano, pokusů o orientaci v obsahu souborů jejich popisy je víc, ale místa je tady málo :-)

Jak z velmi stručné charakteristiky RDF vyplývá, je tento systém metadat jako stvořený pro sítě peer-to-peer, ať už je v nich každý uživatel klientem i serverem současně, nebo je v síti množství specifických serverů, které na sebe berou provádění určitých služeb. Jakmile si vyberete nějaký ze slovníků RDF, který se bude vyhovovat vašim účelům a opatříte své soubory metadaty RDF, v síti peer-to-peer se budou aktuálně prohledávat i vaše metadatové popisy. Představte si třeba takovouhle parádu – každý nový článek, opatřený metadaty, by byl via systém RDF ihned dostupný při příslušně implementovaném prohledávání sítě peer-to-peer. Na otázku po nějakém žhavém či jakémkoli jiném tématu byste z Internetu dostali tolik nabídek z tolika velkých i menších webzinů, že byste se nestačili divit. A vše vysoce aktuální od momentu, kdy se jakýkoli článek objeví na Internetu.

Stejně by to platilo pro manuály, hudební skladby, akvarijní rybičky či pletení dlouhých šál… :-) Tož, co myslíte – chce to metadata? A jak!

Vstoupit do diskuse (6 názorů)

Ladislav Zajíček

Témata:

Myšlenka je OK. Neuchytí se v celém spektru Internetu, ale mohou vzniknout oborové lokální popisy dokumentů, např. v rámci veřejné správy, kde se dá došlápnout na to, aby se používaly nějaké společné číselníky a společné popisy, vytvoří se portály, které budou tyto popisy z důvěryhodných zdrojů aktualizovat a pak prostřednictvím těchto tématických nebo oborových portálů budeme některé informace vyhledávat. Snahy o celý popis Internetu a relevantní vyhledávání v něm jako celku jsou asi spíše…

bez přezdívky

Sdílet

Autor článku

Ladislav Zajíček

Témata:

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?

Česko spustilo kvantovou síť, kterou nelze odposlouchávat. Hrozí nám ale evropská ostuda, chybí peníze

Návrh vlády: Česká televize přijde o miliardu, Český rozhlas o 400 milionů

AI agenti zaplavují internet. Boti mají tvořit polovinu provozu, provozovatelé webů se s nimi perou

Peklo pro účetní a firmy poztrácené v systému. Jak teď vypadá digitalizace státu v podobě JMHZ

Jarní fotbal na obrazovce: průvodce soutěžemi, kanály a tarify

Cloudflare na postkvantové kryptografii, Poláci kupují kvantový stroj, další firma z Evropy jde na burzu

Onsemi kupuje tvůrce procesorů z Brna, Brusel brzdí českou AI gigafactory, Microsoft zruší Ovládací panely

Svět domén v roce 2025: od kvantity ke kvalitě a bezpečnosti

Nových 500 hodin premiér Novy: skutečné kauzy pro Oneplay, ověřené seriály pro lineár

Privátní 5G sítě slibovaly hory doly, ale zatím spíš skutek utek. Změnit to chce nová největší pokusná síť v Česku

Komerční sdělení

IBM uvádí novou řadu FlashSystem x600

AI umí tvořit rychle. Ale co dnes skutečně funguje?

SafeDX Server Hotel: Deset let stabilního zázemí pro firemní IT

Pomohou metadata vyhledávání na Internetu?

Sdílet

Autor článku

Ladislav Zajíček

Témata:

Anketa

Dali byste si do počítače čínský SSD disk, případně čínské RAM?

Nejnovější články

Česko spustilo kvantovou síť, kterou nelze odposlouchávat. Hrozí nám ale evropská ostuda, chybí peníze

Návrh vlády: Česká televize přijde o miliardu, Český rozhlas o 400 milionů

AI agenti zaplavují internet. Boti mají tvořit polovinu provozu, provozovatelé webů se s nimi perou

Peklo pro účetní a firmy poztrácené v systému. Jak teď vypadá digitalizace státu v podobě JMHZ

Jarní fotbal na obrazovce: průvodce soutěžemi, kanály a tarify

Cloudflare na postkvantové kryptografii, Poláci kupují kvantový stroj, další firma z Evropy jde na burzu

Onsemi kupuje tvůrce procesorů z Brna, Brusel brzdí českou AI gigafactory, Microsoft zruší Ovládací panely

Svět domén v roce 2025: od kvantity ke kvalitě a bezpečnosti

Nových 500 hodin premiér Novy: skutečné kauzy pro Oneplay, ověřené seriály pro lineár

Privátní 5G sítě slibovaly hory doly, ale zatím spíš skutek utek. Změnit to chce nová největší pokusná síť v Česku

Komerční sdělení

IBM uvádí novou řadu FlashSystem x600

AI umí tvořit rychle. Ale co dnes skutečně funguje?

SafeDX Server Hotel: Deset let stabilního zázemí pro firemní IT

Dále u nás najdete

Říkali jim hadráři a věštili krach. Dnes patří k lídrům trhu

Někdy se zdroj bolesti najít nepodaří, přiznává lékař

V Teplicích otevřela ambulance pro léčbu golfové nohy

Spoofing: boj s ním a co se v tomto směru chystá

Náklady na jazykové modely LLM se do pěti let až desetkrát sníží

Nejrychleji rostoucí technologická firma regionu je „AI generated“

Počet obětí ransomwaru v Česku astronomicky roste

Nepodceňte návodné dokumenty a pomůcky k JMHZ

Další pokuta za švarcsystém, tentokrát pro kadeřnice

Než vznikly čerpací stanice, prodávalo se palivo v lékárnách

Generace Z se brání umělé inteligenci v práci

Ministerstvo přišlo o IT experty, kteří bojovali se starými pořádky

Chronická bolest člověka změní. Je naštvaný, zoufalý, v depresi

Při screeningu rakoviny plic lékaři zachytí i jiné nemoci. Jaké?

Penzijko se možná opět změní. Ve hře je několik úprav

CorelDRAW Graphics Suite 2026: design s Artist Intelligence

Digitální euro: jak funguje a jaké vlastnosti bude mít?

Zyxel zahajuje éru výkonných multigigabitových PoE přepínačů

Meta představuje nový AI model Muse Spark

Největší pokusná síť v ČR hledá nové využití privátního 5G