Národní knihovna zpřístupnila část archivu českého Internetu

7. 12. 2005

Doba čtení: 6 minut

Autor: 29

Zástupci Národní knihovny představili včera v budově pražského Klementina projekt internetového archivu pro Českou republiku. Pět let po zahájení sběru elektronických informací obsahuje WebArchiv už 1,7 terabytů dat. Veřejnost může zatím využívat ale jen malý zlomek, nedostatečná legislativa nutí knihovnu uzavírat smlouvy o zveřejnění díla se všemi, kdo na Internetu publikují.

Přidat mezi oblíbené zdroje na Googlu

Ředitel Národní knihovny Vlastimil Ježek otevřel setkání s odbornou veřejností, vydavateli a novináři slovy: Vytváříme projekt, který nebudeme potřebovat dnes a možná ani za deset let, ale jehož výsledky snad ocení další generace. Řeč je o archivu internetových stránek a souborů s doménou .cz, který od roku 2000 vytváří Národní knihovna v Praze a Moravská zemská knihovna v Brně ve spolupráci s Ústavem výpočetní techniky brněnské Masarykovy univerzity. WebArchiv by měl získávat, archivovat a zpřístupňovat české webové zdroje a z dlouhodobého hlediska uchovávat tuto elektronickou část kulturního dědictví. Další řečníci na informačním semináři si opakovaně stěžovali na nedostatek financí a lidského personálu, trnem v oku jim byla především ale dnes už nedostatečná legislativa, která v zákonných úpravách nepamatuje na zpřístupňování zálohovaných internetových médií.

Důvody vzniku WebArchivu pracovníci Národní knihovny poměrně logicky vysvětlili. Až 90 procent dokumentů dnes existuje pouze v elektronické podobě a v konzervačním fondu instituce jsou přitom uchovávány pouze klasické tištěné publikace. Archivace online zdrojů je navíc celosvětovým trendem, jehož historie sahá do poloviny 90. let minulého století. Ukládání a uchovávání elektronických dokumentů zatím dovedly nejdále Austrálie, Kanada a severské státy Evropy. Od roku 2003 existuje nadnárodní sdružení International Internet Preservation Consorcium, jehož členy jsou národní knihovny jedenácti států a projekt Internet Archive z USA. Knihovny dalších zemí se mohou do uskupení samozřejmě připojit také.

Český WebArchiv fungoval první dva roky z peněz grantu ministerstva kultury Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet, ale po skončení úvodní státní podpory sbírá finance velmi obtížně. Projekt vznikl v době, kdy byl už v (Národní) knihovně stop stav, začínal s ním jeden člověk, nyní ho dělají lidé tři – dva jsou ale studenti na poloviční úvazek, posteskla si na informačním semináři Ludmila Celbová z oddělení elektronických online zdrojů. Hardware, který vyhledává a ukládá české internetové informace, představuje dnes trojice počítačů. Základním strojem je ProLiant DL380 se dvěma procesory Pentium III na 933 MHz, 4 GB RAM, rozhraním SCSI a dvěma gigabitovými síťovými kartami s připojením na páteř CESNET v brněnském ústavu výpočetní techniky. Počítač má pole 16 SATA disků po 400 GB, které jsou hlavním úložným prostorem celého projektu.

Kritéria výběru

Možná vás napadlo, jak asi Národní knihovna se svým WebArchivem vybírají a shromažďují stránky Internetu. Ukládá se každý český web? Probíhá to často? Archivace Internetu nabízí obecně dva základní přístupy. Buď vše nechat jen počítačům, které pak prohledávají síť a provádějí harvesting, nebo do činnosti vstoupit a změnit archivaci na výběrovou. Obě varianty mají svá úskalí, první je sice obsáhlejší, nabízí však málo přehledný výsledek, druhá je pečlivá, ale na počet stránek také chudá. Národní knihovna ČR zvolila podobně jako v případě dánského projektu Netarchive.dk možnost kombinovanou. Provádí tedy zpravidla jednou ročně velké sklizně celé domény .cz, každé čtvrtletí pak stahuje informace ze stránek, které vybrala a s jejichž autory má smlouvu o zveřejnění informací. Legislativní otázku zmíním ještě dále v textu.

Historie sklizní webového obsahu začíná v Česku rokem 2001. V rámci pilotního projektu se tehdy uskutečnil první sběr, ale šlo pouze o omezené množství. Doména .cz byla ve větším měřítku zálohována až o rok později, kdy knihovní počítač navštívil alespoň jednou 33 tisíc domén druhé úrovně, tedy celou čtvrtinu jejich tehdejšího počtu. Z deseti milionů URL bylo v roce 2002 staženo na deset milionů dokumentů, dohromady asi 250 GB dat. Sklizeň přerušila omezená kapacita výpočetní techniky a srpnové povodně. Další sběr se uskutečnil až po dvou letech, tehdy Národní knihovna shromáždila 1 TB souborů z 38,5 milionu unikátních adres. Hloubka zanoření, se kterou se zmíněné archivace prováděly, byla 25 až 50 odkazů. V letošním roce se uskutečnilo několik zkušebních sklizní české domény s využitím nového systému Heritrix, ovšem pouze do hloubky jednoho odkazu.

Mezi dokumenty, které nemají v elektronickém archivu místo, patří publikace zároveň i s tištěnou podobou. Cokoli dalšího zveřejněného pouze na Internetu může ale ve WebArchivu být, teoreticky. Na webové stránky se však aplikuje několik výběrových kritérií. Jedním z nich je obsah, který přepokládá odborné, umělecké nebo zpravodajsko-publicistické zaměření. Dalším je typ zdroje, což může být buď zpráva, seriál, monografie, konferenční příspěvek či akademická práce. Mezi kritéria výběru pro WebArchiv se počítají také český původ dokumentu, volný přístup k němu a formát, který dokážou zobrazit internetové prohlížeče bez instalace pluginů. Poslední položka může být otázkou diskuse a prochází vývojem. Dříve byl např. soubor ve formátu PDF pro browser něčím cizím, dnes ho už většina programů ale zobrazí běžně v okně. Omezující jsou také přístupové protokoly, přičemž WebArchiv zpracovává http, ftp a news. Výběr dokumentů pro archivaci každopádně není jednoduchý a konečná pravidla v této otázce zatím nebyla stanovena.

Vyhledávání

Hledání v archivu Internetu s doménou .cz je uskutečnitelné ze dvou míst, přičemž každá cesta je mírně odlišná. Na adrese WebArchivu naleznete okno vyhledávače a několik dodatečných informací ve sloupci nalevo. Po zadání dotazu do formuláře se vám ukáže přehled stránek s výskytem slova, jak jste zvyklí asi i odjinud. Jiný je však způsob zobrazení aktivního odkazu. Místo, aby byl link totožný s nadpisem, objeví se pod ukázkou z obsahu místa výskytu dva odkazy. Časová osa přenese uživatele na stránku v její podobě z určitého roku a on sám si nahoře nad dokumentem může časové období pak změnit. Přehled ukáže návštěvníkům nejdřív přehled záchytných bodů, tedy termínů, kdy byla stránka do archivu uložena. Kliknutím na jeden z údajů se člověk přenese na zvolenou internetovou adresu ve vybrané době.

Archiv české pavučiny je přístupný také z hlavní stránky Národní knihovny. Návštěvník si musí vybrat ovšem ze záložek na horním panelu možnost Katalogy a databáze a z nich si zvolit Přehled bází NK ČR. Na další stránce stačí už jen kliknout na odkaz Web – katalog elektronických zdrojů. Databáze obsahuje subjekty, které se zabývají publikováním na Internetu a jsou v katalogu registrovány. Pokud se vydavatel s Národní knihovnou také dohodl, že instituce může zveřejňovat obsah jeho stránek, najdou zde čtenáři kromě odkazu na aktuální webové stránky periodika také link do archivu knihovny.

Legislativní překážky a smlouvy s vydavateli

Už na začátku jsem zmínil, že Národní knihovna shromáždila velké množství informací, ze kterého veřejnost může vidět jen malou část. Proč? Nemůže svým čtenářům poskytovat plný přístup k elektronickým dokumentům, které archivovala. Podstatnou roli v problému hraje současný autorský zákon, ve kterém se píše sice: Do práva autorského nezasahuje knihovna (…) zhotoví-li rozmnoženinu díla pro své archivní a konzervační účely, ale norma zároveň dovoluje půjčovat díla pouze v hmotné podobě. Elektronický přístup alespoň ve formě omezené, méně pohodlné, na terminálech uvnitř knihovny, by měla umožnit novela zákona, která už prochází procesem schvalování v parlamentu. WebArchiv zatím chybějící legislativu dohání dalšími cestami a uzavírá smlouvy o zveřejňování obsahu s jednotlivými internetovými vydavateli. Oslovuje je však sám zasláním e-mailu a valné odezvy se mu nedostává. Ze 171 kontaktovaných subjektů, tvůrců webového obsahu, se celá polovina archivace nezúčastnila. Buď přímo odmítla, ale většinou na nabídku Národní knihovny ani neodpověděla. Stránky vydavatele by přitom podpisem zmíněné smlouvy narostly jen zhruba o 20 řádek meta dat a on by zajistil jejich uchování na dlouhé časy prakticky zadarmo.