Hlavní navigace

Národní knihovna zpřístupnila část archivu českého Internetu

 Autor: 29
Jan Kálal

Zástupci Národní knihovny představili včera v budově pražského Klementina projekt internetového archivu pro Českou republiku. Pět let po zahájení sběru elektronických informací obsahuje WebArchiv už 1,7 terabytů dat. Veřejnost může zatím využívat ale jen malý zlomek, nedostatečná legislativa nutí knihovnu uzavírat smlouvy o zveřejnění díla se všemi, kdo na Internetu publikují.

Ředitel Národní knihovny Vlastimil Ježek otevřel setkání s odbornou veřejností, vydavateli a novináři slovy: Vytváříme projekt, který nebudeme potřebovat dnes a možná ani za deset let, ale jehož výsledky snad ocení další generace. Řeč je o archivu internetových stránek a souborů s doménou .cz, který od roku 2000 vytváří Národní knihovna v Praze a Moravská zemská knihovna v Brně ve spolupráci s Ústavem výpočetní techniky brněnské Masarykovy univerzity. WebArchiv by měl získávat, archivovat a zpřístupňovat české webové zdroje a z dlouhodobého hlediska uchovávat tuto elektronickou část kulturního dědictví. Další řečníci na informačním semináři si opakovaně stěžovali na nedostatek financí a lidského personálu, trnem v oku jim byla především ale dnes už nedostatečná legislativa, která v zákonných úpravách nepamatuje na zpřístupňování zálohovaných internetových mé­dií.

Důvody vzniku WebArchivu pracovníci Národní knihovny poměrně logicky vysvětlili. Až 90 procent dokumentů dnes existuje pouze v elektronické podobě a v konzervačním fondu instituce jsou přitom uchovávány pouze klasické tištěné publikace. Archivace online zdrojů je navíc celosvětovým trendem, jehož historie sahá do poloviny 90. let minulého století. Ukládání a uchovávání elektronických dokumentů zatím dovedly nejdále Austrálie, Kanada a severské státy Evropy. Od roku 2003 existuje nadnárodní sdružení International Internet Preservation Consorcium, jehož členy jsou národní knihovny jedenácti států a projekt Internet Archive z USA. Knihovny dalších zemí se mohou do uskupení samozřejmě připojit také.

Český WebArchiv fungoval první dva roky z peněz grantu ministerstva kultury Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet, ale po skončení úvodní státní podpory sbírá finance velmi obtížně. Projekt vznikl v době, kdy byl už v (Národní) knihovně stop stav, začínal s ním jeden člověk, nyní ho dělají lidé tři – dva jsou ale studenti na poloviční úvazek, posteskla si na informačním semináři Ludmila Celbová z oddělení elektronických online zdrojů. Hardware, který vyhledává a ukládá české internetové informace, představuje dnes trojice počítačů. Základním strojem je ProLiant DL380 se dvěma procesory Pentium III na 933 MHz, 4 GB RAM, rozhraním SCSI a dvěma gigabitovými síťovými kartami s připojením na páteř CESNET v brněnském ústavu výpočetní techniky. Počítač má pole 16 SATA disků po 400 GB, které jsou hlavním úložným prostorem celého projektu.

Kritéria výběru

Možná vás napadlo, jak asi Národní knihovna se svým WebArchivem vybírají a shromažďují stránky Internetu. Ukládá se každý český web? Probíhá to často? Archivace Internetu nabízí obecně dva základní přístupy. Buď vše nechat jen počítačům, které pak prohledávají síť a provádějí harvesting, nebo do činnosti vstoupit a změnit archivaci na výběrovou. Obě varianty mají svá úskalí, první je sice obsáhlejší, nabízí však málo přehledný výsledek, druhá je pečlivá, ale na počet stránek také chudá. Národní knihovna ČR zvolila podobně jako v případě dánského projektu Netarchive.dk možnost kombinovanou. Provádí tedy zpravidla jednou ročně velké sklizně celé domény .cz, každé čtvrtletí pak stahuje informace ze stránek, které vybrala a s jejichž autory má smlouvu o zveřejnění informací. Legislativní otázku zmíním ještě dále v textu.

Historie sklizní webového obsahu začíná v Česku rokem 2001. V rámci pilotního projektu se tehdy uskutečnil první sběr, ale šlo pouze o omezené množství. Doména .cz byla ve větším měřítku zálohována až o rok později, kdy knihovní počítač navštívil alespoň jednou 33 tisíc domén druhé úrovně, tedy celou čtvrtinu jejich tehdejšího počtu. Z deseti milionů URL bylo v roce 2002 staženo na deset milionů dokumentů, dohromady asi 250 GB dat. Sklizeň přerušila omezená kapacita výpočetní techniky a srpnové povodně. Další sběr se uskutečnil až po dvou letech, tehdy Národní knihovna shromáždila 1 TB souborů z 38,5 milionu unikátních adres. Hloubka zanoření, se kterou se zmíněné archivace prováděly, byla 25 až 50 odkazů. V letošním roce se uskutečnilo několik zkušebních sklizní české domény s využitím nového systému Heritrix, ovšem pouze do hloubky jednoho odkazu.

Mezi dokumenty, které nemají v elektronickém archivu místo, patří publikace zároveň i s tištěnou podobou. Cokoli dalšího zveřejněného pouze na Internetu může ale ve WebArchivu být, teoreticky. Na webové stránky se však aplikuje několik výběrových kritérií. Jedním z nich je obsah, který přepokládá odborné, umělecké nebo zpravodajsko-publicistické zaměření. Dalším je typ zdroje, což může být buď zpráva, seriál, monografie, konferenční příspěvek či akademická práce. Mezi kritéria výběru pro WebArchiv se počítají také český původ dokumentu, volný přístup k němu a formát, který dokážou zobrazit internetové prohlížeče bez instalace pluginů. Poslední položka může být otázkou diskuse a prochází vývojem. Dříve byl např. soubor ve formátu PDF pro browser něčím cizím, dnes ho už většina programů ale zobrazí běžně v okně. Omezující jsou také přístupové protokoly, přičemž WebArchiv zpracovává http, ftp a news. Výběr dokumentů pro archivaci každopádně není jednoduchý a konečná pravidla v této otázce zatím nebyla stanovena.

WebArchiv - vyhledavani

Vyhledávání

Hledání v archivu Internetu s doménou .cz je uskutečnitelné ze dvou míst, přičemž každá cesta je mírně odlišná. Na adrese WebArchivu naleznete okno vyhledávače a několik dodatečných informací ve sloupci nalevo. Po zadání dotazu do formuláře se vám ukáže přehled stránek s výskytem slova, jak jste zvyklí asi i odjinud. Jiný je však způsob zobrazení aktivního odkazu. Místo, aby byl link totožný s nadpisem, objeví se pod ukázkou z obsahu místa výskytu dva odkazy. Časová osa přenese uživatele na stránku v její podobě z určitého roku a on sám si nahoře nad dokumentem může časové období pak změnit. Přehled ukáže návštěvníkům nejdřív přehled záchytných bodů, tedy termínů, kdy byla stránka do archivu uložena. Kliknutím na jeden z údajů se člověk přenese na zvolenou internetovou adresu ve vybrané době.

WebArchiv - osa

Archiv české pavučiny je přístupný také z hlavní stránky Národní knihovny. Návštěvník si musí vybrat ovšem ze záložek na horním panelu možnost Katalogy a databáze a z nich si zvolit Přehled bází NK ČR. Na další stránce stačí už jen kliknout na odkaz Web – katalog elektronických zdrojů. Databáze obsahuje subjekty, které se zabývají publikováním na Internetu a jsou v katalogu registrovány. Pokud se vydavatel s Národní knihovnou také dohodl, že instituce může zveřejňovat obsah jeho stránek, najdou zde čtenáři kromě odkazu na aktuální webové stránky periodika také link do archivu knihovny.

WebArchiv - elektronicke baze NK

Legislativní překážky a smlouvy s vydavateli

Už na začátku jsem zmínil, že Národní knihovna shromáždila velké množství informací, ze kterého veřejnost může vidět jen malou část. Proč? Nemůže svým čtenářům poskytovat plný přístup k elektronickým dokumentům, které archivovala. Podstatnou roli v problému hraje současný autorský zákon, ve kterém se píše sice: Do práva autorského nezasahuje knihovna (…) zhotoví-li rozmnoženinu díla pro své archivní a konzervační účely, ale norma zároveň dovoluje půjčovat díla pouze v hmotné podobě. Elektronický přístup alespoň ve formě omezené, méně pohodlné, na terminálech uvnitř knihovny, by měla umožnit novela zákona, která už prochází procesem schvalování v parlamentu. WebArchiv zatím chybějící legislativu dohání dalšími cestami a uzavírá smlouvy o zveřejňování obsahu s jednotlivými internetovými vydavateli. Oslovuje je však sám zasláním e-mailu a valné odezvy se mu nedostává. Ze 171 kontaktovaných subjektů, tvůrců webového obsahu, se celá polovina archivace nezúčastnila. Buď přímo odmítla, ale většinou na nabídku Národní knihovny ani neodpověděla. Stránky vydavatele by přitom podpisem zmíněné smlouvy narostly jen zhruba o 20 řádek meta dat a on by zajistil jejich uchování na dlouhé časy prakticky zadarmo.

WebArchiv - metadata

Anketa

Vyhledávali jste už v nějakém archivu internetu?

Našli jste v článku chybu?

13. 12. 2005 15:12

Jan Hutař (neregistrovaný)
dobry den,
mate pravdu, prirovnani je presne. Ovsem je nutno si uvedomit, ze projekt je ve svem pocatku. Tj. sklizi se max. 2x rocne, a to do hloubky 25-50 odkazu. U zdroju, na ktere mame smlouvu se pocita zatim se 4 skliznemi za rok. U zpravodajskych serveru je stale problem, ovsem v budoucnu se pocita s castejsi sklizni. Robot je schopny poznat a sklidit pouze "nove" veci, takze nestahuje tuny balastu okolo.
Proc neni uzakonena povinnost vydavatele? To co popisujete se nazyva Povinn…

13. 12. 2005 14:03

Jan Hutař (neregistrovaný)
dobry den,
dekuji na upozorneni, je asi opravdu treba formulaci na nasem webu zmenit.
K otazce c.3 - v soucasne dobe jsou zaznamy spolupracujicich zdroju v samostatne bazi WEB, viz http://sigma.nkp.cz/F. Soucasti baze NKC, coz je katalog Narodni knihovny, bude behem 14 dni - od noveho roku (ceka se na nasazeni nove verze systemu Aleph).Dojde tedy k vnoreni baze WEB do NKC.
Internet Archive opravdu archivuje spoustu ceskych stranek, ovsem sam uznate, ze pokud maji zaber na cely svetovy web, tak …


Měšec.cz: Zdravotní a sociální pojištění 2017: Připlatíte

Zdravotní a sociální pojištění 2017: Připlatíte

Podnikatel.cz: Babiše přesvědčila 89letá podnikatelka?!

Babiše přesvědčila 89letá podnikatelka?!

Podnikatel.cz: Přehledná titulka, průvodci, responzivita

Přehledná titulka, průvodci, responzivita

Vitalia.cz: Znáte „černý detox“? Ani to nezkoušejte

Znáte „černý detox“? Ani to nezkoušejte

Vitalia.cz: 7 druhů hotových těst na vánoční cukroví

7 druhů hotových těst na vánoční cukroví

120na80.cz: Co všechno ovlivňuje ženskou plodnost?

Co všechno ovlivňuje ženskou plodnost?

Podnikatel.cz: K EET. Štamgast už peníze na stole nenechá

K EET. Štamgast už peníze na stole nenechá

Vitalia.cz: Spor o mortadelu: podle Lidlu falšovaná nebyla

Spor o mortadelu: podle Lidlu falšovaná nebyla

Root.cz: 250 Mbit/s po telefonní lince, když máte štěstí

250 Mbit/s po telefonní lince, když máte štěstí

Měšec.cz: Banky mlží o nákladech na předčasnou splátku hypotéky

Banky mlží o nákladech na předčasnou splátku hypotéky

Podnikatel.cz: EET: Totálně nezvládli metodologii projektu

EET: Totálně nezvládli metodologii projektu

Vitalia.cz: Jsou čajové sáčky toxické?

Jsou čajové sáčky toxické?

Vitalia.cz: Nahradí sluch, ale zvuk je zcela jiný

Nahradí sluch, ale zvuk je zcela jiný

Měšec.cz: Europlatby: někde bez poplatku, jinde i 350 Kč

Europlatby: někde bez poplatku, jinde i 350 Kč

Podnikatel.cz: Vládu obejde, kvůli EET rovnou do sněmovny

Vládu obejde, kvůli EET rovnou do sněmovny

Měšec.cz: Vklad na cizí účet je draze zpoplatněn (přehled)

Vklad na cizí účet je draze zpoplatněn (přehled)

Měšec.cz: Air Bank zruší TOP3 garanci a zdražuje kurzy

Air Bank zruší TOP3 garanci a zdražuje kurzy

Root.cz: Mirai má nový cíl 5 milionů routerů

Mirai má nový cíl 5 milionů routerů

DigiZone.cz: ČT má dalšího zástupce v EBU

ČT má dalšího zástupce v EBU

Vitalia.cz: Mondelez stahuje rizikovou čokoládu Milka

Mondelez stahuje rizikovou čokoládu Milka