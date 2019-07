Poté, co projekt prošel přípravnou fází a dostal se do realizační etapy, se upustilo od technologie mikrofilmů, protože byla finančně neudržitelná. Do dnešní doby nicméně existují debaty o tom, zda se mají instituce typu Národní knihovna spoléhat jen na digitální technologii, když nejsou jednoznačné informace o limitech archivace digitálního dokumentu. U mikrofilmů přece jenom jsou třicetileté až čtyřicetileté zkušenosti, že tato technologie může sloužit jako archivační médium. Nicméně toto rozhodnutí, přijaté nejen z finančních důvodů, je stále v platnosti a na činnosti realizované prostřednictvím projektu Národní digitální knihovna nemá přímý vliv.

V první fázi bylo toto reformátování spojené zejména s vytvářením mikrofilmů, poté se technologie dále posunula k takzvanému hybridnímu snímkování, kdy se díky modernímu vybavení, které Národní knihovna měla k dispozici, daly pořizovat snímky v digitální i mikrofilmové kopii. To probíhalo několik let a pak, jak říkal pan inženýr Kukač, začala Národní knihovna uvažovat o spuštění velkého projektu zaměřeného jenom na digitalizaci fondů.

Kdy přesně začal projekt digitalizace? Našel jsem zmínku, že to bylo v roce 2012. Je to tak?

Při výběru dokumentů pro digitalizace ale hrají roli samozřejmě i další faktory. Snažíme se v prvé řadě digitalizovat dokumenty, které jsou ohroženy rozpadem fyzického nosiče. V minulých letech se digitalizovaly zejména dokumenty z 19. století, protože papír, na kterém jsou tištěné, patří mezi materiály citelně ohrožené degradací. Samozřejmě se přizpůsobujeme také požadavkům dalších knihoven a chceme samozřejmě mít plné vytížení skenovací jednotky.

PK: Ten výběr je prostě vícekriteriální. Cílem projektu ale je, alespoň podle toho, jak byl zadán, že se zdigitalizuje nejméně 310 milionů stran. Je to běh na dlouhou trať, odhad byl, že digitalizace bude trvat 40 let. Do kalkulací samozřejmě nemohla být zahrnuta novodobá produkce. Čili ta skenovací linka by vlastně měla běžet „navždy“. Dnes je to tak, že i kdybychom digitalizovali jen běžný přírůstek, ta linka by jela naplno i tak.



Autor: Jan Vaca Tomáš Foltýn, ředitel Odboru správy fondů Národní knihovny ČR

TF: V tomto úhlu pohledu je důležitá ta spolupráce s ostatními knihovnami. Přímo na projektu NDK (Národní digitální knihovna, pozn. red.) s námi participuje Moravská zemská knihovna, která má podobně jako my konzervační funkci. A zároveň do procesu digitalizace vstupují i další specializované nebo regionální knihovny, které se snaží digitalizovat svou oborovou literaturu či regionální produkci, kterou už pak my digitalizovat nemusíme a je to tak efektivnější.

Padl tady už údaj o počtu stránek, které chcete naskenovat. Jak jste tento počet odhadovali?

PK: Je to hodně složitá otázka. To číslo je samozřejmě odhad. Vycházeli jsme ale z toho, jak známe náš fond, a víme, kolik stránek se průměrně počítá na jeden svazek. Z hlediska bohemikální produkce máme také k dispozici informace z knihovního katalogu, kde jsou bohužel stále limity způsobené tím, že fond Národní knihovny není pořád kompletně zpracován do úrovně jednotek. To znamená, že se pohybujeme na bázi kvalifikovaných odhadů. Nicméně dříve zmíněné údaje o počtu titulů a svazků jsme měli od správců fondu v momentě, kdy se projekt připravoval. To jsme se snažili přepočítat na počet stran. Jde tedy o verifikovaný kvalifikovaný odhad.

Zuzana Kvašová (ZK): Nyní máme naskenováno 55 689 286 stran (k 7. 6. 2019, pozn. red.).

V médiích loni probleskla informace, že jste v tu chvíli byli asi na 50 milionech stran.

PK: To jsou strany, které jsou už zpřístupněny v systému Kramerius. Zahrnuje to tedy úspěšně zpracované tituly. Nezahrnujte to ty, u nichž digitalizace stále probíhá, nebo skončila neúspěšně. Číslo je zároveň výsledkem spolupráce s Moravskou zemskou knihovou, kde také vzniklo digitalizační pracoviště. Podíl produkce je zhruba 50 na 50 a knihovny si navzájem digitalizované dokumenty sdílí. Ta spolupráce je velmi důležitá.

TF: Stále se bavíme jen o produkci v rámci Národní digitální knihovny. V rámci různorodých koncepčních aktivit jsme se v uplynulých letech snažili sčítat dokumenty, které jsou k dispozici napříč celou Českou republikou, a v případě knihoven Kramerius, jejichž instalací je asi 35 napříč zemí, je k dispozici více než 150 milionů stran. Ale nejsou to vždy unikátní strany, někdy si knihovny z důvodu ochrany svého fondu obsah replikují, aby nemusely vynakládat námahu na digitalizaci svazků, které již někdo digitalizoval. V případě unikátních stran jsme na zhruba 80–90 stranách.

Zůstaňme ještě u čísel. Našel jsem, že 310 milionů stran odpovídá zhruba 180 tisícům svazků. Dá se nyní už říct, kolik procent z knih už tedy máte naskenováno?

TF: To se bohužel nedá. Jak už říkal Ing. Kukač, tak se to průběžně hýbe, protože Národní knihovna neustále dokupuje další publikace a jsou tu také povinné výtisky. Fond Národní knihovny prostě neustále roste.

Jak je to z pohledu dat? Lze říct, kolik dat tvoří jedna naskenovaná stránka?



Autor: Jan Vaca Zuzana Kvašová, ředitelka Odboru digitálních fondů Národní knihovny ČR.

PK: Dá se to, ale musíte si uvědomit, že jednotlivé publikace nemají stejný formát, tudíž je datový objem vždy jiný. My primárně skenujeme do nekomprimovaného TIFFu. Teď jsem měl například k dispozici jednu publikaci, která se skenovala víceméně na objednávku, jedna strana měla asi 32 MB. A to byl rozměr A4. Jenom tímto jednoduchým přepočtem na A4 se dostáváme na obrovské objemy.

Digitalizujeme publikace od rozměru A6 do rozměru A0, takže aproximovat to úplně nejde, navíc se ta data dál zpracovávají a vznikají jejich další kopie. V rámci zpracování se také některé soubory po úspěšné digitalizaci mažou. Finálně ukládáme v JPEG 2000.

ZK: Nyní máme v úložišti asi 270 TB dat, část z tohoto objemu tvoří data z externích digitalizací, které vznikají v dotačním podprogramu VISK 7. To je podprogram, který koordinuje Národní knihovna a jsou do něj zapojeny jiné knihovny. Tato část tvoří asi 20 TB dat.

Říkali jste, že se dokumenty skenují do TIFF a pak se ukládá v JPEG 2000.

ZK: V podstatě už během digitalizačního procesu dochází k transformaci do JPEG 2000, máme archivní kopii, která je bezeztrátová, a dále generuje uživatelskou kopii, kde dochází ke kompresi v úrovni 80 %.

PK: Právě tato komprimovaná data se používají pro systém Kramerius. V dlouhodobém úložišti jsou ale nekomprimovaná data, která jsou ve formátu JPEG 2000.

TF: Kolegy ještě doplním. Nemůžeme se bavit jen o obrazových souborech. Součástí toho datového balíčku jsou i metadata, vstupují do toho i výstupy OCR technologie. Struktura balíčku je poměrně komplikovaná (standardy NDK najdete zde).

PK: Svázaná periodika mají o několik vrstev hlubší strukturu než monografie. Monografie je titul sám o sobě. Ale ročník nějakého časopisu se skládá z jednotlivých čísel a každé číslo může mít ještě přílohu. Co se týká objemu dat, tak ke každému souboru s obrazem existuje několikasetkilobytový soubor XML a několikasetkilobytový soubor s OCR přepisem textu. Obrazové soubory ale tvoří pořád 99 % datového balíčku.

Úložiště je v prostorách Národní knihovny?

PK: Ano, je to v našich prostorách. Data se ukládají na magnetické pásky. Master copy je uložena tady v budově v Hostivaři, kopie je uložena v Klementinu a druhá kopie je v rámci zabezpečení na geograficky odloučeném pracovišti v Brně. Existují tedy tři kopie magnetických pásek.

Proč padlo rozhodnutí právě na magnetické pásky?

PK: Z dlouhodobého hlediska je to ekonomicky nejvýhodnější. Díky opravným mechanismům této technologie od IBM, byť všechno se dá samozřejmě probořit, a díky tomu, že máme soubory uloženy ve třech paré, se to považuje za dostatečně bezpečné uložení.

Nezvažovali jste i uložení u nějakého externího soukromého dodavatele?

PK: V tuhle chvíli spíš zvažujeme, že bychom tohle řešení doplnili o nějaké úložiště, které zajistí trošku pružnější a rychlejší přístup k datům. Získat data z magnetických pásek totiž není v reálném čase možné. I když jsou pásky v primárním úložišti v jedné páskové knihovně, což je vlastně takový „juke box“, kde si to mechanické rameno dokáže najít a přinést požadovanou kazetu s páskou, tak to prostě zabere nějaký čas. Není to nikdy hned a pro některé potřeby rychlých oprav, nebo rychlé získání konkrétních dat, se to nejeví jako dostatečné. Takže proto bychom to rádi systém doplnili nějakým úložištěm typu klasické diskové pole.

Minimálně ta část, která je vidět na Krameriu, je ale uložena na klasickém úložišti, ne?

PK: Ano, ta je na klasickém úložišti. Ale tato část je oddělena od samotné digitalizace. Z ní získává systém Kramerius jen některá data a pro zobrazení má vlastní úložiště.

ZK: V digitálním archivačním balíčku jsou obě kopie, jak ta k uložení, tak user kopie, která slouží k zobrazování. V průběhu procesu digitalizace (během průchodu digitalizačním workflow) se pak vyčlení ta, která je využita pro zpřístupnění. V aplikace pro zpřístupnění (Kramerius) je už jen user kopie a některá metadata. Data, která jdou do dlouhodobého úložiště, mají širší strukturu (detaily o standardech zde).



Autor: Jan Vaca Digitalizační linka je umístěna v tzv. nové budově Centrálního depozitáře NK ČR v Praze-Hostivaři. Je zde i centrální část systému NDK.

Co se všechno děje při digitalizaci dokumentu? Projíždí se to třeba vždy technologií OCR, nějak se to indexuje?

PK: Celý proces vlastně nezačíná až vlastní digitalizací. Začíná už na té přípravě dokumentů vybráním svazků z klasického fondu. Po tomto vytipování probíhá u všech dokumentů kontrola na duplicitu v rámci České republiky v systému Registr digitalizace, do kterého jsou zapojeny všechny knihovny a instituce, které digitalizují a jsou financovány z projektů hrazených ministerstvem kultury a ministerstvem školství či dalších veřejných zdrojů.

TF: Do procesu digitalizace vstupují i další instituce, které mají digitalizaci hrazenou z jiných zdrojů, například ze zahraničí či z vlastních nákladů. Vnímají to jako přidanou hodnotu, protože díky tomuto registru nevznikají uměle duplikáty. Systém Registr digitalizace je unikátní v celoevropském měřítku. Když mluvíte s kolegy z jiných zemí, tak obdobný systém většinou k dispozici nemají. V tomto ohledu jsme jednoznačně na evropské špičce.

PK: Po kontrole duplicity se dokument, který prověrkou projde, zakládá do našeho softwarového prostředí tak, aby byl identifikován. Z knihovního katalogu se následně natáhnout informace, které o něm máme. Jde o knihovnická metadata, která se nemusejí znovu pořizovat. Potom dochází k vlastnímu skenování a následně k běžné úpravě skenů typu natočení nebo ořez obrazu. Existuje mimochodem několik metod, jak dokument skenovat a ořezávat, zda zanechávat vnější okraje stránky, nebo dokument ořezávat tak, aby tam nebyl černý rámeček. Národní digitální knihovna ořezává na vnitřní okraj stránky. Přitom se zároveň kontroluje úplnost toho skenování, zda jsou obrazy dostatečně kvalitní, zda nejsou rozmazané.

Na pracovišti tvorby metadat se následně doplňují další data, která k titulu nejsou nebo nemohla být dosud pořízena automaticky, jako například technická data vzniklá během digitalizace, kdy se eviduje, s jakým rozlišením byl dokument pořízen, na jakém skeneru apod. Rovněž je potřeba doplnit hodnoty, které tam z titulu toho svazku nemohly být. Týká se to typicky svázaných periodik. Naskenujete celý svázaný ročník a je třeba odlišit, kde začíná a kde končí jednotlivá čísla, která strana je titulní, kde začíná příloha a tak dál. Což znamená už ruční práci pro kolegy z oddělení tvorby metadat. U monografií je to o tom, že se ta kniha skládá z nějaké obálky, předsádky a všechny tyto stránky se musí označit. Až když jsou veškerá tato data zkontrolována, tak je vytvořen základní balíček, který je připraven pro dlouhodobé uložení. V tuto chvíli končí digitalizační linka a data přecházejí na pracoviště Odboru digitálních fondů.

ZK: Já to jen doplním. Pro každý typ dokumentu, ať už se jedná o periodikum, nebo monografii, máme samostatný standard, jak digitalizace probíhá. Část z toho už říkal kolega, my tedy stahujeme záznam z katalogu, kde jsou klasické údaje o autorovi, potom zachováváme technická metadata, což jsou údaje o skenerech, ale zachováváme i údaje o tom, jaký software byl pro digitalizaci použit, v jaké verzi, zda docházelo k nějaké migraci a podobně. Sbíráme i administrativní metadata, to znamená veškeré informace o tom, co se všechno s dokumentem stalo, což je vynucené normami OAIS, aby byla zachována důvěryhodnost toho titulu. V oddělení metadat používáme soubor XML ve standardu METS, který obecně definuje strukturu balíčku. Takže zachováváme i údaje o tom, jak vypadá ta struktura, jak máme definované intelektuální entity, případně zdali je to jedna monografie, či vícesvazková monografie atd.

V případě periodik toto zpracování probíhá do úrovně jednotlivého čísla a všechny údaje potom musíme pospojovat do jednotlivých ročníků a titulů. Všechna metadata ještě doplňujeme o identifikátory UUID, které jsou využívány v rámci digitalizační linky. Plus používáme identifikátor URN:NBN, což je mezinárodní identifikátor pro digitální objekty. Tuto službu Národní knihovna ČR přímo provozuje prostřednictvím unikátního resolveru, tedy nástroje, jež tyto identifikátory přiděluje. My identifikátory URN:NBN přidělujeme nejen sobě, ale i institucím, které v rámci České republiky používají naše standardy. Máme tak detailní databázi toho, co už bylo v České republice v rámci novodobé digitalizace zpracováno.

TF: Ještě tu nezazněly některé drobnosti, které je ale třeba zdůraznit. Veškerá používaná identifikace je unikátní a perzistentní, což znamená, že se zachovává jedinečná digitální stopa do budoucna, což je důležité. V případě využívaných standardů je třeba také uvést, že jde o standardy plně respektující mezinárodní normy. Nejde tak o něco, co jsme si vymysleli v České republice. Používané standardy přímo navazují na pravidla vyhlašovaná například Kongresovou knihovnou, která je považována za nejvyšší autoritu v této oblasti. A třetí, drobný poznatek, poukazuje na skutečnost, že veřejnost proces digitalizace často vnímá pouze jako samotné skenování. Tato část ale tvoří z hlediska celého průběhu digitalizace nějakých 10–15 %. Až 75 % náročnosti leží právě v budování metadat, o čemž veřejnost většinou nemá ponětí.

PK: Jen doplnění k tomu, kdy Mgr. Kvašová zmiňovala, že se jde u monografií nebo periodik na úroveň čísla. Ono se jde ještě o úroveň dál, na úroveň jednotlivých stránek. Některé univerzitní knihovny jdou ale až na úroveň článku, u nás je ta nejmenší úroveň jedna stránka.

Zmínili jste, že některé knihovny jdou do úrovně článku. Jak je to u jednotlivých dokumentů? To znamená, že vzniká textový přepis kvůli vyhledávání?

PK: Ano, vzniká textový soubor z OCR.

ZK: Máme vlastně dva. Využíváme výstupní schema ALTOxml, které nabízí i možnost detekce pozice znaků na stránce. A potom využíváme klasický OCR .txt soubor, v němž jde o základní vyčtení jednotlivých znaků.

Některé zahraniční knihovny, například Rakouská národní knihovna, umožňuje vyhledávání i podle slov v digitalizovaných dokumentech. V systému Kramerius to ale asi nejde, ne?

ZK: Bohužel ne. My využíváme jen klasické OCR. ALTOxml sice vyrábíme, ale zatím ho v plné šíři nevyužíváme.

Ale je předpoklad, že se tato funkce postupně doplní?

TF: Ano, v plánu to je. Vývojový tým digitální knihovny Kramerius úzce spolupracuje s Ing. Alešem Brožkem, který v minulosti vedl krajskou knihovnu v Ústí nad Labem, hlavně se ale dlouhodobě zabývá vyhledáváním v digitálních knihovnách. Pomáhá nám nastavovat parametry, jak by vyhledávání mělo optimálně vypadat a fungovat.

Nicméně z hlediska vyhledatelnosti si je nutné uvědomit, že vždycky záleží na kvalitě skenu, kvalitě OCR a zároveň na tom, v jakém jazyku je dokument vytištěn. Co se týká novodobých dokumentů tištěných latinkou, tak tam je úroveň zpracování OCR velmi vysoká. Lze dosáhnout až 99 % úspěšnosti, že je znak rozpoznán správně. Pokud se ale vrátíme do starších vrstev, tak tam je spousta textů tištěna ať už českým, nebo německým švabachem a úspěšnost rozpoznávání znaků je na zhruba 30 %. Dokument je tak jen velmi složitě full-textově prohledatelný.

Dalším problémem je průběh samotného zónování. Z hlediska monografií je technologie OCR poměrně přesná, protože dokument se prochází vlastně pořád v jednom textovém bloku. U periodik ale do toho vstupují i obrazové přílohy, reklamy, různé typy fontů. Všechno tyto skutečnosti komplikují průběh OCR a mnohdy je třeba dokument projet OCR technologií několikrát, aby se doplnily jednotlivé typy písem nebo jazyků.

Co je tedy nejkomplikovanější při digitalizaci?

TF: To je u každého dokumentu jiné. Těžko hledat dokumenty, které by byly na 100 % identické. Vždy tam jsou nějaké rozdíly. Ale ty nejzásadnější problémy se týkají degradovaného papíru, který neumožňuje robotické skenování. Digitalizační pracoviště proto bylo konstruované tak, aby v něm byly zastoupeny různé typy skenerů. V digitalizačním pracovišti Národní knihovny ČR tak máme například ty, které mají vyvažovací plochou podložku a skenují se na nich dokumenty rozložené na 180 stupňů, dále disponujeme tzv. Vshape skenery, prostřednictvím nichž se dají digitalizovat dokumenty, které lze rozevírat jen částečně. K dispozici je i několik typů manuálních skenerů, máme rozdílné velikosti skenerů apod. Obecně je největším problémem degradovaný papír, který se musí digitalizovat velice jemně a digitalizace je hodně pomalá. V praxi se tak otáčí stránka za stránkou ručně, aby se papír nerozpadl.

Zmiňovali jste, že ten projekt vznikl před několika roky. Změnila se za tu dobu nějak výrazně i technologie skenování? Třeba z pohledu kvality výsledného výsledku?

PK: Je tam určitě posun. Otázka je, nakolik je pro nás tento posun nutný. Samozřejmě existují kamery s vyšším rozlišením, než byly v roce 2011, kdy jsme skenery vybírali. Ale když to vezmeme pohledem, že nyní skenujeme na 300 DPI a s kvalitnějšími přístroji bychom mohli skenovat na 600 DPI, tak to zase znamená vyšší datové toky. Což je limitace, která nám brání přejít na vyšší rozlišení plošně. My skenery, které jsou schopné skenovat do nativního rozlišení 600 DPI, máme, ale využíváme je selektivně, podle toho, zda to povaha dokumentu vyžaduje. Třeba když jde o velmi jemný tisk, mapu nebo obrazový soubor.

Naše největší skenery ale zároveň mají natolik stavebnicovou konstrukci, že můžeme optické členy měnit. Optiku můžeme tedy obnovovat, přístroje jsou zároveň konstruovány tak, že nosná konstrukce určitě vydrží dalších padesát let. Vyvíjí se samozřejmě také software, třeba u formátu TIFF jsme u verze 6 a začínali jsme u verze 4.



Autor: Jan Vaca Skener Treventus ScanRobot 2.0 MDS je určen na šetrné skenování s robotickým obracením stran a lineárním snímáním.

S tím souvisí přenositelnost do dalších let. Lze předpokládat, jak dlouho budou soubory čitelné v JPEG 2000? Bude se to muset nějak přeukládat?

PK: Dlouhodobé úložiště se musí vnímat ze dvou pohledů. Jedním je bitová ochrana, to znamená čitelnost média a neporušitelnost zápisu. A pak logická ochrana, která spočívá právě v tom, že vy nejen kontrolujete, že je ten balíček správně uložen, ale že je i logicky čitelný. Například formát DjVu, ve kterém se kdysi skenovalo, už přestal být podporován všemi webovými prohlížeči. Aby obsah balíčku zůstal čitelný, tak musí včas dojít ke konverzi mezi formáty na jiný formát. Formát DjVu se třeba konvertoval do JPEG 2000. Až budou indicie, že v komunitě přestává být celosvětové použitelný formát JPEG 2000, nebo třeba formát JPG používaný u systému Kramerius, tak se budeme muset zabývat tím, jak ta data překonvertujeme do jiného formátu. Ona tato činnost není sice moc vidět, ale tvoří podstatnou část práce týmu, která se o to dlouhodobé úložiště stará. Nejde jen oprašovat přístroje a hlídat, zda jde elektřina.

Jinými slovy se snažíte předejít situaci, kdy některé optické nosiče z 90. let už nelze otevřít?

PK: Národní knihovna má mimochodem ve svém zorném úhlu, že má ve svých fondech uložené i optické nosiče a musí se o ně postarat. To, co zmiňujete, samozřejmě může být problém. Třeba ty disky vůbec neotevřete. A pokud ano, tak třeba zjistíte, že dokument pochází z programu, který šel otevřít pouze na Windows 95. To je příklad logické ochrany, kdy musíte zajistit, aby data byla včas přenesená do čitelného formátu.

Existuje nějaký odhad, kdy přijde další vlna migrace?

ZK: Původně jsme počítali s tím, že k formátovým migracím bude docházet. Už v roce 2012 jsme ale zvolili formát JPEG 2000 a doteď si myslíme, že to byl dobrý krok. Je to formát, který využívá většina národních knihoven na světě. A zatím nejsou indicie, že by byl opouštěn. V mezinárodní komunitě jsou využívány dva přístupy. Migrace je jeden přístup. A druhým přístupem je emulace a v poslední době je v mezinárodním přístupu zřejmé, že se začíná přecházet víc k emulaci. Pokud ale někdy potřeba migrovat přijde, tak to bude složité i vzhledem k objemu dat a technické náročnosti zpracování.

TF: Do celé oblasti navíc vstupuje technologický vývoj, který jste sám zmínil. Přemýšlet o tom, co se stane za pět deset let, je téměř nemožné.

PK: Dřívější digitalizace před Národní digitální knihovnou ukládaly například do formátu DjVu a u nich probíhá v současné době nějaká konverze. Každá taková konverze způsobuje nějakou ztrátu, což je právě důvod, proč se některé subjekty přiklání spíše k emulaci. Prostě uložit data tak, jak jste je digitalizovali v maximální kvalitě tenkrát. Pro zobrazení pak emulujete tehdejší prostředí. V archivu zůstává původní plnohodnotný soubor.

TF: Trendy ve světě jsou různorodé. Někde se data snaží nějak znovu ukládat, v severských zemí například zachovávají k převedeným datům i původní nosiče a mechaniky, na kterých byla data uložena. Nikdy to ale nepokryje 100 % typů nosičů. V Norské národní knihovně mají obrovský sklad, takové datové silo, a vedle něj další datové silo s původními médii, disky, disketami různých formátů a podobně. Když jej procházíte, říkáte si, tohle jsem měl jako dítě, to jsem používal jako teenager. Je to taková zajímavá nostalgie.

