Konzultace
Na web, který v posledním desetiletí vstoupil na scénu komunikačních a informačních zdrojů, lze pohlížet ze dvou úhlů – jako na médium nebo dokument. Web bývá často chápán pouze jako jakási nástěnka, na které jsou zveřejňovány dokumenty, které se většinou stejně zachovají mezi písemnými dokumenty instituce (registratura), byť v jiném kontextu. Není pochyb o tom, že v řadě případů je tento názor oprávněný, na druhé straně jej nelze absolutizovat.
Webová stránka je stejným nástrojem komunikace s veřejností jako jakékoli jiné médium. Rozdílnost názorů na daný problém je nemalým oříškem pro ty, kteří mají za úkol uchovávání dokumentů trvalé hodnoty, tj. archiváře, zmíněný problém zasahuje ale i jiné profese. Zájem na trvalém uložení nemusí mít totiž pouze archivář, ale i právník, ekonom, knihovník, popřípadě pracovník z jiného oboru. Principy hodnocení a výběru dokumentů se liší v závislosti na příslušné profesní komunitě, což se odráží i v institucionálním přístupu. Ukládáním informací z webových stránek se zabývají v zásadě dvě paměťové instituce, které se liší chápáním webu a jeho kontextu. Jsou to archivy a knihovny.
Weby v knihovnách
Knihovny pohlížejí na weby jako na publikace. V souladu s platnou legislativou totiž shromažďují vše, co je publikováno. Legislativním nástrojem je zde právo povinného výtisku.
Hlavním problémem knihoven ve vztahu k webům je skutečnost, že knihovny většinou nemají možnost přístupu k vlastním zdrojovým kódům a datům uloženým na serverech publikující instituce. Hledaly proto nástroj, který by jim umožnil výstupy z webů shromažďovat, dlouhodobě ukládat a zpřístupňovat. Problém ale není jen v tom jak archivovat, ale co archivovat.
Je zřejmé, že každá knihovna nemá prostředky na to, aby si pro vlastní potřebu vytvářela archiv celého světového webu, zároveň ale není možné spoléhat se výhradně na vydavatele elektronických informačních zdrojů, kteří mohou jednou publikované dokumenty libovolně modifikovat nebo zcela odstranit. Každá vyspělá země se proto snaží (většinou prostřednictvím národní knihovny daného státu) přednostně vybudovat národní archiv elektronických informačních zdrojů.
Žádná knihovna neshromažďuje všechny webové stránky. Výběr může být prováděn ručně, nebo automatizovaně pomocí sklízeče. Ruční výběr archivuje pouze dokumenty, které vybere nějaká pověřená osoba. Tento přístup je však velmi náročný na lidské kapacity. Většina knihoven se proto vydala jinou cestou: cestou automatizované plošné archivace všech dokumentů, které splňují automaticky vyhodnotitelná kritéria.
Nástrojem automatizované sklizně webů jsou webové sklízeče, aplikace, které stahují a ukládají obsah webu podle uživatelsky definovaných parametrů. Sklízeč se nejdříve naplní sadou odkazů (URL), které definují weby k archivaci. Tyto stránky se stáhnou a analyzují se v nich odkazy, které se vyhodnotí. Odkazy mohou být buď na podstránky na stejném serveru, nebo na jiné stránky. Všechny odkazy, které odpovídají okruhu pro sklízení, se zaevidují a slouží v další vlně stahování. Opakováním tohoto procesu se docílí stažení celých webů, včetně podstránek a ostatních potřebných souborů.
Dalším významným problémem archivace webu je ukládání sklizených dat a vytváření webových archivů. Při pohledu na strukturu souborů je zřejmé, že významnou část zabírají HTML kódy a obrázky GIF a JPG (viz Graf 1, Graf 2).
Problémem archivace není jen získaná data ukládat, ale zajistit také jejich čitelnost po desetiletí, či dokonce staletí. U otevřených formátů zřejmě problémy nevzniknou, protože je k dispozici množství vhodných nástrojů na jejich čtení. Potíže jsou však s proprietárními (uzavřenými) formáty, u kterých často není zaručena kompatibilita ani mezi jednotlivými verzemi.
Vzhledem k objemu dat (například ve Finsku 500 GB, v ČR 240 GB) je stále otevřená otázka vhodného média. Dosud se používají automatické karusely s páskami. Uvedený objem dat se však již dnes vejde na pouhý jeden pevný disk, který má oproti páskám výhodu v nižší ceně a rychlejším přístupu. Za několik let bude rozdíl ještě výraznější, nemluvě o nových technologiích ukládání. To otevírá otázku migrace dat. K ukládání dat se většinou používá několik záložních úložišť, takže je možno používat pro každé z nich jiné záznamové médium.
Jedním z průkopníků na poli archivace webu je americká nezisková organizace Internet Archive, jejíž archiv sahá až do roku 1996. Tato organizace se ve spolupráci s dalšími institucemi snaží vybudovat co nejrozsáhlejší archiv světového webu. Takový záměr je však finančně vysoce nákladný, Internet Archive proto zahájil spolupráci s největšími světovými národními knihovnami (americká Kongresová knihovna, Britská knihovna, Francouzská národní knihovna a některé severské knihovny) s cílem vyvinout novou generaci nástrojů pro archivaci a zpřístupnění webových informačních zdrojů. V průběhu tří let budou na vývoj těchto nástrojů a na archivaci webů zúčastněných zemí vynaloženy přibližně 3 miliony dolarů.
Národní knihovna ČR zahájila obdobný projekt s názvem "Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet" v roce 2000. Projekt je realizován na základě grantové podpory Ministerstva kultury a ve spolupráci s Ústavem výpočetní techniky Masarykovy univerzity v Brně. Cílem je vytvořit infrastrukturu pro tvorbu digitálního archivu českého webu.
Weby v archivech
Z archivního hlediska lze obsah webu považovat za zvláštní součást registratury (písemných dokumentů) instituce. Jako takový podléhá procesu hodnocení a výběru dokumentů z hlediska jejich trvalé hodnoty. Obsahy webů tak archiváři nemusejí sklízet pomocí sklízecích strojů zvenčí (mimo konkrétní instituci), mohou je jako celek obdržet od původce. Znamená to ale zahrnout obsahy webů do spisových norem (spisových a skartačních řádů a plánů) a uložit instituci povinnost tyto části webových stránek, které jsou trvalé hodnoty, uchovat a předávat příslušnému archivu k trvalému uložení. Domníváme se, že tento postup je jednodušší a levnější. Jeho předností je uchování všech podstatných informací z webových stránek, a to v postačující funkčnosti. Volba uvedeného postupu tak znamená vyřešení řady dílčích problémů. I tak ale nelze předpokládat, že by archivy šly cestou plošného shromažďování webů, protože všechen obsah webů není trvalé hodnoty. Ba právě opak je pravdou.
Uchování webového obsahu je podmíněno komunikací a kooperací mezi archivářem, příslušným správcem webu a systémovým administrátorem. Pro archivy to znamená rozšířit působnost předarchivní péče do zcela nové oblasti. Spisové řády a spisové plány musejí nově zahrnout i dokumenty, které doposud nebyly předmětem skartačního řízení, a původci je proto jen zřídka navrhují k trvalému uložení do archivu. Pro pracovníky archivů, kteří se věnují předarchivní péči, to znamená, že v sídle původce musí komunikovat především s informatiky, kteří nemají většinou žádnou představu o nakládání s dokumenty v průběhu celého jejich životního cyklu.
Pravidla pro nakládání s weby musí rovněž přesně stanovit, kdo je odpovědný za zachování webových stránek trvalé hodnoty. Obecně by tato povinnost měla spočinout na bedrech původce, ten však v řadě případů nebude dostatečně technicky vybaven pro ukládaní obsahu webů, byť i jen během skartační lhůty, a tak by funkci měl na smluvním základě zajistit buďto poskytovatel (provider) nebo archiv.
Dalším problémem je stanovení periodicity předávání obsahu webů k uložení u původce. V této souvislosti je třeba mít na mysli, že nejde o periodickou zálohu dat ze serveru, nýbrž o dočasné uložení vybraných digitálních dokumentů trvalé hodnoty u původce. Na první pohled jde o jednoduchou otázku, zkušenosti webmasterů však ukazují, že jde o složitý problém. Většina původců veřejné správy disponuje rozsáhlými dynamicky se proměňujícími weby. Je otázkou, zda má být původce povinen uchovávat web po každé změně (pokud je to vůbec technicky proveditelné), nebo jen po změnách, které nastanou ve vybrané části webových stránek předem identifikovaných z hlediska trvalé hodnoty. Jistou paralelu zde poskytuje rozhlasové a televizní vysílání. Zde se rovněž neukládají 24hodinové záznamy vysílání z celého dne, ale pouze vybrané pořady trvalé hodnoty, například zpravodajského charakteru. Řada dokumentů, uveřejňovaných na webu, existuje i v registratuře instituce a web zde zprostředkovává pouze funkci dálkového přístupu k informacím z daných dokumentů. Skutečnost, že dokument byl zveřejněn prostřednictvím webu, nemusí být v konkrétním kontextu bez významu.
Změny jsou tak časté, že vyhodnocení informace uložené na webu z hlediska trvalé hodnoty bude objektivně úkolem původce. O to důležitější je kvalitní zpracování spisových norem a jejich aktualizace v závislosti na vývoji webu. S tím souvisí problém skartačních lhůt a způsobů předávání dat do archivu. Je jasné, že digitální dokumenty obecně, resp. jejich kopie, musejí být předávány do archivů mnohem dříve, než klasické (papírové) dokumenty. Většina odborníků se shoduje na tom, že digitální dokumenty obecně mají být předávány v co možná nejkratší době po svém vzniku. Zpravidla se hovoří o době dvou let, v případě webových stránek můžeme hovořit o ještě kratším období. Existuje tak důvodný předpoklad, že počet skartačních řízení se zmnoží a některá budou zaměřena pouze na výběr z webových stránek.
Úplný text je v časopise Veřejná správa č. 42/2005.