Týdeník Veřejná správa


 E-government

Foto: Milan Weinzettl Oskar Macek
Michal Wanner

Odkud to pochází?

Provenience dokumentů v digitální podobě



Vyšlo v čísle 36/2007

Badatel, který se vydá do archivu studovat dokumenty k určitému tématu, musí s prameny, které jsou mu předloženy, pracovat kriticky. Historické dokumenty jen výjimečně vznikaly jako materiál pro budoucího badatele. Při práci s nimi je proto nezbytná značná opatrnost.

Badatel tak zákonitě dříve nebo později narazí na problém provenience. Provenience označuje v obecném smyslu původ - místně i věcně vymezené prostředí, ve kterém daný pramen vznikl. Definici provenience uvádí Mezinárodní standard pro popis původců archiválií jako fyzických a právnických osob (ISAAR (G) - International Standard Archival Authority Record for Corporate Bodies, Person and Families) následovně - "Proveniencí se rozumí organizace nebo osoba, která vytvořila, shromáždila nebo udržovala, a využívala dokumenty při vedení aktivit jednotlivců nebo institucí." Pro digitální prostředí je ale pravděpodobně mnohem příhodnější definice provenience, kterou uvádí Všeobecný mezinárodní standard popisu archiválií (ISAD (G), 2nd edition, 2000) "Provenience ukazuje vztahy mezi dokumenty a organizacemi nebo jednotlivci, kteří je vytvářeli, shromažďovali nebo udržovali, a využívali je při vedení aktivit jednotlivců nebo institucí." Zatímco první definice ztotožňuje provenienci s původcem, druhá ji chápe jako souhrn vztahů mezi dokumenty a původci.

Dokumentace provenience

Provenience je mimo jiné to, co dodává dokumentům smysl. Je to jedno z kriterií, které činí dokumenty hodnými trvalého uchování. Abychom mohli tyto dokumenty využívat a pochopit, musíme znát smysl a kontext jejich vzniku. Musíme pochopit a dokumentovat vztahy mezi činností zabývající se uchováváním dokumentů a dokumenty vytvořenými organizacemi nebo osobami. Dokumentace provenience může být současně využitelná při zpřístupňování dokumentů. To vše klade důraz na popis dokumentů, respektive metadata.

Provenience digitálních dokumentů je přitom mnohem komplexnější, než jak ji znají tradiční systémy archivního popisu. Například dokumenty zobrazované prostřednictvím webových prohlížečů mohou být vytvořeny pomocí dynamických odkazů na různé záznamy uložené na různých místech světa. Dokumenty jsou nezřídka tvořeny několika původci dislokovanými na několika místech. Vztahy mezi nimi a dokumenty jsou zde podstatně složitější a nemusí mezi nimi panovat žádný přímý vztah.

Pokud dokument zasílaný prostřednictvím služby elektronické pošty není podepsán zaručeným elektronickým podpisem a opatřen časovým razítkem, není prakticky možno určit, kdo byl autorem, odkud a kdy byl odeslán a zda nebyl změněn jeho obsah, ať úmyslně či neúmyslně. V podstatě je možné pozměnit všechny přenášené údaje, jako například IP adresu odesilatele, příjemce, informaci o přenosové cestě, obsah dokumentu, čas odeslání i příjmu. Teoreticky mohu určit IP adresy. Tyto adresy, ať dynamické nebo statické, nemusejí vypovídat nic o konkrétní lokaci odesílatele nebo příjemce e-mailu. Čas většinou odpovídá nastavení poštovního systému, ze kterého jsou e-maily odesílány, respektive do kterého je přijat. E-mail jinak může obsahovat jakýkoliv typ elektronického dokumentu nebo odkaz na jeho umístění kdekoli v kyberprostoru. Uvedené principy platí v zásadě pro všechny ostatní typy elektronických dokumentů, ať statických nebo dynamických.

Systém odkazů má zásadní dopad na integritu dokumentů. Neplatí to pro odkazy dovnitř dokumentu, zato odkazy na jiné zdroje mimo dokument jsou vážným problémem. Obsah odkazovaných zdrojů se totiž často mění a původ odkazovaných dokumentů může být často obtížně zjistitelný.

Poměrně kvalitní popis provenience a datace dokumentů zajišťuje využití komplexních funkčních systémů spisové služby vytvořených v souladu s mezinárodními standardy (ISO 15489, MoReq, připravovaný MoReq2). Systémy spisové služby, které jsou certifikovány podle výše uvedených standardů (prozatím v České republice nebylo uplatněno), musí zajistit, že dokument je popsán v metadatech, která umožňují mimo jiné identifikaci autora, dataci a lokaci. Implementace elektronické spisové služby odpovídající výše uvedeným standardům ve veřejné správě, ale i v soukromém sektoru, je tedy základním předpokladem uchování dlouhodobě využitelných dokumentů.

Elektronické archivnictví a standard EAC

Multiprovenience elektronických dokumentů má řadu důsledků mimo jiné i v oblasti trvalého uložení elektronických dokumentů, tj. elektronického archivnictví. Před archiváři nyní stojí problém vybudovat archivní systém, který by odrážel pozměněnou komplexní realitu provenience. Archiváři se v budoucnu budou muset mnohem více soustředit na ukládací aktivity. Zachytit, uchovat a presentovat provenienci dokumentu v jeho komplexní podobě totiž umožňují jen oddělené, ale provázané popisy dokumentů a dokumenty vytvořené distribuovanými zdroji.

Datové vstupy do archivních popisných systémů mohou vypadat dosti odlišně od výstupů z těchto systémů. Zatímco vstupy by měly být standardizovány, výstupy mohou mít různou nestandardizovanou podobu. Ukazuje se nutnost dokumentovat původ záznamů v kontextu. Vzniká tak strukturovaná dokumentace původu dokumentů. Na místě je ocitovat myšlenku Barbary Reedové: Dokumenty nejsou pasivní objekty, které lze zpětně popisovat. Jsou spíše aktivními činiteli, aktivními účastníky provozních činností, které lze popsat prostřednictvím sérií paralelních a opakujících se procesů“.

Jaké nástroje může archivář při naplňování tohoto úkolu využít? Vzhledem k tomu, že problematika je nadnárodního charakteru, je bezpodmínečně nutné používat k tomu účelu mezinárodní standardy. V kontextu dokumentace provenience má v současné době největší význam mezinárodní výměnný standard EAC (Encoded Archival Context). Standard je používán k popisu subjektů (nejčastěji původců) a jejich vazeb k archivnímu souboru nebo jakékoli jeho částí. Struktura údajů vychází z již zmíněného mezinárodního standardu pro popis původců archiválií - ISAAR(CPF). EAC je z technického hlediska definicí typu dokumentu (Document Type Definition - DTD), vlastní dokumenty jsou ukládány ve formátu značkovacího jazyka XML (Extensible Markup Language). Standard je testován v národních archivech Švédska, Francie a Spojeného království a v archivech a knihovnách v USA. Testy ukazují, že standard funguje, ale ne bez problémů. Testeři si stěžují na jeho značnou složitost. Konečnou podobu by tak standardu měla dodat pracovní skupina pro EAC, vytvořená v roce 2006, ve spolupráci se Společností amerických archivářů. Tento orgán musí podchytit všechny projekty založené na využití EAC, vyhodnotit zprávy uživatelů a zjistit nedostatky standardu. Jakmile budou tyto potíže odstraněny, EAC by se měl stát standardem pro tvorbu národních i mezinárodních databází.

EAC je současně používán jako standard pro on-line výměnu archivních popisů, které identifikují provenienční zdroje tak, aby uživateli umožnily:

Tři hlavní části popisu provenience zdrojů tvoří:

Standard EAC pokrývá:

Oblast identity poskytuje informace, které identifikují právnickou nebo fyzickou osobu (osoba nebo rodina). Zajišťuje standardizované přístupové body (klíčová slova) nepreferované podoby jmen a další. Oblast popisu nabízí biografické údaje, údaje o vývoji instituce, rodu nebo rodiny, a to ve formě volného textu. Může jít také o strukturovaný text se specifickými prvky (místa, funkce atd.). Všechny elementy obsahují časová určení. Oblast vztahů zachycuje záznamy vztahů dokumentu vůči ostatním institucím, osobám nebo rodinám, dále záznamy relevantních informací v podobě volného textového popisu. Rovněž může jít o strukturovaný text specifikovaný v jednotlivých elementech s odkazy na další dokumenty EAC. Všechny elementy opět obsahují časové údaje.

Úplný text je v časopise Veřejná správa č. 36/2007.