Týdeník Veřejná správa


 Téma

Foto: Vladimír Weinzettl Ing. Vít Lidinský
Doc. PhDr. Ivana Švarcová, CSc.

Dlouhodobé uchovávání zvukových záznamů


Vyšlo v čísle 41/2007

Kromě klasických textových elektronických dokumentů se dnes při běžné práci stále častěji setkáváme také s dokumenty multimediálními. Teď nemáme na mysli videa z webových stránek, on-line vysílání rádia, televize nebo videoklip oblíbené skupiny, ale dokumenty, které vznikají a jsou dále využívány při běžné obchodní činnosti nebo v rámci státní správy. Jedná se o záznamy telefonních hovorů (vyhodnocování práce hot-line, zlepšování kvality spojovatelů), jednání a net-meetingů nebo odposlechy.

O dlouhodobém uchovávání elektronických dokumentů bylo obecně napsáno již mnohé a proto se nyní soustředíme pouze na specifika uchovávání zvukových souborů. Z dnešního pohledu jsou zvukové soubory uchovávány ve standardizovaném formátu, který je dlouhodobě stálý (wav). To znamená, že není bezprostředně nutné uvažovat jeho migraci. Zvukové soubory můžeme ve formátu wav uchovávat poměrně dlouho, aniž bychom ohrozili jejich pozdější čitelnost. Za předpokladu, kdy se nepočítá s migrací uvedených dokumentů, není třeba u nich řešit problematiku elektronického podpisu a jiných autentizačních prvků. V dohledné době se ale budeme muset zabývat nedostatkem místa pro jejich ukládání.

Náročnost na diskový prostor, co s tím?

Zvukové dokumenty obdobně jako video dokumenty jsou velmi náročné na diskový prostor. V případě ukládání ve formátu wav (44,1/16b) je pro minutu záznamu nutné vyhradit necelých 9 MB místa na disku. I přesto, že diskový prostor, respektive cena 1 MB diskového prostoru, v posledních letech výrazně klesá, nejedná se o zanedbatelnou položku. Datový objem je možné demonstrovat právě na odposleších. Jedná se o zvukové soubory pořizované v souladu s platnou legislativou. Tyto záznamy jsou ihned po jejich pořízení elektronicky podepisovány, aby byla zabezpečena jejich autenticita a nemohly být v případném soudním řízení zpochybněny. Představme si nyní situaci, kdy je nutné provést odposlech několika podezřelých osob po dobu 48 hodin. Tato doba je zcela reálná, jelikož některé odposlechy mohou trvat i týdny nebo měsíce. Za 48 hodin je zaznamenáno 2880 minut, při datovém toku 8,75 MB za minutu dostaneme 25.200 MB (25 GB) dat zvukového záznamu. Již čtyřicetiosmihodinový odposlech tedy zabírá desítky gigabytů dat. V případě jeho uchovávání ve formátu wav, jsou náklady dosti vysoké, proto by bylo praktické velikost zvukového souboru zmenšit. A právě to lze provést pomocí komprimace.

Komprimaci zvukových dokumentů lze provádět dvěma druhy komprimačních algoritmů - ztrátovými a bezztrátovými. Bezztrátové komprimační nástroje fungují na principu klasického archivačního programu a jejich typickým znakem je, že při komprimaci nedochází ke ztrátě informace. Při bezztrátové komprimaci dochází ke zmenšení datového objemu zvukového dokumentu přibližně na polovinu (50-60 procent velikosti původního souboru). Pro bezztrátovou kompresi zvukových dokumentů lze v praxi použít například Apple Loosless, Monkey´s audio nebo Free loosless audio codec. Bezztrátové algoritmy ovšem nejsou vhodným nástrojem pro razantní úsporu datového objemu pro potřeby dlouhodobého uchovávání zvukových dokumentů. Tím je komprese ztrátová.

Při použití ztrátové komprese je možné stlačit původní velikost zvukového dokumentu na desetinu i méně (dle požadované kvality). Dnes se při dlouhodobém uchovávání odposlechů nebo jiných zvukových záznamů ztrátové komprese využívá. Právní průkaznost takovýchto dokumentů ovšem není vysoká. Tento článek bude nadále prezentovat výsledky činností, jejichž cílem bylo objektivně zhodnotit povahu informací, které jsou při kompresi ztraceny. V závěru budou přineseny jasné výsledky v podobě zamítnutí nebo přijetí ztrátového komprimování jako metody pro zmenšení obejmu zvukových dat při jejich dlouhodobém uchovávání.

Zpracování zvukového záznamu

Nejprve je nutné analyzovat zvukový záznam. Pro potřeby zkoumání byl pořízen odposlech (asi deset hodin záznamu). Jiné zvukové dokumenty (například záznamy jednání) jsou zpravidla zvukově daleko vyrovnanější a „čistší". Odposlech byl pořízen štěnicí R-200 AC a přijímačem Albrecht M8. Výstup přijímače v analogové podobě byl digitalizován převodníky Aardvark LX6 a zaznamenán programem Cubase SX. Při digitalizaci byla použita vzorkovací frekvence 44.1 KHz a bitová hloubka 16 bitů, což odpovídá CD standardu. Záznamem bylo pokryto frekvenční spektrum od 0 do 22050 Hz (dle Shannonova vzorkovacího teorému). Člověk je schopen slyšet z hlediska frekvenčního rozsahu přibližně od 20 Hz do 20 kHz. S přibývajícím věkem obě hranice znatelně klesají. Z hlediska citlivosti ucha je nejvýznamnější oblast od 2 do 4 kHz. Pro lidskou řeč je nejtypičtější frekvenční pásmo 0,5 - 2 kHz, na které je sluchové ústrojí výrazně citlivější.

Dynamický rozsah sluchového ústrojí je asi 130 dB. Jedná se o rozpětí mezi tzv. hladinou slyšitelnosti (0 dB) a bolesti (130 dB). Tento rozsah uvažujeme v nejcitlivější části slyšitelného frekvenčního spektra, na okrajích frekvenčního spektra slyšitelnosti je dynamický rozsah znatelně nižší (zejména u nízkých frekvencí). Subjektivní hlasitost je tedy závislá na frekvenci zvuku a úrovni akustického tlaku (dB). Podrobněji tuto problematiku vysvětlují Fletcher-Monsonovy křivky.

Vraťme ale se k původnímu problému. Zaznamenaný odposlech byl podrobně analyzován. Obrázek ukazuje výsledek průměrných frekvenčních hodnot záznamu v celém zaznamenaném spektru (0 - 20 kHz). Pro frekvenční analýzu byla využita metoda FFT (Fast Furier Transform). Na ose x jsou vynášeny frekvence a na ose y hlasitost vedená v dB. Oproti klasickému "fyzikálnímu" pojetí hlasitosti, kdy je jako 0 dB označen práh slyšitelnosti (20 μPa) je při zobrazení digitálního vlnění použito rozdílné stupnice. Již z principu kvantování je stanovena maximální hodnota amplitudy (hlasitost), která může být v záznamu obsažena (dle bitové hloubky při kvantizaci zvukové vlny). Z toho důvodu je maximální hlasitost vedena jako 0dB a následně jsou od této hodnoty odstupňovány ostatní hodnoty na záporné dB stupnici.

Jak je vidět z analyzovaného záznamu, jsou zde poměrně výrazné nízké frekvence od 100 Hz - 0,5kHz. Tyto zvuky odpovídají ruchům v pozadí nahrávky a šumu způsobeného záznamovou technikou. Následuje oblast 500 Hz - 7kHz, která je pro tyto zvukové záznamy nejvýznamnější. Tedy data, která jsou pro zvukové záznamy nosná. Ostatní data v rozmezí 7kHz - 20kHz obsahují vysoké frekvence a šumy. Frekvenční spektrum nad 20 kHz je pro průměrného člověka neslyšitelné a proto není jeho obsah pro naši analýzu podstatný.

Při přípravě reprezentativního vzorku pro další práci byla na záznamu detekována oblast „ticha" a tyto pasáže odstraněny (vzhledem k dynamickému rozpětí byly jako tiché pasáže zvoleny ty, kde hlasitost dlouhodobě klesala pod -60 dB). Z části záznamu, která byla vyhodnocena jako významná, byla vybrána reprezentativní dvouminutová pasáž. Ta následně sloužila jako podklad pro následnou kompresi.

Ztrátová komprese a její praktické uplatnění

Při komprimaci byl zvolen ztrátový kompresní algoritmus založený na principu maskování. Maskování může probíhat dvěma způsoby.

Tohoto principu využívají ztrátové komprimační algoritmy.

Aplikací uvedených pravidel jsou odstraněna pásma mimo slyšitelné spektrum a jednotlivé maskované signály. Právě proto mohou být zvukové nahrávky datově zmenšeny na zlomky jejich původních velikostí.

Kompresní algoritmus například pro formát mp3 (MPEG 1, layer 3 hojně využívaný pro záznam zvuku) pracuje v níže uvedených krocích (popsány pouze nejdůležitější mechanismy):

Komprimace byla prováděna algoritmy formátu mp3, ogg a aac při výsledném bitovém toku (bitrate) 224 kb/s, 128 kb/s a 64 kb/s. Výsledky komprese a originální záznam byly přehrávány náhodně vybranému vzorku padesáti lidí, kteří měli za úkol se rozhodnout, která z nahrávek je „nejpřirozenější" a zda v ostatních nějaká informace chybí. Zvuk je subjektivní vjem a tudíž kvalitu komprimovaného záznamu nelze určit jinak, než poslechem. Posuzování je ovlivněno věkem posluchače, věrností zařízení pro reprodukci a samozřejmě obsahem záznamu. U některých zvukových záznamů dochází ke stavu, kdy je významné celé frekvenční spektrum - vážná hudba, metal apod. (za použití ztrátové komprese je u těchto nahrávek v porovnání s originálem slyšitelný znatelný rozdíl). V případě mluveného slova není třeba pro porozumění použít zdaleka celé slyšitelné spektrum.

Výsledkem pokusu byly následující údaje pro posouzení věrnosti záznamu. Procenta v tabulce označují posluchače, kteří rozdíl ve věrnosti záznamu identifikovali.

OGG MP3 AAC
224 kb/s 0% 2% 0%
124 kb/s 8% 22% 18%
64 kb/s 60% 46% 38%

Úplný text je v časopise Veřejná správa č. 41/2007.