Kriminalistika čtvrtletník pro kriminalistickou teorii a praxi |
ročník XXXVI1/2003 |
Ze zákona o policii č. 283/1991 Sb., § 2 - úkoly policie a § 13 - o prokazování totožnosti, zvláště odst. 6 a 7, ve kterém je definována i významná časová lhůta 24 hod. jako limit k identifikaci a ustanovení osoby (jinak je povinnost tuto osobu, např. potenciálního pachatele, propustit), vyplynula potřeba zajištění technických prostředků (které je policie podle § 22a zákona č. 283/1991 Sb. oprávněna využívat) k snadnějšímu tipování a identifikaci osob.
Policie využívá řadu metod ke zjištění totožnosti zájmové osoby (jedná se zvláště o kategorie pohřešovaných osob, nalezených lidských pozůstatků, neznámých pachatelů trestné činnosti apod.). Pomineme-li standardní metody zjišťování totožnosti podle osobních dokladů, přicházejí zde do úvahy metody spočívající v obecné rovině v nalezení, získání, určení a vyhodnocení jednoznačných markantů - identifikátorů, které mohou přispět k jednoznačnému určení totožnosti zájmové osoby.
Biometrické metody identifikace osob nacházejí uplatnění i v jiných oblastech než je kriminalistické hledisko, například v oblasti bezpečnostních a přístupových systémů do objektů, kdy jsou různé biometrické metody kombinovány s čipovými přístupovými kartami. Zde lze zařadit například metody biometrie dlaně, daktyloskopické metody, analýzu hlasu, porovnávání duhovky a rohovky apod. V poslední době se tyto biometrické metody uplatňují i v zabezpečení přístupu do systémů personálních počítačů a přístupů do firemních informačních sítí (klávesnice se snímáním daktyloskopického otisku prstu).
Tento článek spadá do kategorie trestně právní identifikace osob, a to operativně tipovací, kdy se budeme zabývat tipováním zájmové osoby podle charakteristických vlastností obličeje z fotografií nebo videozáznamů získaných z místa činu, popř. pomocí portrétní identifikace neznámého pachatele, která se provádí sestavením portrétu - identikitu - podle popisu svědka nebo poškozeného pomocí např. systému Poridos pro prostředí DOS, Windows nebo Facette pro prostředí Apple Mac.
Pro názornost předkládám typickou ukázku vytvořených identikitů (vlevo) a následně fotografie identifikovaných zájmových osob (vpravo), kdy pravděpodobnost shody definovaná svědkem při sestavování identikitu se pohybovala kolem 70 % u jednotlivých příkladů. Z tohoto pohledu je využití rozpoznávacích systémů při tipování z identikitu sporné, neboť při pravděpodobnosti definované svědkem to znamená, že osoba se může vyskytovat v případě cca 3 000 záznamů v databázi až do pozice 900. záznamu.
Z hlediska sociologického je rozpoznávání známých tváří nejběžnější a nečastější podvědomou činností lidského mozku. Existuje množství studií a různých konceptů v procesu obličejového rozpoznávání. Velké úsilí je vyvíjeno ve směru technologie neuronových sítí. Neurofyzikální studie ukazují, že rozpoznávání a analýza je paralelní proces nejlépe odpovídající teorii neuronových sítí.
Automatizované rozpoznávání lidských obličejů je obtížný komplexní úkol z důvodů proměnlivosti základních fyzikálních veličin obrazu, jakosti a fotometrie, geometrie - úhlu natočení a přiblížení, morfologie změn - emoční výrazy obličeje a stárnutí - a "přestrojení" (čepice, brýle, vousy). Odtud vyplývá nutnost vytvoření normalizovaného modelu lidského obličeje tak, aby scénář rozpoznávání nebyl ovlivněn těmito reálnými, nicméně rušivými vlivy. Modelování lidského obličeje se opírá o různé techniky numerického modelování - Fourierův popis, kruhové harmonické expanze, autoregresivní modely a momentové invariance, které využívají globálních obrazových informací.
Digitální obraz (fotografie) je reprezentován obrazovou maticí, která vznikne z analogového obrazu procesem vzorkování (diskretizace - rozdělení - v ploše obrazu) a kvantizací (diskretizace v úrovních zvolené fotometrické veličiny obrazu - zpravidla úroveň jasu jako diskrétní funkce v daném prostorovém bodě obrazu).
Při řešení úlohy identifikace zájmových osob se budeme zabývat řešením metodou globálních reprezentací zkoumaného obličeje s využitím elastické mřížky proložené prostorově oblastí obličeje podle předem určených referenčních bodů obličeje (dominantních částí - oči, ústa, nos, uši).
V těchto metodách se stále více využívá tzv. waveletová transformace (vychází z Fourierovy transformace, což je matematický aparát pro zkoumání signálů, kdy digitalizovaný obraz je chápán jako signál ve dvourozměrném prostoru) k normalizaci obrazu ve smyslu fyzikálních vlastností fotometrických veličin obrazu (jas, kontrast, šum v obraze) a Gaboroův filtr pro analýzu okolí bodů proložené elastické mřížky.
Jako jednoznačná reprezentace obrazu (jako výsledek waveletové transformace zpravidla aplikované na celý obraz k normalizaci obrazu a Gaborova filtru aplikovaného na každý bod elastické mřížky) se obdrží tzv. vektor vlastností, což je binární číslo reprezentující jedinečné vlastnosti zkoumaného obličeje.
Tento vektor vlastností se předloží klasifikačnímu pravděpodobnostnímu algoritmu k porovnání s množinou známých osob a vyhodnocení a setřídění podobnosti této množiny. Další metodou pro vyhodnocování a klasifikaci obrazu je použití neuronových sítí.
Obecně je tento princip použitelný pro analýzu jakéhokoliv objektu ve scéně, a tedy např. i pro tipování zájmových uměleckých předmětů různých tříd. V této oblasti využití je však nutné metodu globálních reprezentací vlastností obrazu metodou elastické mřížky zobecnit a její rozložení přes zájmový objekt určovat podle třídy objektu. Další postup vyhodnocování pomocí třívrstvé neuronové sítě je pak standardním postupem učení a předložení množiny známých vzorů tříd zájmových objektů.
Procesor pro identifikaci jednotlivých částí obličeje lze znázornit následujícím způsobem:
Určení hranice obličeje spolu se znalostí antropometrie soustavy obličejových rysů umožňuje rozpoznání jednotlivých dominantních oblastí. Tyto oblasti jsou předány modulům pro rozpoznání očí a rtů. Takto vybrané regiony očí a rtů jsou předány modelu elastické mřížky pro určení referenčních bodů. Takto získané referenční body určují rozložení všech bodů elastické mřížky přes celou oblast obličeje.
Detekce hranice hlavy je zpravidla prvním krokem v automatizovaných systémech rozpoznávání. Pozadí může být buď zaplněno celkovou scénou, nebo prázdné, jako např. u fotografií pasů, identikitu nebo trojdílných fotografií známých pachatelů, kde je zároveň zajištěna určitá standardizace pohledů na obličej (čelní, boční a šikmý pohled) se standardním osvitem a pozadím.
Prvním krokem je hrubé rozpoznání možných kandidátů hlavy pomocí grafického vzoru. Poté následuje extrakce hranice možných tváří použitím aktivních hran. Pro grafickou reprezentaci obličeje je použito hybridní schéma geometrických rysů, kde vrcholy obrazců nesou informaci o aktivních lokálních částech obrazu vybraných z pozadí obrazu pomocí Gaborova filtru.
Obličej lze detekovat při apriorní znalosti jeho tvaru např. metodou "hadů" (snakes). Snakes jsou energeticky minimalizované křivky funkce obrazové hranové síly, obrazové intenzity a vnějšího omezení. Energetická funkce je definována:
kde v(s) je parametrická křivka, s je délka křivky, Einternal je vnitřní energie křivky způsobená zakřivením jako její první derivace, Eimage je síla obrazu - normalizovaný gradient magnitudy (veličiny, hodnoty), Econstrain reprezentuje vnější omezení jako aproximaci křivky její druhou derivací. Konečný výběr "hadů" odpovídá lokálnímu minimu energetické funkce. Tento složitý algoritmus lze pro zrychlení výpočtu zjednodušit dynamickými programovacími numerickými metodami.
Obrysy očí a rtů jsou určovány pomocí poměrného umístění vzhledem k hranicím hlavy. Oči mají obecně stabilní strukturu a tvar skládající se z duhovky a víčka. Tento fakt nabízí možnost jejich modelování pomocí pevného vzoru (šablony), podobně jako u modelu hlavy. To se provádí skenováním. Pomocí rastru obličeje se provede prohledávací fáze v celém obrazu. V každém kroku prohledávání obrazového bloku je vybírán obraz a odpovídající grafický vzor pomocí neuronové sítě jejím trénováním podle známých vzorů očí a následně detekcí, jak je naznačeno na obr. 2.
Ústa mají velmi poddajnou formu, která určuje emoční vyjádření jednotlivce. Proto je pro vygenerování modelu úst zpravidla použit deformační model s hierarchickým adaptivním algoritmem. Běžné detektory hran nejsou schopny nalézt hrany takových přirozených útvarů, jako jsou např. ústa. Deformační modely jsou pro takové úlohy vhodné, protože mohou být specifikovány nastavením parametrů z apriorní znalosti tvaru objektu. Globální informace lokálních hran může být uspořádána do globálního vjemu, který spolehlivě určí umístění obrysu.
Jak bylo výše uvedeno, každý obličej je reprezentován vektorem rysů. Porovnání dvou obličejových obrazů je tedy kvalifikované srovnání a adaptace mřížky proložené z jednoho obrazu do rysů obrazu druhého. Mřížkové porovnání slouží dvěma cílům:
První krok autentizace sestává z porovnání obrazu s prototypem mřížky požadované třídy (každá osoba v databázi je považována za třídu klasifikačního problému). Tento prototyp je dán jako hlavní vektor vlastností (rysů) s podmínkou, že všechny pohledy uvažovaných osob jsou v trénovací množině. Očekáváme-li, že požadovaná identita je správná, bude vektor vlastností uzavřen do prototypu třídy, v případě, že ne, bude vykonání neúspěšné. Míra jednoduchého euklidovského odstupu není dostačující, aby rozlišila nesprávnou osobu od autentizované osoby, což je dáno šumem v měření. Redukce rozměru prostoru vlastností (rysů) je účinnou cestou, jak omezit vliv šumu. Z trénovací množiny skládající se z několika předních pohledů každé osoby se obdrží podprostor, který maximalizuje rozptyl tříd, ale minimalizuje rozptyl v dané třídě. To je dosaženo konstrukcí lokálního rozlišení (diskriminantu) měření pro každé řešení v každém bodě mřížky, takže následující selekce většiny významných bodů může být kvalifikovaná (dokonalá). Kromě toho se dimenze lokálního prostoru vlastností stává malou ve srovnání s počtem trénovacích příkladů, takže "přetrénování" diskriminantu měření s ohledem na trénovací příklady je redukováno.
Neuronová síť zpravidla slouží k vyhodnocování a porovnávání hodnot získaných předzpracováním obrazů. Specifikace neuronových sítí se dá popsat takto:
Topologie umělé neuronové sítě je zpravidla zvolena podle úlohy, kterou má řešit. Pro rozpoznávání a analýzu obrazu se zpravidla používají Hopfieldovy sítě s dopředným učením, třívrstvé back propagation sítě se zpětným učením, Neocognitron sítě, Adaline sítě a podobně.
V poslední době se objevila řada komerčních produktů. V této části se budeme podrobněji zabývat testovanými systémy - produkty dvou komerčních firem:
Face Control (dynamické rozpoznávání z videosekvencí nebo on-line videosignálu) (Ruhr Universität Bochum, University of Southern California) je založený na technologii "jetů" [1]. Využívá principy waveletové transformace a Gaborova filtru. Jet je charakterizován jako malé políčko šedé úrovně v obraze:
Takto definované jety jsou základem pro vytvoření normalizované reprezentace obličeje použitím tzv. obličejového grafu, což není rovnoměrně rozložená mřížka (kdy může docházet k vysoké redundanci a nadbytečnosti v závislosti na počtu zvolených bodů), nýbrž v počtu 48 bodů definovaný bunch graph (srovnávací shlukový graf). Tyto body jsou rozloženy v hranách a křivkách dominantních částí obličeje - viz obr. 3.
Kromě šedoúrovňové domény je klasifikace provedena i v doméně škály barev s výpočtem váženého průměru a následně je provedena klasifikace zkoumaného obrazu. Tím je určena jednoznačná reprezentace zkoumaného obličeje a vyhodnocení proti databázi známých obličejů přiřazením bodového hodnocení shody od nejvyššího (100) po nejnižší (0). Jak je vidět z předchozího obrázku, má systém určité problémy proložit graf obličejem při bočním pohledu. Při testování dále bylo zjištěno, že rozpoznání obličeje jako objektu třídy obličej působí v dynamickém modulu Face Control určité potíže, neboť technologie je založena na principu změn odstínu barev v snímcích po sobě následujících videosekvence (což znamená, že obličej musí být v pohybu buď příčně přes obraz, nebo přibližován zoomem). Dalším zjištěným problémem je nízká pravděpodobnost rozpoznání morfologicky změněného obličeje (např. morfologické změny způsobené stárnutím), popřípadě emočně změněného obličeje, který není obsažen v databázi známých vzorů.
Face Ident (Phantomas), statické rozpoznávání z fotografií (Ruhr Universität Bochum, University of Southern California), využívá stejného matematického základu - principy waveletové transformace a Gaborova filtru s tím rozdílem, že mřížka - elastic graph (srovnávací elastický graf, mřížka) je rozložena rovnoměrně přes oblast obličeje (viz obr. 4).
![]() | |
a/ Výsledek množiny vyhledávání | b/ Detail zvoleného záznamu z databáze vzorů |
Aplikace automaticky prokládá mřížku obličejem podle tří referenčních bodů - středu očí a úst. V případě, že body byly určeny chybně, je možné provést ruční korekci a znovu vytvořit "phantomas graf". Pro co možná nejpřesnější vyhodnocení je nutné provést ruční korekci natočení obličeje podle osy Z (oči do vodorovné pozice). Systém tuto normalizaci neprovádí automaticky.
Dalším zjištěným problémem, stejně jako u předchozí aplikace, je relativně nízká pravděpodobnost rozpoznání morfologicky změněného obličeje (např. morfologické změny způsobené stárnutím), popřípadě emočně změněného obličeje, který není obsažen v databázi známých vzorů - viz obr. 5, kde systému byla předložena fotografie osoby o tři roky starší než byla zavedena v databázi známých osob. Po korekci rotace a umístění mřížky v obličeji byla osoba nalezena až na 167. místě v pořadí. Je zřejmé, že aplikace nemá důsledně zajištěnu normalizaci obrazu na geometrickou polohu obličeje v obraze.
![]() | |
a/ Výsledek při morfologických změnách obličeje (DB s obsahem cca 3000 záznamů) | b/ Výsledek při použití identikitu (DB demo - obsahuje pouze 150 záznamů) |
Rovněž využití při tipování totožnosti z identikitu je sporné, neboť při pravděpodobnosti definované svědkem (subjektivní názor svědka - zpravidla kolem 70 %) to znamená, že osoba se může vyskytovat v případě cca 3 000 záznamů v databázi až do pozice 900. záznamu, jak již bylo zmíněno výše.
Obecně lze říci, že na rozdíl od reprezentací informací obrazu založených na základní analýze komponent (principal component analysis - PCA), kdy je informace vlastností obrazu reprezentována globálně (což znamená, že obraz je vždy reprezentován jako celek, stejně tak jako lokální změny v obraze), je závislá na translaci (posunutí), rotaci nebo měřítku, je reprezentace obrazových vlastností pomocí takto definované mřížky relativně úspěšná; je nezávislá na rozumné míře posunutí, rotace a měřítku. Tento přístup je tzv. lokální, což znamená, že lokální změny v obraze se projeví v lokálních změnách jeho reprezentace.
Její princip je založen na geometrické reprezentaci obličeje v malé oblasti kolem očí a nosu (viz obr. 6 a 7):
Systém vychází z předpokladu, že právě v této oblasti je možné určit jednoznačnou geometrickou reprezentaci obličeje, neboť geometrické parametry jsou zde určovány pevnými tkáněmi - kostmi, jak vyplývá z anatomie lebky. Výhodou je zjednodušení a zrychlení výpočtu, určitá míra nezávislosti na maskování obličeje (vousy, brýle - viz obr. 8) a normalizace na rozumnou míru rotace obličeje.
Dalším zjištěným problémem, stejně jako u předchozí aplikace, je nízká pravděpodobnost rozpoznání morfologicky změněného obličeje (morfologické změny způsobené stárnutím), popřípadě emočně změněného obličeje, který není obsažen v databázi známých vzorů.
Systém je citlivý na zhoršené podmínky osvětlení (viz obr. 7a, kdy chybně umístil předpokládanou oblast zkoumání mimo region obličeje a není zde možnost provést manuální korekci).
Z předchozího hodnocení dvou komerčních systémů vyplývá, že pro operativní tipování zájmových osob jsou použitelné jen částečně za konkrétně specifikovaných podmínek (standardní úhel pohledu na obličej, standardní osvit a pod.).
Policie vede fotografickou databázi - tzv. databázi trojdílných fotografií pachatelů, kteří prošli přípravným řízením trestním. To nabízí řešení využít tuto databázi za použití trojrozměrného matematického modelu hlavy k přesnějšímu definování jednoznačných reprezentací vlastností obličeje. Jde o to vytvořit nejen normalizovanou reprezentaci obrazu ve smyslu fyzikálních vlastností obrazu - to je normalizace na šum v obraze, na osvit, na rotaci hlavy apod., nýbrž i reprezentaci „významovou“ ve smyslu normalizace na předpokládané emoční výrazy, popř. na předpokládané morfologické změny stárnutí, při využití standardní třívrstvé neuronové sítě jako klasifikátoru třídy, přičemž osoba je chápána jako třída objektů možných emočních výrazů a morfologických změn. Obr. 9 ukazuje možné řešení trojrozměrného modelu, který lze deformovat podle zvolených antropometrických bodů a následně proložit skutečným obrazem trojdílné fotografie (vytvořit tzv. texturu 3D modelu). Na obrázku 10 je znázorněna elastická mřížka trojrozměrného modelu a její deformace vzhledem k emočnímu výrazu.
Výše popsané metody a prostředky modelové analýzy šedoúrovňových nebo barevných obrazů lidských obličejů jsou aplikovatelné v různých úlohách zpracovávání obrazové informace. Typickým příkladem takové úlohy mohou být bezpečnostní vstupní systémy, kdy je identifikace oprávněné osoby určována rozpoznáním jeho obličeje, v policejní praxi pak výběr množiny známých pachatelů z databáze trojdílných fotografií (do jisté míry normovaných) buď z policejního identikitu, kdy existuje poměrně nízká pravděpodobnost věrohodnosti takto získané podoby (podob) vyhodnocované osoby, nebo porovnání z obrazu získaného např. snímkem z bezpečnostních kamer (např. z bankovních ústavů) při dodržení minimálního použitelného rozlišení zkoumaného obrazu.
Při testování existujících, zpravidla komerčních systémů se ukazuje, že rozpoznávání a identifikace obličejů jsou ovlivňovány řadou aspektů. Technické rušivé vlivy - fyzikální vlastnosti obrazu (to je změny osvětlení-stíny, pozadí scény, natočení, umístění v obraze, rotace...) jsou relativně dobře normalizovatelné (při zachování rozumné míry změn). Jako závažný problém se však jeví změny v obličeji vlivem emočních výrazů a morfologických změn způsobených stárnutím. Při použití technologie neuronových sítí v klasifikačním modulu - to je v rozhodovací pravděpodobnostní proceduře - je možné tyto vlivy minimalizovat tím, že trénovací množina známých tváří bude obsahovat rozumnou míru možných obrazů jednoho obličeje jak v emočních výrazech, tak v morfologických změnách. Takový stav je však v případě operativně tipovacího charakteru databáze (kdy zpravidla bývá k dispozici čelní pohled nebo trojdílná fotografie s čelním, šikmým a bočním pohledem) problematicky dosažitelný.
Možným řešením je použití metody umožňující simulaci emočních výrazů a morfologických změn k vytvoření příslušné množiny obrazů, to je parametrického 3D modelu hlavy. Tento třírozměrný pohled na reprezentaci obličeje umožňuje snadnou parametrizaci reprezentací obličeje jak z hlediska rotace hlavy (projekce 3D aproximovaného modelu známého vzoru do 2D roviny natočení), tak z hlediska již zmiňovaných předpokládaných emočních výrazů a morfologických změn. Takovéto systémy jsou však zatím ve fázi výzkumu.
Při tempu rozvoje informatiky, a to jak ve výkonnosti hardwarových prostředků, tak rozvoje různých topologií a paradigmat neuronových sítí jakožto klasifikačních i analytických nástrojů ke zkoumání obrazu, je možné, že v brzké době budou takové systémy dostupné i jako komerční produkty k praktické aplikaci.
V úvodu je čtenář seznámen s problematikou identifikace osob a biometrickými metodami. Jsou představeny základní přístupy automatizovaných identifikačních systémů založených na biometrii obličeje a dále stručný teoretický úvod k této problematice. V další části je popsán procesor lokalizace a analýzy lidského obličeje ve scéně, to je detekce hlavy a dominantních částí obličeje a vytvoření jeho individuálních jednoznačných reprezentací. Dále jsou zde hodnoceny produkty komerčních firem s ohledem na využití těchto systémů jako nástroje v operativně tipovacích procesech kriminální policie, a to aplikace ZTC - Face Ident Control, ZTC - Ident Control (Phantomas) a aplikace Imagis.
The beginning of this article presents the issue of identification of persons and bio-metric methods. It further introduces the basic proceedings of automatic systems of identification based on face biometry, and a brief theoretical introduction to this issue. Next, the author describes the process of localisation and analysis of a human face within a scene, that is detection of a head and the dominant parts of the human face, and the creation of their individual unambiguous representations. The author further evaluates products of commercial companies with regard to their use as tools in the operational typifying processes of the police, namely the use of ZTC - Face Ident Control, ZTC - Ident Control (Phantomas) and the use of Imagis.
Anfangs wird der Leser mit der Problematik der Identifikation der Personen und mit den biometrischen Methoden bekannt gemacht. Man stellt Grundzutritte der automatisierten Identifikationssysteme, die auf Biometrie des Gesichts gegründet sind und weiter eine kurze theoretische Einleitung zu dieser Problematik vor. Der Autor beschreibt weiter den Prozessor der Lokalisation und der Analyse des Menschengesichts in der Szene, das ist die Detektion des Kopfes und der dominierenden Teile des Gesichts und Bildung seiner eindeutigen Repräsentationen. Weiter bewert man hier Produkte der Kommerziefirmem mit Rücksicht auf die Ausnützung dieser Systeme als Instrument in den operativ tippenden Prozessen der Kriminalpolizei, und zwar die Applikationen ZTZ - Face Ident Control, ZTC - Ident Control (Phantomas) und Applikation Imagis.