Forenzní fonetika: Hlasový otisk neexistuje

Na jisté komerční televizi aktuálně běží vcelku zajímavý seriál. Jeho hlavním hrdinou je vyjednavač
se svým týmem profesionálů, jehož součástí je rovněž specialista na analýzu telefonních hovorů.
V praxi to vypadá tak, že padouch zavolá, odborník na řečovou komunikaci a psycholog v jedné
osobě hovor nahraje a přitom sleduje na počítači různé křivky. A všem je jasné, že to zločinec může
začít pomalu, ale jistě balit.

 

Zatímco většině lékařů se při sledování seriálů z lékařského prostředí uzpůsobených vkusu masového
televizního konzumenta dělají mžitky před očima, ředitel Fonetického ústavu Filozofické fakulty
Univerzity Karlovy, uznávaný forenzní fonetik doc. Radek Skarnitzl, je v tomto ohledu vůči tvůrcům
podobných děl shovívavý. „Nemám problém s tím, pokud se někdo snaží popularizovat fonetiku a 
řečové vědy, ale to, co popisujete, není přesné a zatím zdaleka neodpovídá realitě,“ říká, ale dodává, že využití automatických metod do budoucnosti považuje za perspektivní. Princip podobný tomu seriálovému bývá využíván například v pojišťovnictví jako jakýsi detektor lži. „Pokud je mi známo, jedna izraelská firma vyrábí program, který některé pojišťovny využívají. Takže když vám někdo nabourá auto a vy zavoláte na pojišťovnu, tento program určuje, jestli se jedná o pravdu
nebo o pokus o pojišťovací podvod. Nejsem si ovšem ani zdaleka jist tím, jestli je vůbec možné lež z hlasu odhalit.“

Americká slepá ulička


Jeden z prvních zlomových případů, které vešly do dějin forenzní fonetiky, se udál již v roce 1932.
Obětí se stal syn Charlese Lindbergha, slavného amerického pilota, který v roce 1927 jako první
přeletěl Atlantik. Únosce, jehož pravděpodobný portrét byl vůbec poprvé v rámci boje se zločinem
zveřejněn v televizi, se tehdy spojil s pilotem telefonicky za účelem dojednání způsobu předání
výkupného. Pak Lindbergh slyšel jeho hlas ze stometrové vzdálenosti na hřbitově, což mu postačilo,
aby o dva a půl roku později vraha „hlasově“ identifikoval. „V USA následně provedli řadu studií
zabývajících se tím, jestli je vůbec možné si pamatovat hlas osoby, kterou svědek slyšel z takové
vzdálenosti a za takových podmínek. Jedna profesorka psychologie postavila v roce 1937 svůj výzkum

na velkém počtu studentů, které rozdělila na několik skupin. Všichni slyšeli stejný čtený text a 
jednotlivé skupiny měly po různých časových odstupech identifikovat z pěti hlasů hlas předčítajícího. Ještě po jednom týdnu byla úspěšnost 83%, ale pak už výrazně klesala. Po pěti měsících spadla až na 
13 %, tedy pod úroveň náhody (která je při pěti hlasech 20%), což zpochybňovalo Lindberghovu identifikaci pachatele na základě hlasu. Pachatel byl ale usvědčen na základě jiných
přímých důkazů a byl odsouzen k trestu smrti,“ konstatuje Radek Skarnitzl. Objektem pečlivého studia pravosti hlasu byl i největší zlosyn minulého století Adolf Hitler. Stalo se tak v roce 1944 po neúspěšném pokusu o jeho fyzickou likvidaci, který vešel do dějin pod názvem Operace Valkýra. Jistý čas ovšem nebylo zcela jisté, jestli atentát přece jen nebyl úspěšný a jestli Hitlerovým jménem nevystupuje a projevy nevysílá „náhradník“. Zkoumání amerických vědců tehdy potvrdilo, že projevy stále pronáší Hitler. Po druhé světové válce se forenzní fonetika v 
USA vydala cestou vizuálního srovnávání spektrogramů, neboli grafických záznamů řeči, s cílem propojení hlasu s jeho akustickým obrazem. Jak se však nakonec ukázalo, jednalo se o slepou uličku, která velmi výrazně zbrzdila výzkum identifikace mluvčího. Na druhou stranu se s konečnou platností prokázalo, že „voiceprint“, neboli konstantní hlasový otisk každého mluvčího, neexistuje. Kombinace poslechu a akustické analýzy Vznik forenzní, tedy soudní fonetiky (odvozeno od slova forum, prostranství, na němž probíhaly soudní procesy) jakožto vědního oboru se datuje do roku 1991. Tehdy v anglickém Yorku proběhla ustavující konference Mezinárodní asociace forenzní fonetiky a akustiky, jejímž je doc. Skarnitzl členem. Dle stanov této organizace musí její členové vycházet z vědeckých základů a musí si být vědomi možností a limitů analýzy lidského hlasu. Nemají se proto pokoušet odhalovat z řeči lež či podvod a vynášet soudy ohledně osobnostních charakteristik. „Nejčastějším úkolem je pro forenzní fonetiky identifikace mluvčích, nikoli odhadování jejich psychického stavu, osobnostních rysů či pravdomluvnosti. Forenzní fonetika využívá kombinace poslechu a akustické analýzy. V praxi to znamená, že sedím u počítače, pečlivě poslouchám, porovnávám například výslovnost konkrétních samohlásek nebo souhlásek a měřím jejich frekvence ve spektru,“ objasňuje Radek Skarnitzl. Zároveň dodává, že přestože se forenzní fonetika využívá v soudnictví, na rozdíl od forenzní genetiky či daktyloskopie neposkytuje nezvratné důkazy. „Struktura DNA či otisk prstu jsou čistě fyziologickou, neměnnou záležitostí. Hlas sice má nějaké fyziologicky dané limity – vokální trakt je nějak dlouhý, členitý, hlasivky mají svou délku a tloušťku – ale přece jen nám to umožňuje s řečí a hlasem výrazně manipulovat. Jen zřídkakdy může být závěr hlasové analýzy stoprocentní, a proto by analýza hlasu nikdy neměla být jediným důkazem proti obviněnému.“ Při vyslovení slova forenzní (zase jsme u nejrůznějších kriminálek z Las Vegas, New Yorku či Miami) se nemalé části populace vlastnící televizi vybaví laboratoř a počítače nabité nejčastěji otisky prstů. Pak stačí jen vložit patřičný vzorek a dobrá věc v podobě odhalení pachatele se podaří. Z toho, co jsme doposud uvedli, je zřejmé, že forenzní fonetika takové možnosti zatím nemá. „Představa, že si pustím konkrétní hlas a za chvíli mám jméno jeho nositele, je lákavá, ale ze sféry sci-fi. Forenzní fonetik musí zjistit, nakolik jsou srovnávané hlasy podobné, ale i nakolik má zjištěná podobnost nějaký význam pro vyšetřování. Pokud třeba změřím, že váš a můj hlas jsou stejně vysoké, má toto zjištění nulovou výpovědní hodnotu, protože oba naše hlasy jsou v tomto aspektu průměrné. Podobně vysoký hlas totiž bude mít třetina mužské populace. Pro srovnávání hlasů proto potřebujeme mít údaje o hlasech relevantní populace, abychom mohli říct, jestli jsou konkrétní řečové vlastnosti mluvčího typické nebo atypické. Jen pak můžeme vysokou míru podobnosti považovat za důkaz ve prospěch identity srovnávaných hlasů,“ vysvětluje Radek Skarnitzl.
Není posudek jako posudek


Forenzní fonetika je za přispění soudních znalců stále častěji využívána v boji proti zločinu. Vzhledem
k tomu, že se soudní znalci některých oborů (viz například posudky v kauzách Janoušek a Kramný)
„těší“ zájmu patřičných státních institucí, se jako legitimní jeví otázka, zda je i v případě forenzní
fonetiky možné, aby dva znalci přišli s diametrálně odlišnými posudky. Podle Radka Skarnitzla to
možné je a zmiňuje konkrétní případ. „Jední

m z úkolů forenzního fonetika může být i určení, jestli bylo s nějakou nahrávkou manipulováno.
V zimě se ke mně dostaly dva zcela protichůdné posudky. Jednalo se o vzorový případ manipulace
s nahrávkou. Jsem si jist, že kdybych pustil stejnou nahrávku svému osmiletému synovi, tak mi řekne,
že tam slyší nespojitosti. Na to člověk nemusí být soudní znalec. Tehdy jsem si musel položit otázku,
jestli jeden ze znalců nepracoval na zakázku, případně jestli si materiál, ke kterému psal posudek,
vůbec poslechl.“
Základním předpokladem pro zvládnutí práce forenzního fonetika je schopnost se poslechem zaměřit

na dílčí vlastnosti hlasu a řeči, ovládání nástrojů na akustickou analýzu a samozřejmě také znalost zkoumaného jazyka. „Člověk by se taky neměl za každou cenu pouštět do něčeho, co překračuje možnosti spolehlivé analýzy,“ odpovídá docent Skarnitzl na můj dotaz spojený s odposlechem debaty dvou potenciálních zločinců, jejichž obhajoba může být u soudu postavena na tom, že si prostě dělali legraci. „Realita je taková, že ironie může, ale nemusí mít zvukové projevy. Například větu Tak to se nám povedlo je možno říci několika různými způsoby. Navíc my Češi rádi hovoříme ironicky, aniž by to bylo ze samotného zvuku patrné. Proto si netroufám na základě poslechu nebo akustické analýzy hlasů určit, kdy si člověk dělá legraci a kdy to naopak myslí smrtelně vážně. Opět jde o věci, ke kterým by se forenzní fonetik ani vyjadřovat neměl, protože to prostě není spolehlivé.“ Z toho všeho vyplývá, že projev psychiky v hlase může být různorodý a že můžeme
jen hovořit o různě silných korelacích neboli vzájemných. Obecně platí, že zatímco extrovert by měl mít živější intonaci, introvert naopak plošší. Stejně tak je tomu s dalšími afektivními stavy, například emocemi, náladami či postoji. Rozrušený člověk většinou mluví výš a s větším intonačním rozpětím,
hlasitěji, na druhou stranu existuje více možností, kterak se hlasově „vypořádat“ se vztekem. „Nevím o žádném fonetikovi, který by dokázal proniknout do stavu mysli poslouchaného člověka. Právě proto můžeme zkoumat a zkoumáme zmíněné korelace, ale nikoli vynášet soudy o emocích či pravdomluvnosti mluvčího na konkrétní nahrávce. Ještě slabší je korelace v případě výšky či hmotnosti mluvčího. Přestože existuje fyziologický základ řeči, takže vysoký chlap by měl mít nízký hlas a obráceně, pracoval u nás na Filozofické fakultě kolega, který měl nějakých 170 centimetrů, ale přitom hlas hluboký jako dvoumetrový chlap,“ konstatuje Radek Skarnitzl.
Není jazyk jako jazyk


V souvislosti s forenzní fonetikou vyvstává otázka, do jaké míry platí vztah mezi konkrétním 
jazykem a komplikovaností odhalení mluvčího? Jak je tomu v případě Číňanů, Čechů či Angličanů? Zatímco s Číňany nemá docent Skarnitzl sebemenší zkušenosti a netroufá si proto ani odhadovat, v případě populace hrdého Albionu přichází s konkrétním případem tzv. Yorkshirského rozparovače.
Jednalo se o případ brutálního vraha žen v druhé polovině 70. let. V roce 1979 na policii zavolal muž, který se k vraždám přiznal a dodal, že ho nikdy nechytnou. Úkolem forenzní fonetiky je rovněž profilování mluvčího, tedy analýza jeho řeči za účelem zúžení skupiny možných podezřelých.
Přizvaný fonetik a dialektolog určil, že volající pochází z pomezí dvou čtvrtí města Sunderland,
vzdálených od sebe asi tři kilometry. Yorkshirský rozparovač byl v roce 1981 dopaden, ale jeho hlas neodpovídal hlasu volajícího; ten byl dopaden až v roce 2005 díky analýze DNA a obviněn z maření policejního vyšetřování. Každopádně skutečně z oblasti, kterou fonetik určil, pocházel. „V případě češtiny je to komplikovanější, náš jazyk je totiž ve srovnání s angličtinou daleko více nivelizovaný. Angličtina má mnohem více akcentů, v řeči se výrazně projevuje horizontální i vertikální (regionální i sociální) členění společnosti. U nás by se dalo nejspíše říci, že dělník v továrně mluví jinak než vysoký manažer, ale v Kolíně tomu bude stejně jako v Pardubicích, i když leží nějakých padesát kilometrů od sebe,“ říká Radek Skarnitzl. Ucho versus automat Budoucnost forenzní fonetiky vidí docent Skarnitzl v užší spolupráci odborníků s počítači, v asistovaném automatickém rozpoznávání mluvčího. V současné době ale ještě stále převládá sluchová a akustická analýza nad zcela automatickým přístupem. Důvodem je především odlišná povaha srovnávaných nahrávek. „Na nahrávkách z trestné činnosti pachatel většinou volá mobilem, často z ulice, je rozrušený a mluví hodně nahlas, v pozadí může být slyšet zvuk tramvaje nebo hlasy jiných lidí. Stejný člověk bude pochopitelně znít jinak při výslechu na policejní stanici. S takovými druhy neshody zatím počítače mají potíže. Proto kombinace poslechu a akustické analýzy zatím převažuje nad automatickým rozpoznáváním. I zahraniční kolegové, kteří se automatické identifikaci mluvčího výzkumně věnují, uznávají, že spolehlivé použití těchto metod v reálných forenzních případech zatím není možné,“ konstatuje Radek Skarnitzl. Přestože tento text nemá byť jen v sebemenším sloužit jako návod pro kriminální živly všeho druhu, jedna věc je jistá. Přísloví Mluviti stříbro, mlčeti zlato platí v tomto případě minimálně desetinásob.
Na mlčícího zloducha je totiž i forenzní fonetika krátká.