Tisková konference Andreje Babiše po prvním kole prezidentských voleb přinesla mnohá překvapení. O jedno z nich se postarala uživatelka Twitteru Barbora Mercury. Podle ní měl Babiš po odpovědi své manželky, že mu drží palce do druhého kola, na její adresu přes zuby procedit větu „Tak, hubu drž.“
Tweet nasbíral přes milion zobrazení a v diskusi pod ním se kromě silného rozhořčení objevilo také několik dalších možností, co prý Babiš mohl pronést (bez prvního „tak“): „no vidíš“, „není zač“, „mi je drž“ nebo „jen drž“. Nejistotu rozlouskl ve svém článku na Lupě Filip Rožánek, když s pomocí volně dostupného nástroje nahrávku vyčistil a obsah rozluštil jako „Tak, kdo je další?“
Lidskou řečí se zabývá fonetika, interdisciplinární obor zahrnující lingvistický, fyziologický i akustický pohled na řeč, který se u nás vyučuje jen na Filozofické fakultě UK. Mezi aplikovaná odvětví fonetiky patří i forenzní fonetika, a právě ta se kromě identifikace mluvčího zabývá i analýzou sporných promluv, luštěním obtížně srozumitelné řeči.
V tomto článku bych rád navázal na Filipa Rožánka a podrobněji rozebral, jak se lze z nahrávky potichu zamumlané věty, kterou překrývá potlesk kolemstojících osob, dopracovat k cílovému obsahu promluvy. Využijeme při tom všechny výše zmíněné pohledy na řeč.
Analýza sporných promluv je náročná právě proto, že se v nich může kombinovat nezřetelná výslovnost, nízká intenzita signálu a naopak silný okolní šum či hluk, ale také naše očekávání a Rožánkem zmíněný priming.
Právě poslední faktor dozajista sehrál klíčovou roli v případu „hubu drž“. Jakmile je sporná promluva „přepsána“, jakmile je její obsah „definován“, snadno v nahrávce takový text slyšíme – kromě toho, že obsah „hubu drž“ mnohým může zapadat do daného kontextu a potvrzovat jejich názor na Babišův charakter. Ono prvotní zapsání (a přečtení) nás tedy do značné míry „předurčuje“ k tomu, abychom daný text v nahrávce skutečně slyšeli, a i já jsem zpočátku tato slova identifikoval.
Zvukovou vlnu a tzv. spektrogram originální nahrávky ukazuje obrázek 1. Spektrogram je zobrazení zvuku, které poskytuje informace i o jeho kvalitě – v běžném spektrogramu tak jsme schopni rozlišit například samohlásku [a] od [e] nebo souhlásku [s] od [š]. Z obrázku původní nahrávky je ovšem zřejmé, že se o kvalitě jednotlivých hlásek nic nedozvíme, protože jsou maskované hlukem a potleskem.
K vyčistění jsem proto použil specializovaný softwarový nástroj pro pokročilou editaci audiosignálu, iZotope RX 9 Advanced Audio Editor, a jeho funkci izolace dialogu spolu s celkovým zesílením výsledné řeči; výsledek je podobný Rožánkově výstupu. Zvukovou vlnu a spektrogram přiblíženého cílového úseku ukazuje obrázek 2.
Stáhněte si: Záznam inkriminované chvíle na TK Andreje Babiše (.wav) vs. vyčištěný záznam dotyčného momentu (.wav)
Nyní si o spektrogramu můžeme říct více. Jedná se o pseudotrojrozměrné zobrazení, kdy na horizontální ose vidíme čas, na svislé frekvenci a ve stupních šedé se udává intenzita: čím tmavší je v daném čase konkrétní frekvence, tím je silněji zastoupená.
Ve vyčištěném spektrogramu už může člověk s praxí ve čtení spektrogramů identifikovat klíčové okamžiky zvukové nahrávky. Samohlásky a další tónové hlásky jsou charakteristické svými rezonančními frekvencemi, tzv. formanty, a ve spektrogramu se vyznačují horizontálními pruhy: ty jsou nejpatrnější v samohlásce [a] ve slově tak. V nástroji na fonetickou analýzu Praat zjistíme, že první dva formanty tohoto [a] mají frekvenci 516 a 1363 Hz. Formanty jsou patrné i v druhém [a], ve slově další, a jejich frekvence je 420 a 1262 Hz.
Nižší hodnota prvního formantu znamená, že Andrej Babiš samohlásku ještě více redukoval: kdybychom si ji pustili samotnou, slyšeli bychom samohlásku [ə], která se nazývá šva a kterou známe třeba z první slabiky anglického slova alone. I proto mnohým posluchačům dávalo smysl slovo drž: rozdíl mezi redukovaným (nedbale vysloveným) [a] v podobě [ə] na jedné straně a nedbale vysloveným slabičným [r] je minimální.
Podrobnější analýza prvních dvou slabik druhé části promluvy dále ukáže, že samohláskové formanty se zde mírně pohybují a že v první slabice je druhý formant níž, pak výrazně stoupne a mírně klesne, což je konzistentní s po sobě jdoucím [o], [j] a [e] (ačkoli jsou opět vyslovené nedbale), ale naopak by nebylo konzistentní s dvěma stejnými [u]-ovými samohláskami ve slově hubu.
Možná největší rozpor mezi zněním „hubu drž“ a „kdo je další“ spočívá v samotném závěru, protože správné znění obsahuje o slabiku víc. Navíc, jak jsme si už ukázali, samohláska [i:] by se ve spektrogramu měla projevovat formanty. Je ale patrné, že Babiš [i:] nevyslovil, respektive ho jen zašeptal, a ve spektrogramu tak splývá s předcházející souhláskou [š]. Toto [š] vykazuje poměrně neobvykle vysoké rezonance (nejtmavší část leží od 3500 Hz až do horní zobrazené hranice 7000 Hz), což je způsobené právě splynutím [š] a [i:] dohromady. Něco takového děláme poměrně často: zkuste vyslovit poměrně rychle spojení první máj a možná si všimnete, že se vám jazyk „neodlepí“ od patra a že [ň] a [i:] také splývají do jakéhosi dlouhého [ň:].
Podrobná fonetická analýza tedy může pomoci odhalit, co bylo i na poměrně nekvalitní nahrávce řečeno. Analýza spektrogramu ukázala na přímé vztahy mezi akustickou reprezentací zvukového signálu a konkrétní výslovností mluvčího a propojení se znalostmi zvukových vlastností běžně mluvené češtiny potvrdilo, že Andrej Babiš na tiskové konferenci skutečně řekl „Tak, kdo je další?“
V případu Babišova „hubu drž“ by se dalo říct, že o nic nejde. Někdy je ale správné určení obsahu promluvy otázkou téměř života a smrti, nebo minimálně otázkou budoucnosti obviněné osoby. Je zásadní, aby při přepisu obsahu nahrávek pořízených skrytě při trestné činnosti nedošlo k chybám, které by mohly vést k odsouzení nevinného člověka. Forenzní fonetika právě v této oblasti pomáhá. Zájemci o problematiku přepisu sporných promluv (ovšem v australském kontextu) se mohou dozvědět více zde.