To, co tehdy byla výjimka, je dnes bohužel téměř každodenní realita. Počty syntetických hlasových nahrávek se mezi lety 2023 a 2025 zvýšily z půl milionu na odhadovaných osm milionů ročně. Útoky za použití falešného hlasu vzrostly jen v roce 2024 o 680 %. Generativní umělá inteligence zkrátila dobu potřebnou k vytvoření přesvědčivého klonu lidského hlasu na pár sekund – a stačí k tomu pouhé tři vteřiny nahrávky z YouTube, podcastu, záznamníku v telefonu nebo firemní konference.
Mohlo by vás zajímat
Pozdrav v hlasové schránce jako bezpečnostní riziko: tři sekundy vašeho hlasu k naklonování stačí
Jak takový útok funguje
Postup je překvapivě jednoduchý. Útočník si nejprve vytipuje cíl – zpravidla někoho s pravomocí schvalovat platby nebo resetovat přístupy do systémů. Pak na internetu vyhledá vzorek hlasu osoby, kterou chce napodobit. U ředitelů a jiných veřejně vystupujících manažerů to většinou není žádný problém: stačí záznam z prezentace výročních výsledků, rozhovor v médiích nebo příspěvek na LinkedIn.
Nahrávku pak vloží do nástroje pro klonování hlasu a zavolá vytipovanému zaměstnanci. Moderní aplikace dokážou útočníkův hlas překládat v reálném čase do hlasu oběti, takže podvodník může vést i improvizovaný rozhovor. Přidají se uměle vložené pauzy, zakoktání nebo šum na pozadí, a výsledek zní přesvědčivě až děsivě.
Aby byl útok úspěšný, používají pachatelé prověřené sociálně-inženýrské techniky: navodí pocit naléhavosti, požádají o diskrétnost a apelují na autoritu – kdo by přece odmítl šéfovi, který má urgentní žádost?
K nejvyšší zdokumentované škodě došlo v roce 2024, kdy firma Arup přišla o 625 milionů korun poté, co zaměstnanec převedl peníze účastníkům videokonference – kteří byli všichni až na něj samotného generováni umělou inteligencí. Podvody tohoto typu nejsou výjimkou ani v České republice a okolí.
Mohlo by vás zajímat
Deepfake: Když už nevíte, komu věřit
Jak poznat, že nevolá ten správný člověk
Bezpečnostní experti ze společnosti ESET upozorňují, že přes veškerou sofistikovanost mají hlasové deepfaky stále své slabiny. Pozorný posluchač si může všimnout hned několika varovných signálů.
Nepřirozený rytmus řeči: syntetický hlas mívá rovnoměrnější tempo, než je u lidí běžné. Přirozená konverzace má vlastní rytmus – zrychlení, zpomalení, důraz. Pokud vám hlas zní jako čtený text, zpozorněte.
Plochá emocionální modulace: lidský hlas odráží emoce. Vzrušení, nervozita, radost – to vše se projevuje v tónu. Klonovaný hlas může znít monotónně, jako by mluvčímu bylo vše jedno, i když obsah sdělení je naléhavý.
Dýchání nebo jeho absence: přirozená řeč obsahuje nádechy, výdechy a krátké pauzy. Deepfake hlasy někdy tyto biologické prvky zcela vynechají, nebo naopak obsahují mechanicky působící zvuky dechu.
Robotický podtón: méně pokročilé nástroje produkují hlas s jemným digitálním zbarvením – jako by někdo mluvil přes nekvalitní kodek nebo z větší dálky. Pokud vám hovor připomíná starší hlasové roboty, může to být varování.
Podezřelé pozadí: skutečné telefonáty obsahují okolní ruch – kancelář, ulici, vzdálený hovor. Syntetické nahrávky mívají pozadí buď naprosto tiché, nebo naopak rovnoměrně šumící bez přirozených výkyvů.
Žádný z těchto příznaků sám o sobě není důkazem podvodu. Ale pokud se jich sejde víc najednou – a hovor přichází s neobvyklou žádostí – je čas zbystřit.
Co dělat, když máte podezření
Technologická sofistikovanost útočníků roste, ale základní obranná opatření jsou stále účinná. ESET i další bezpečnostní experti doporučují kombinaci tří přístupů: lidi, procesy a technologie.
Na úrovni lidí je klíčové pravidelné školení zaměstnanců. Nestačí jednou vysvětlit, co je phishing. Firmy by měly pořádat simulace deepfake útoků, aby zaměstnanci věděli, jak takový hovor opravdu probíhá. Kolegové z finančního nebo IT oddělení jsou přitom nejrizikovější skupinou a zaslouží si zvýšenou pozornost.
Na procesní úrovni platí několik jednoduchých pravidel. Žádný větší převod peněz nebo změna přihlašovacích údajů by neměla proběhnout jen na základě telefonátu – i kdyby zněl zcela autenticky. Doporučuje se tzv. out-of-band verifikace: po telefonátu kontaktovat volajícího jiným kanálem, například přes firemní chat nebo na číslo uložené v adresáři. Finanční transakce nad určitou hranici by měli schvalovat vždy alespoň dva lidé. Dobrou pomůckou jsou i předem domluvená hesla nebo kontrolní otázky pro telefonický kontakt se senior managementem.
Na technologické úrovni existují nástroje schopné analyzovat parametry hlasu a detekovat příznaky syntetické řeči. Jejich nasazení sice vyžaduje investici, ale ve srovnání s průměrnou škodou přes dvanáct milionů korun na jeden incident jde o náklady zanedbatelné.
Hrozba, která nezmizí
Deepfake hlasové podvody jsou levné, rychlé a čím dál přesvědčivější. Potenciální výdělek pro útočníky je obrovský a technologie se nezastaví. Bezpečnostní komunita sice pracuje na detekčních nástrojích, ale závod mezi útočníky a obránci nikdy nekončí.
Firmy, které tuto hrozbu podceňují, hrají riskantní hru. Základ obrany přitom není složitý: zdravá skepse u neobvyklých žádostí, ověření jiným kanálem a pravidelné trénování zaměstnanců. Někdy stačí jediná pauza před tím, než stisknete tlačítko pro schválení převodu, aby se miliony nepřesunuly na špatný účet.
Zdroj: ESET