Váš hlas je k dispozici. Stačí tři sekundy a cizí lidé ho mají

„Důvěra je dobrá, kontrola je lepší.“

Vladimir Lenin (a každý bezpečnostní expert, který vám volá z neznámého čísla)

Byl rok 2019 a zaměstnanec britské energetické firmy zvedl telefon. Na druhém konci byl jeho šéf – poznal ho okamžitě. Hlas, přízvuk, rytmus řeči, způsob, jakým formuloval věty. Šéf mu řekl, že potřebuje urgentně převést dvě stě dvacet tisíc eur na maďarský dodavatelský účet. Do hodiny.

Zaměstnanec převod provedl. Šéf samozřejmě nevolal. Nevolal nikdo živý.

O pět let později – v únoru 2024 – se zaměstnanec hongkongské pobočky firmy Arup zúčastnil videohovoru, na němž byl přítomen finanční ředitel společnosti i několik dalších kolegů. Diskutovali o transakci. Všechno vypadalo naprosto normálně. Zaměstnanec převedl 25,6 milionu dolarů přes patnáct transakcí. Finanční ředitel, kolegové, celý hovor, to vše vygenerovala AI.

Tohle není sci-fi. Tohle je aktuální stav technologie, který Two Minute Papers sledoval od začátku – a který se od jejich raných videí o NVIDIA voice cloningu posunul do míst, která nikdo nepředpokládal tak rychle.

Jak daleko jsme se dostali od třiceti minut k třem sekundám

Před několika lety bylo klonování hlasu záležitostí, která vyžadovala třicet minut nahrávek. AI systém potřeboval dostatečné množství materiálu, aby analyzoval to, čemu říkáme timbre – barvitost hlasu – ale také prosodii, tedy melodii řeči, a rytmus. S těmito daty dokázala vygenerovat přijatelnou imitaci.

Dnes McAfee reportuje, že klonování hlasu s přesvědčivými výsledky vyžaduje přibližně tři sekundy zdrojového audia. Tři sekundy, které jsou dostupné z libovolného veřejně přístupného videa, hlasové zprávy, podcastu nebo příspěvku na sociálních sítích.

Výzkum publikovaný v Scientific Reports v roce 2025 – autorského týmu Barrington, Cooper a Farid z UC Berkeley – přinesl znepokojivé číslo: lidé správně identifikují AI generovaný hlas jako umělý pouze přibližně v šedesáti procentech případů. Jinými slovy: čtyřicet procent času věříme klonu. A to v laboratorních podmínkách, kde víme, že jsme testováni. V reálném kontextu telefonátu, kde nás volá „syn“ nebo „šéf“, je toto číslo pravděpodobně horší.

  Vlci jsou chytřejší, než jsme si mysleli. A možná i chytřejší než psi

Průměrná přesnost detekce deepfake videa u lidí klesá podle některých měření na 24,5 procenta u vysoce kvalitních deepfakes. Pravděpodobnost správné identifikace je tedy nižší než náhodný hod mincí.

Čísla, která nejsou abstraktní

„Tohle zní jako ty. Úplně jako ty. Je mi líto.“

(ve stylu Sama Altmana komentujícího demonstraci klonování hlasu, GTC keynote 2023)

Deepfake fraud attempts – pokusy o podvod pomocí synteticky generovaného obsahu – vzrostly za poslední tři roky o 2 137 procent. Není to překlep. Je to číslo z dat agregovaných v SQ Magazine pro rok 2026. Vishing útoky – hlas jako nástroj phishingu – vzrostly jen mezi první a druhou polovinou roku 2024 o 442 procent.

Projekce odhadují, že deepfake podvody způsobí globální ztráty ve výši 40 miliard dolarů do roku 2027. Pro srovnání: HDP České republiky je přibližně 330 miliard dolarů. Mluvíme o čísle, které odpovídá přibližně osmině české ekonomiky – ztracené podvodem.

Jeden případ za čtvrt miliardy korun. Jedna hlasová zpráva. Jedna telefonní linka. Žádný fyzický kontakt.

Tyto útoky nespoléhají na techniku. Spoléhají na psychologii: urgenci, autoritu a důvěru. Šéf volá. Potřebuje to teď. Nemůže čekat. Klasické principy sociálního inženýrství, které popsal Robert Cialdini v Influence – autorita, naléhavost, vzácnost – fungovaly dávno před AI. AI je jen zesiluje a odstraňuje potřebu fyzické přítomnosti podvodníka.

Proč detekce nestačí?

Logická odpověď by byla: použijeme AI detektor, který pozná syntetický hlas. A detektory existují – nástroje jako Pindrop, Resemble AI nebo TruthScan tvrdí přesnost přes devadesát devět procent za laboratorních podmínek.

Jenže realita je složitější. Studie publikovaná ve Frontiers in Artificial Intelligence v listopadu 2025 testovala schopnost detekčních systémů rozpoznat klonované hlasy a zjistila, že metody fungující dobře na čistém audiu selhávají na nahrávkách z reálného světa – s šumem na pozadí, kompresí přes telefonní linku nebo saturací signálu. Každé prostředí, ve kterém skutečně telefonujete.

  Konec Monopoly: proč generace Z odkládá figurky a co o tom Babylón věděl dřív než my

Máme tu tedy závody ve zbrojení: klonování se zlepšuje, detekce zaostává, znovu se zlepší detekce, znovu zaostane. Čistě technické řešení je dočasné a nespolehlivé.

Co tedy funguje?

„Přepojte mě na Dianu, pozná můj hlas.“

Hitman II, Silent Assassin

Odpověď je skoro pravěká a trochu paradoxní: procedury.

Arup, firma z hongkongského případu, měla bezpečnostní protokoly. Zaměstnanec byl vyškolený. Přesto zavolal videokonferenci, aby si ověřil požadavek – a videokonference sama byla falešná. To ukazuje, jak sofistikované tyto útoky jsou, ale také kde leží řešení: ne v jedné vrstvě ověření, ale v systémech, kde žádná jedna ověřovací vrstva nestačí.

Konkrétní přístupy, které fungují:

Rodinné bezpečnostní heslo. Dohodněte se v rodině na slově nebo frázi, které řeknete při urgentním telefonátu od neznámého čísla nebo v neobvyklé situaci. Klonovaný hlas toto heslo nezná – pokud ho nesdílíte online. Je to primitivní a extrémně účinné proti „grandparent scams“, kde podvodník volá jako vnuk v nouzi.

Dvoustupňové ověření pro finanční transakce. Jakýkoliv požadavek na převod peněz ověřte druhým kanálem – pokud vám zavolají, napište zprávu. Pokud přijde zpráva, zavolejte na číslo, které máte v kontaktech, ne na číslo z příchozího hovoru.

Zpomalení. Urgence je záměrná součást útoku. Pokud vám někdo říká, že to musí být teď a nemůže čekat, je to přesně signál k zastavení. Legitimní urgence se ověřit dá. Útočníci nejsou na ověření připravení.

Zdravý skepticismus vůči hlasu jako důkazu identity. Hlas přestal být dostatečným důkazem, že mluvíte s tím, za koho se člověk vydává. To je nová realita, se kterou se musíme naučit žít.

Co to říká o důvěře?

Tady je filozofická část, která přesahuje bezpečnostní manuály.

Hlas byl tisíce let jedním z nejzákladnějších identifikátorů osoby. Evolučně jsme schopni rozlišit hlas matky od ostatních hlasů od prvních týdnů života. Rozpoznání hlasu blízkého člověka je hluboce zapojené do naší neurobiologie – a právě proto je klonování hlasu tak efektivní zbraní. Útočí na způsob, jakým mozek přirozeně ověřuje důvěru.

  Svoboda uvnitř klece: Co spolu Chomsky a Foucault řešili v roce 1971

Žijeme v okamžiku, kdy tento mechanismus selhává. Hlas jako důkaz identity – stejně jako fotografická reprodukce reality – se stává nespolehlivým. Co nahradí tuto vrstvu důvěry, zatím víme jen v obrysech: kryptografické podpisy, multifaktorová autentizace, biologické markery. Ale v mezidobí – které může trvat roky – je pravděpodobně nejdůležitější věc, které technologie nedokáže replikovat, lidský rituál: dohodnuté slovo, procedura, kontakt z jiného kanálu.

Jedním ze širokého spektra AI nástrojů jsou virtuální asistenci. V kontextu předchozího textu se nabízí otázka, jestli je to opravdu tak dobrá věc. Tedy někdo s vaším hlasem, kdo by vám připomínal schůzky a objednával burgery.

Teď víme, že odpověď závisí na tom, kdo toho asistenta ovládá – a komu volá.

Zdroje: YouTube, DOI, SQMagazine