Přejít k hlavnímu obsahu
Novinky

Hurá do světa! Google vyvinul nový nástroj pro překlad řeči v reálném čase

Josef Mika 07.12.2023
Zdroj: Freepik/pch.vector

Tým Google AI představil pokročilý model umělé inteligence Translatotron 3, který umožňuje překlady mluvené řeči v reálném čase bez rozsáhlých paralelních jazykových dat. Tato technologie lze s výhodou využít zejména pro jazyky, u kterých není k dispozici dostatečné množství zvukových záznamů.

Kapitoly článku

Překlad mluvené řeči, speech-to-speech translation (S2ST), je typ strojového překladu, který převádí mluvenou řeč z jednoho jazyka do druhého. 

Google už dříve představil Translatotron 1 a Translatotron 2, vůbec první modely, které dokázaly přímo překládat mluvenou řeč mezi dvěma jazyky. Byly však trénovány v prostředí s paralelními jazykovými daty. 

Nedostatek paralelních jazykových dat je v této oblasti velkým problémem, většina veřejných datových sad je totiž částečně nebo plně syntetizována z textu. To ztěžuje učení překladu a rekonstrukci atributů řeči, které nejsou většinou v textu zastoupeny, a tudíž se nevyskytují v syntetizovaných tréninkových datech.

Mohlo by vás zajímat

Translatotron 3 překonává jazykové bariéry 

Nejnovější model Translatotron 3 má novou architekturu a díky nezávislému učení může pracovat bez těchto paralelních jazykových dat. Využívá jen jednojazyčná data. To znamená, že při trénování vývojáři používají jednojazyčné datové sady řeč-text (tj. tato data jsou tvořena dvojicemi řeč-text; nejedná se o překlady). Metoda údajně poskytuje kvalitní překlady i pro méně rozšířené jazyky.

Nová metoda dovolí překlady netextových atributů řeči, jako jsou pauzy, tempo mluvení a identita mluvčího. Tvůrci z Googlu tvrdí, že jejich metoda je správným směrem pro zachování paralingvistických charakteristik (jako tón, emoce) zdrojové řeči napříč překladem. 

Široké možnosti využití

Učení jazyků
Pomůže nám AI zbavit se nutnosti učit se cizí jazyky?
Zdroj: Unsplash/Eliott Reyna

Možnosti použití Translatotronu 3 přesahují rámec čistého překladu. Umožňuje komunikaci v reálném čase mezi mluvčími různých jazyků, podporuje osoby s jazykovým postižením a nabízí lepší zkušenosti při výuce jazyků.

Očekává se, že v budoucnu se bude tato technologie integrovat do různých zařízení a platforem, včetně chytrých telefonů a překladatelských aplikací. Translatotron 3 má potenciál způsobit revoluci ve způsobu, jakým komunikujeme se světem.

Zdroj: Google Research


Máte k článku připomínku? Napište nám

Sdílet článek

Mohlo by se vám líbit








Všechny nejnovější zprávy

doporučujeme


články odjinud