Galerie: Umělá inteligence Googlu vytváří dobře padnoucí zvuk pro videa

Další fotogalerie

Tyhle značky pravděpodobně neznáte: Přitom hrozí velké pokuty

Ne každá značka, kterou potkáte na cestách nebo při pobytu v přírodě, je na prvn...

PlayStation na kolech měl vyjet už letos. Ambiciózní projekt ale nakonec zůstane jen na papíře

Snaha herního giganta a japonské automobilky o vytvoření elektromobilu nevydržel...

Se značkou Haier jsme se zatím setkávali na velkých domácích spotřebičích, nově ...

Druhá vlna březnových novinek míří do Game Passu. Zahrajete si přes 10 her

Xbox Game Pass, druhá březnová vlna pro rok 2026 je oficiálně tady. Microsoft od...

Český herní megahit míří do gotické katedrály. O tuhle akci by neměl přijít žádný fanoušek Kingdom Come

Unikátní spojení středověké historie a moderní herní hudby ožije přímo v srdci K...

Umělá inteligence Googlu vytváří dobře padnoucí zvuk pro videa

Pavel Trousil 20.06.2024

Udělali jsme pokrok v naší generativní technologii pro převod videa na zvuk (video-to-audio:V2A), hlásí Google DeepMind. Přidat správný zvukový doprovod k videu by tak za chvíli neměl být problém. Jak tato technologie funguje?

Díky programům, jako je Canva, už není problém si nechat vygenerovat video. A modely pro generování videa se vyvíjejí neuvěřitelným tempem. Ale mnoho současných systémů dokáže generovat pouze tichý výstup – video bez zvuku. Umělá inteligence Deepmind společnosti Google k němu doplňuje další důležitou ingredienci –bohatou zvukovou kulisu pro dění na obrazovce, například dramatickou hudbu a realistické zvukové efekty.

We're sharing progress on our video-to-audio (V2A) generative technology. 🎥

It can add sound to silent clips that match the acoustics of the scene, accompany on-screen action, and more.

Here are 4 examples - turn your sound on. 🧵🔊 https://t.co/VHpJ2cBr24 pic.twitter.com/S5m159Ye62
— Google DeepMind (@GoogleDeepMind) June 17, 2024

Google Deepmind to komentuje: "Jedním z dalších velkých kroků při oživování generovaných filmů je vytvoření zvukové stopy pro tato němá videa." A současné možnosti umělé inteligence v technologii převodu videa na zvuk (Video to Audio, V2A) také demonstruje na několika videích. Do V2A generátoru je potřeba zadat video a textový pokyn v přirozeném jazyce. Umělá inteligence na základě toho doprovodí obrázky odpovídajícími zvuky, jako je hudba, zvukové efekty nebo dialogy.

Zdroj: YouTube, Deepmind

Umělá inteligence dokáže také generovat zvukovou stopu pro řadu tradičních záběrů, včetně archivních materiálů, němých filmů a dalších - otevírá to podle Googlu širší škálu tvůrčích možností. V2A technologie může generovat neomezený počet zvukových stop pro libovolné vstupní video. Volitelně lze také definovat "pozitivní výzvu", která nasměruje generovaný výstup k požadovaným zvukům, nebo naopak "negativní výzvu", která jej odvede od nežádoucích zvuků.

Proces začíná zakódováním vstupního videa do komprimované reprezentace. Poté difuzní model iterativně zpřesňuje zvuk z náhodného šumu. Tento proces je řízen vizuálním vstupem a zadanými výzvami v přirozeném jazyce, aby se generoval synchronizovaný, realistický zvuk, který úzce souvisí s výzvou. Nakonec je zvukový výstup dekódován, přeměněn na zvukovou vlnu a zkombinován s obrazovými daty.

Podle Googlu se umělá inteligence učí "spojovat určité zvukové události s různými vizuálními scénami a reagovat na informace uvedené v anotacích nebo přepisech". V oblasti synchronizace rtů u videí s řečí je třeba ještě zapracovat. V současné době probíhá sběr zpětné vazby od tvůrců a filmařů. Google zdůrazňuje, že se "zavázala k odpovědnému vývoji a používání technologií umělé inteligence". Videa vytvořená pomocí Google Deepmind budou prozatím opatřena vodoznakem. Než bude technologie zpřístupněna široké veřejnosti, projde "přísnými bezpečnostními kontrolami a testy".

Zdroj: DeepMind