Přejít k hlavnímu obsahu

Porozumíme řeči delfínů? Umělá inteligence Googlu hlásí průlom

Pavel Trousil 20.04.2025
DolphinGemma
info ikonka
Zdroj: Vygenerováno v Midjourney

Vědci ve spolupráci s Googlem vyvinuli nový model umělé inteligence, který má pomoci porozumět komplexnímu jazyku delfínů. Jejich komunikace složená z hvízdání a dalších zvukových projevů však zůstává pro lidstvo zatím záhadou. To by se mohlo změnit.

Kapitoly článku

Desetiletí výzkumu delfínů

Delfíni patří k nejchytřejším živočichům na Zemi. Umí spolupracovat, učit se novým věcem a dokážou se poznat v zrcadle. Teď ale přichází zlom – Google společně s vědci z Georgia Tech a týmem Wild Dolphin Project (WDP) představil nový model umělé inteligence jménem DolphinGemma.

Wild Dolphin Project je nejdéle trvající podmořský výzkum delfínů na světě. Už od roku 1985 sleduje konkrétní skupinu divokých skvrnitých atlantských delfínů (Stenella frontalis) u Baham, a to napříč několika generacemi. Výzkum probíhá šetrným, neinvazivním způsobem – vědci se snaží delfíny pozorovat v jejich přirozeném prostředí a podle jejich pravidel. Za tu dobu shromáždili unikátní sbírku dat: desítky let podvodních videí a zvukových záznamů, které jsou přesně propojené s konkrétními jedinci, jejich životními příběhy a chováním.

Výzkumníci na základě dlouhodobého pozorování dokázali identifikovat některé opakující se vzorce v delfíní komunikaci:

  • Podpisové hvizdy (jedinečná „jména“), která používají matky a mláďata aby se našly
  • Zvukové „skřeky“ často zaznamenané během konfliktů
  • Klikavé „bzučení“ typicky používané během námluv nebo při pronásledování žraloků

Právě tento rozsáhlý dataset vytvořil jedinečnou příležitost pro zapojení pokročilé umělé inteligence.

DolphinGemma: AI naslouchá delfínům

DolphinGemma je model umělé inteligence vyvinutý Googlem. Využívá specifické audio technologie – tokenizátor SoundStream, který efektivně reprezentuje delfíní zvuky. Ty jsou následně zpracovány architekturou modelu vhodnou pro komplexní sekvence. Tento ~400M parametrový model je optimalizován pro přímé spuštění na telefonech Google Pixel.

DolphinGemma
info ikonka
Zdroj: Google blog
Vlevo: Matka delfína skvrnitého pozoruje své mládě při hledání potravy. Když mládě skončí, přivolá ho zpět svým jedinečným pískáním. Vpravo: Spektrogram pro vizualizaci pískání.

Model vychází z poznatků z Gemma. To je kolekce otevřených modelů Googlu, které jsou postaveny na stejném výzkumu a technologii jako modely Gemini. Po rozsáhlém tréninku na akustické databázi WDP funguje DolphinGemma jako model se zvukovým vstupem a výstupem, zpracovává sekvence přirozených delfíních zvuků, identifikuje vzorce, strukturu a předpovídá pravděpodobné následující zvuky v sekvenci – podobně jako velké jazykové modely pro lidský jazyk předpovídají další slovo nebo token ve větě.

DolphinGemma
info ikonka
Zdroj: Google blog
Vlevo: Dr. Denise Herzingová na snímku „Chat Senior, 2012“, vpravo: Doktorand na Georgijské technice Charles Ramey má na sobě „Chat Junior, 2025“.
Pixel
info ikonka
Zdroj: Google, blog
Google Pixel 9 uvnitř nejnovějšího hardwaru systému CHAT.

Telefony Pixel jako komunikátor s delfíny

Vedle analýzy přirozené komunikace WDP také zkoumá možnosti obousměrné interakce přímo v oceánu. Tento projekt vedl k vývoji systému CHAT (Cetacean Hearing Augmentation Telemetry) ve spolupráci s Georgia Institute of Technology. CHAT je podvodní počítač navržený nikoliv k přímému dešifrování komplexního přirozeného jazyka delfínů, ale k vytvoření jednodušší, sdílené slovní zásoby.

Mohlo by vás zajímat

Koncept nejprve spočívá v asociaci nových, syntetických hvizdů (vytvořených systémem CHAT, odlišných od přirozených delfíních zvuků) s konkrétními předměty, které delfíni rádi, jako je sargassum (Hroznovice – rod chaluh rostoucí v tropických mořích), mořská tráva nebo šátky, které výzkumníci používají. Výzkumníci doufají, že přirozeně zvědaví delfíni se naučí napodobovat hvizdy k vyžádání těchto předmětů.

Pixel 6 zvládl podle Googlu analýzu delfíních zvuků v reálném čase. Nadcházející generace, postavená kolem Pixelu 9 (výzkum plánovaný na léto 2025), staví na tomto úsilí integrací funkcí reproduktoru/mikrofonu a využívá pokročilé zpracování telefonu ke spouštění hlubokých učících se modelů a algoritmů pro rozpoznávání vzorů současně.

Mohlo by vás zajímat

Sdílení DolphinGemma s komunitou

Google plánuje sdílet DolphinGemma jako otevřený model v létě tohoto roku. Ačkoli je trénovaný na zvucích skvrnitých atlantských delfínů, očekává se jeho potenciální využití pro výzkumníky studující další druhy kytovců. Pro různé druhy vokalizace může být vyžadováno doladění a otevřená povaha modelu tuto adaptaci usnadňuje.

Cesta k porozumění delfíní komunikaci je dlouhá, ale kombinace terénního výzkumu WDP, inženýrských znalostí z Georgia Tech a technologií Googlu otevírá nové možnosti. Výzkumníci už nejen naslouchají, ale začínají rozumět vzorcům uvnitř zvuků, což možná v budoucnu zmenší komunikační propast mezi lidmi a delfíny.

Zdroj: Google Blog, ArsTechnica

Článek obsahuje prvky vygenerované AI


Máte k článku připomínku? Napište nám

Mohlo by se vám líbit








Všechny nejnovější zprávy

doporučujeme