Desetiletí výzkumu delfínů
Delfíni patří k nejchytřejším živočichům na Zemi. Umí spolupracovat, učit se novým věcem a dokážou se poznat v zrcadle. Teď ale přichází zlom – Google společně s vědci z Georgia Tech a týmem Wild Dolphin Project (WDP) představil nový model umělé inteligence jménem DolphinGemma.
Wild Dolphin Project je nejdéle trvající podmořský výzkum delfínů na světě. Už od roku 1985 sleduje konkrétní skupinu divokých skvrnitých atlantských delfínů (Stenella frontalis) u Baham, a to napříč několika generacemi. Výzkum probíhá šetrným, neinvazivním způsobem – vědci se snaží delfíny pozorovat v jejich přirozeném prostředí a podle jejich pravidel. Za tu dobu shromáždili unikátní sbírku dat: desítky let podvodních videí a zvukových záznamů, které jsou přesně propojené s konkrétními jedinci, jejich životními příběhy a chováním.
Výzkumníci na základě dlouhodobého pozorování dokázali identifikovat některé opakující se vzorce v delfíní komunikaci:
- Podpisové hvizdy (jedinečná „jména“), která používají matky a mláďata aby se našly
- Zvukové „skřeky“ často zaznamenané během konfliktů
- Klikavé „bzučení“ typicky používané během námluv nebo při pronásledování žraloků
Právě tento rozsáhlý dataset vytvořil jedinečnou příležitost pro zapojení pokročilé umělé inteligence.
DolphinGemma: AI naslouchá delfínům
DolphinGemma je model umělé inteligence vyvinutý Googlem. Využívá specifické audio technologie – tokenizátor SoundStream, který efektivně reprezentuje delfíní zvuky. Ty jsou následně zpracovány architekturou modelu vhodnou pro komplexní sekvence. Tento ~400M parametrový model je optimalizován pro přímé spuštění na telefonech Google Pixel.

Model vychází z poznatků z Gemma. To je kolekce otevřených modelů Googlu, které jsou postaveny na stejném výzkumu a technologii jako modely Gemini. Po rozsáhlém tréninku na akustické databázi WDP funguje DolphinGemma jako model se zvukovým vstupem a výstupem, zpracovává sekvence přirozených delfíních zvuků, identifikuje vzorce, strukturu a předpovídá pravděpodobné následující zvuky v sekvenci – podobně jako velké jazykové modely pro lidský jazyk předpovídají další slovo nebo token ve větě.


Telefony Pixel jako komunikátor s delfíny
Vedle analýzy přirozené komunikace WDP také zkoumá možnosti obousměrné interakce přímo v oceánu. Tento projekt vedl k vývoji systému CHAT (Cetacean Hearing Augmentation Telemetry) ve spolupráci s Georgia Institute of Technology. CHAT je podvodní počítač navržený nikoliv k přímému dešifrování komplexního přirozeného jazyka delfínů, ale k vytvoření jednodušší, sdílené slovní zásoby.
Koncept nejprve spočívá v asociaci nových, syntetických hvizdů (vytvořených systémem CHAT, odlišných od přirozených delfíních zvuků) s konkrétními předměty, které delfíni rádi, jako je sargassum (Hroznovice – rod chaluh rostoucí v tropických mořích), mořská tráva nebo šátky, které výzkumníci používají. Výzkumníci doufají, že přirozeně zvědaví delfíni se naučí napodobovat hvizdy k vyžádání těchto předmětů.
Pixel 6 zvládl podle Googlu analýzu delfíních zvuků v reálném čase. Nadcházející generace, postavená kolem Pixelu 9 (výzkum plánovaný na léto 2025), staví na tomto úsilí integrací funkcí reproduktoru/mikrofonu a využívá pokročilé zpracování telefonu ke spouštění hlubokých učících se modelů a algoritmů pro rozpoznávání vzorů současně.
Sdílení DolphinGemma s komunitou
Google plánuje sdílet DolphinGemma jako otevřený model v létě tohoto roku. Ačkoli je trénovaný na zvucích skvrnitých atlantských delfínů, očekává se jeho potenciální využití pro výzkumníky studující další druhy kytovců. Pro různé druhy vokalizace může být vyžadováno doladění a otevřená povaha modelu tuto adaptaci usnadňuje.
Cesta k porozumění delfíní komunikaci je dlouhá, ale kombinace terénního výzkumu WDP, inženýrských znalostí z Georgia Tech a technologií Googlu otevírá nové možnosti. Výzkumníci už nejen naslouchají, ale začínají rozumět vzorcům uvnitř zvuků, což možná v budoucnu zmenší komunikační propast mezi lidmi a delfíny.
Zdroj: Google Blog, ArsTechnica
Článek obsahuje prvky vygenerované AI