Od kamery na nohou k myšlení
Spot není žádná novinka. Firma Boston Dynamics ho vyvíjí roky a prodává ho průmyslovým zákazníkům přibližně za 1,7 milionu korun (s nástavbami, jako je rameno Spot Arm, cena prudce roste, často na dvojnásobek). Robot se pohybuje na čtyřech nohách, zvládá schody, nerovný terén i podmínky, kde by lidský inspektor riskoval zdraví. Dosud ale Spot fungoval hlavně na základě přesně naprogramovaných tras a úkolů a a v podstatě každý krok musel někdo dopředu naprogramovat.
To se teď mění. Boston Dynamics integroval do Spota model Gemini Robotics-ER 1.6 od Google DeepMind. Jde o multimodální umělou inteligenci, která dokáže vidět, číst, uvažovat a plánovat. Výsledkem je robot, který dostane úkol v přirozeném jazyce a sám si najde cestu, jak ho splnit.
Jak to celé funguje
Technicky jde o propojení dvou světů: robustního pohybového a manipulačního systému Spota na jedné straně a velkého jazykového modelu na straně druhé. Inženýři z Boston Dynamics vytvořili vrstvu, která umožňuje AI modelu komunikovat s robotovým rozhraním (API). Gemini Robotics pak funguje jako „mozek“ – vydává příkazy a Spot je fyzicky provádí.
Klíčem jsou takzvané nástroje (tools) – jednoduché skripty, které překládají pokyny AI do konkrétních akcí robota: přejít na místo, vyfotografovat scénu, identifikovat objekt, uchopit ho, položit. Celá komunikace probíhá v přirozeném jazyce. Místo psaní stovek řádků kódu stačilo inženýrům říct modelu, co má Spot k dispozici a co zvládá, a nechat ho, ať si poradí.
Robot přitom nepracuje naslepo. Po každé akci dostane zpětnou vazbu. Pokud se mu nepodaří uchopit předmět, ví o tom a zkusí to jinak. Gemini zároveň nemůže vymýšlet schopnosti, které Spot nemá, a je striktně omezena na to, co robot fyzicky zvládne.
Rukou psaný seznam a úklid obýváku
Demonstrační video, které Boston Dynamics zveřejnil spolu s Google DeepMind, ukazuje na první pohled banální situaci: Spot dostane napsaný seznam úkolů – takový, jaký si píšeme na kuchyňskou lednici. Přečte ho, vyhodnotí a začne pracovat. Uklidí boty na botník, posbírá plechovky, přenese oblečení do koše na prádlo.
Jde o chytrý způsob, jak předvést jednu zásadní novinku: robot poprvé nepotřebuje digitální instrukce – stačí mu lidský rukopis. Gemini vidí prostřednictvím kamery, rozumí psanému textu a propojí ho s tím, co robot aktuálně vidí v místnosti.
Součástí videa je i sekvence, kde Spot vezme vodítko a vyvenčí živého psa. Je to okamžik, který v médiích způsobil rozruch – ale z technického pohledu jde o přímý důkaz schopnosti robota správně identifikovat situaci, přizpůsobit sílu úchopu a bezpečně interagovat s živým tvorem.
Čtení manometrů: tohle je ta skutečná revoluce
Zatímco úklid obýváku zaujme veřejnost, skutečný přínos technologie leží jinde – v průmyslu. Průmyslové provozy jsou plné analogových přístrojů: manometrů, teploměrů, průhledítek na hladinu kapalin. Jejich odečítání vyžaduje pravidelné obchůzky, je to opakující se a nudná práce, ale zároveň kriticky důležitá.
Gemini Robotics-ER 1.6 tuto schopnost údajně nově zvládá s mimořádnou přesností. Model údajně dosahuje 93% úspěšnosti při čtení analogových přístrojů, když využívá techniku tzv. agentního vidění – nejprve si přiblíží detail na stupnici, identifikuje ručičku, odhadne proporce pomocí vlastního výpočtu a výsledek porovná se znalostí toho, co daný přístroj typicky měří. Jde o složený proces – stejně jako to dělá zkušený technik.Předchozí verze modelu zvládala tento úkol jen z 23 %. Skok na 93 % je výsledek přímé spolupráce s Boston Dynamics, který identifikoval čtení měřidel jako klíčové pro průmyslové nasazení Spota.
Proč je to průlom, ne jen technická hračka
Dosavadní robotické systémy zvládaly inspekční obchůzky dobře – Spot dokáže projet celou továrnu po předem dané trase, natočit video a odeslat data. Jenže vyhodnocení pořád dělal člověk. Teď se to mění. Robot nejen data sbírá, ale také je interpretuje. Uvidí louži na podlaze a sám ji vyhodnotí jako potenciální riziko. Přečte hodnotu na manometru a porovná ji s normou, pokud ji zná. Pokud ne, může se dotázat – Gemini Robotics totiž umí volat i externí nástroje, včetně vyhledávání na internetu.
Spot s Gemini zatím není dokonalý. Ve stejném videu, kde robot úspěšně uklidí místnost, je záběr, kde uchopí plechovku nakřivo – jednoduchá chyba, která by v reálném provozu mohla způsobit rozlití obsahu. Robot nemá hmat (jen senzory síly a krouticího momentu), nemá fyzickou intuici, kterou člověk získává roky praxe. Celý systém je zatím ve fázi experimentálního nasazení. Boston Dynamics plánuje postupné rozšiřování na základě zpětné vazby od zákazníků a klade důraz na to, aby robot dosáhl dostatečné spolehlivosti.
Zdroj: Google, Boston Dynamics, Independent, AI Business, Ars Technica