- DeepMind představil nové modely, které robotům dovolují přemýšlet dopředu a hledat si informace online
- Systém kombinuje model pro vnímání a uvažování s modelem pro vykonávání kroků v reálném světě
- Dovednosti se dají přenášet mezi různými typy robotů
Google DeepMind oznámil aktualizaci své robotické AI: modely Gemini Robotics 1.5 a Gemini Robotics-ER 1.5 nově umožňují robotům řešit vícekrokové úkoly a podle potřeby čerpat instrukce z webu. Podle šéfky robotiky Caroliny Parady dokáže systém před samotnou akcí navíc ještě „myslet o několik kroků dopředu“, což posouvá řízení strojů od plnění jednotlivých příkazů k řešení komplexnějších problémů v reálném prostředí.
Dva modely v jednom
Základem je dvojice modelů, které spolupracují. Gemini Robotics-ER 1.5 zajišťuje „vtělené uvažování“: rozumí okolí robota, identifikuje, co je třeba udělat, a při nejasnostech si vyhledá aktuální informace (například lokální pravidla třídění odpadu). Tyto poznatky převede do srozumitelných instrukcí pro druhý model, Gemini Robotics 1.5, který díky vizuálně-jazykovým schopnostem krok za krokem úkol provede.
V praxi tak systémy zvládají více než jednoduché akce typu rozepnutí zipu či přeložení papíru. DeepMind uvádí příklady jako třídění prádla podle barev, sbalení kufru s ohledem na aktuální počasí v Londýně nebo pomoc s tříděním odpadu, kompostu a recyklátu podle místních pravidel, která si robot může dohledat online. „Dosavadní modely uměly velmi obecně plnit jeden příkaz. S touto aktualizací se posouváme ke skutečnému porozumění a řešení fyzických úloh,“ uvedla Parada, jak reportuje The Verge.
Mezi námi roboty
Novinkou je také přenositelnost dovedností mezi rozdílnými roboty. Úlohy natrénované na dvouramenném systému ALOHA2 podle vývojářů jednoduše fungují i na robotu Franka se dvěma rameny a na humanoidním robotu Apollo od Apptroniku.
„Umožňuje nám to řídit velmi odlišné roboty jedním modelem a zároveň přenášet naučené dovednosti z jednoho stroje na druhý,“ popsal pro The Verge inženýr Kanishka Rao. Tento krok má potenciál zrychlit nasazení nových schopností v různých robotických platformách bez nutnosti trénovat každý stroj od nuly.
Z hlediska dostupnosti zpřístupňuje Google DeepMind model Gemini Robotics-ER 1.5 vývojářům přes Gemini API v Google AI Studio. Plný model Gemini Robotics 1.5 je prozatím určen pouze vybraným partnerům.
Univerzálně použitelní roboti
Pokud si pamatujete, Google představil práce na robotických verzích Gemini už v březnu. Aktuálně tak rozšiřuje plánování, multimodální „vnímání“ a integraci s nástroji, jako je třeba vyhledávání na Googlu.
Nepřehlédněte
Google zase navařil! Gemini rozšiřuje o audio, vyhledávání o jazyky a NotebookLM o reporty
Velká aktualizace tak jasně signalizuje trend směrem k obecnějším robotickým agentům, kteří dokáží kombinovat vnímání, plánování a akci s využitím online znalostí. Rozsah a limity spolehlivosti v různých prostředích firma sice detailně nekomentovala, klíčové je ale to, že plánování vícekrokových úloh a přenos dovedností mezi platformami se posouvají z výzkumu blíže k praktickým aplikacím.