Neskutečné! Roboti od Googlu umí přemýšlet dopředu a učí se z internetu

Dva roboti dělají domácí práce (ilustrační obrázek)

DeepMind představil nové modely, které robotům dovolují přemýšlet dopředu a hledat si informace online
Systém kombinuje model pro vnímání a uvažování s modelem pro vykonávání kroků v reálném světě
Dovednosti se dají přenášet mezi různými typy robotů

Google DeepMind oznámil aktualizaci své robotické AI: modely Gemini Robotics 1.5 a Gemini Robotics-ER 1.5 nově umožňují robotům řešit vícekrokové úkoly a podle potřeby čerpat instrukce z webu. Podle šéfky robotiky Caroliny Parady dokáže systém před samotnou akcí navíc ještě „myslet o několik kroků dopředu“, což posouvá řízení strojů od plnění jednotlivých příkazů k řešení komplexnějších problémů v reálném prostředí.

Dva modely v jednom

Základem je dvojice modelů, které spolupracují. Gemini Robotics-ER 1.5 zajišťuje „vtělené uvažování“: rozumí okolí robota, identifikuje, co je třeba udělat, a při nejasnostech si vyhledá aktuální informace (například lokální pravidla třídění odpadu). Tyto poznatky převede do srozumitelných instrukcí pro druhý model, Gemini Robotics 1.5, který díky vizuálně-jazykovým schopnostem krok za krokem úkol provede.

V praxi tak systémy zvládají více než jednoduché akce typu rozepnutí zipu či přeložení papíru. DeepMind uvádí příklady jako třídění prádla podle barev, sbalení kufru s ohledem na aktuální počasí v Londýně nebo pomoc s tříděním odpadu, kompostu a recyklátu podle místních pravidel, která si robot může dohledat online. „Dosavadní modely uměly velmi obecně plnit jeden příkaz. S touto aktualizací se posouváme ke skutečnému porozumění a řešení fyzických úloh,“ uvedla Parada, jak reportuje The Verge.

Mezi námi roboty

Novinkou je také přenositelnost dovedností mezi rozdílnými roboty. Úlohy natrénované na dvouramenném systému ALOHA2 podle vývojářů jednoduše fungují i na robotu Franka se dvěma rameny a na humanoidním robotu Apollo od Apptroniku.

„Umožňuje nám to řídit velmi odlišné roboty jedním modelem a zároveň přenášet naučené dovednosti z jednoho stroje na druhý,“ popsal pro The Verge inženýr Kanishka Rao. Tento krok má potenciál zrychlit nasazení nových schopností v různých robotických platformách bez nutnosti trénovat každý stroj od nuly.

Z hlediska dostupnosti zpřístupňuje Google DeepMind model Gemini Robotics-ER 1.5 vývojářům přes Gemini API v Google AI Studio. Plný model Gemini Robotics 1.5 je prozatím určen pouze vybraným partnerům.

Univerzálně použitelní roboti

Pokud si pamatujete, Google představil práce na robotických verzích Gemini už v březnu. Aktuálně tak rozšiřuje plánování, multimodální „vnímání“ a integraci s nástroji, jako je třeba vyhledávání na Googlu.

Google Bard, model Gemini Pro a umělá inteligence Googlu (ilustrační obrázek)

Nepřehlédněte

Google zase navařil! Gemini rozšiřuje o audio, vyhledávání o jazyky a NotebookLM o reporty

Velká aktualizace tak jasně signalizuje trend směrem k obecnějším robotickým agentům, kteří dokáží kombinovat vnímání, plánování a akci s využitím online znalostí. Rozsah a limity spolehlivosti v různých prostředích firma sice detailně nekomentovala, klíčové je ale to, že plánování vícekrokových úloh a přenos dovedností mezi platformami se posouvají z výzkumu blíže k praktickým aplikacím.

Vstoupit do diskuze

Zdroj článku

Autor článku

Adam Homola

Nové technologie mě fascinují už od útlého věku. K dlouhodobému zájmu o hry a herní průmysl se mi postupem času přirozeně přidal i hardware, software, internetové služby a od roku 2022 i umělá inteligence.