Facebook nedávno představil svůj dlouhodobý projekt, ve kterém si klade za cíl naučit umělou inteligenci (AI), na které pracuje, vnímat svět našima očima. Podle jeho slov by brzy mohla přijít chvíle, kdy nás bude umělá inteligence učit vařit nebo hrát na hudební nástroje. Věčně zapomětlivým nebo nepořádným lidem zase pomůže najít věci, které někde odložili a nemohou je najít. Dokonce by mohl přijít i okamžik, kdy pro nás náš chytrý asistent za pomoci rozšířené reality oživí naše blízké a zobrazí nám je jako hologramy.
„Umělá inteligence, která by vnímala svět z našeho úhlu pohledu, našima očima, tedy z pohledu první osoby, by nám mohla otevřít dveře do nové éry pohlcujících zážitků. Ruku v ruce s technologiemi, jako jsou brýle pro rozšířenou realitu (AR) nebo soustavy pro vstup do virtuální reality (VR), by mohla časem být stejně užitečným nástrojem pro náš každodenní život, jakým jsou v současné době smartphony. Představte si třeba situaci, že byste se chtěli naučit hrát na bicí bez učitele, videí nebo článků s návody. Právě zařízení s podporou rozšířené reality by vám mělo se zvládnutím nového koníčku pomoci. Díky brýlím s AR byste totiž přesně viděli, jak držet paličky. Při vaření by vás umělá inteligence provedla jednotlivými kroky receptu vybraného jídla, nebo dokonce přivedla vaše staré vzpomínky jako hologramy, které by se na vaše přání objevily přímo před vámi.
Abychom této nové technologie dosáhli, je nejprve nutné naučit naši umělou inteligenci chápat náš svět tak, jak ho chápeme my a interagovat s ním stejným způsobem, kterým ke světu přistupujeme my. To znamená z pohledu první osoby, ve vědecké terminologie lze říci, že je nutné, aby se naše AI naučila „egocentrické vnímání světa“. Takto totiž současné počítačové systémy nefungují. Ty k učení využívají milióny fotek a videí, které jim jsou zprostředkovány z pohledu třetí osoby, tj. objektiv kamery stojí na straně pozorovatele akce, nikoliv v jejím centru. U systémů rozšířené reality nové generace, na kterých pracujeme, tak půjde o úplně jiná data, ze kterých se bude umělá inteligence učit,“ říká k ambicióznímu projektu oblíbené sociální sítě Kristen Graumanová, vedoucí výzkumného týmu, který má celý projekt na starost.
Přichází Facebook Ego4D
Výše popsaný projekt dostal označení Ego4D a z informací Facebooku vyplývá, že se počítá s tím, že půjde o dlouhodobý projekt mající za cíl naučit umělou inteligenci egocentrické vnímání světa. Za tímto účelem spojil Facebook síly s třinácti univerzitami a laboratořemi z devíti zemí světa, kterým se podařilo nasbírat už 2200 hodin videozáběrů přírody pořízených z pohledu první osoby.
Kromě toho se projektu účastní také přes 700 účastníků z celého světa. Co se týče financování výzkumu, který bude probíhat na univerzitní půdě, vydal se Facebook cestou akademických darů ve prospěch jednotlivých spolupracujících univerzit.
Klíčovým systémem, jenž bude odrážet pokrok, kterého se podaří dosáhnout, jsou benchmarky, který byly za tímto účelem ve spolupráci s univerzitami zapojenými do projektu a laboratořemi spadajícími pod Facebook (Facebook Reality Labs Research – FRL Research) vyvinuty. Konkrétně jde o pět benchmarků zaměřených na tyto oblasti:
- Zvládnutí využívání epizodické paměti, tj. schopnost umělé inteligence vybavit si, co se stalo a kdy. V praxi může jít například o situaci, kdy byste doma odložili klíče od bytu a zapomněli kam. Chytrý pomocník by vám v tu chvíli za využití epizodické paměti řekl, kde ztracené klíče hledat.
- Schopnost předpovědět to, co má následovat, a to na základě předchozích událostí, které umělá inteligence zaznamenala skrze brýle, která má daná osoba na očích. V praxi by umělá inteligence měla porozumět akcím, které určitá osoba provádí, kde se nachází a jaké objekty má ve svém okolí. Na základě toho by pak měla být schopná situaci vyhodnotit, předvídat budoucí kroky a navrhovat nejlepší možnosti postupu. V praxi může jít například o situaci, kdy někdo „pod dohledem“ AI vaří své oblíbené jídlo, sáhne po solničce, aby připravovaný pokrm osolil, a dostane upozornění, že sůl už do hrnce přidával že je naopak potřeba přidat jinou ingredienci, která je podle receptu na řadě.
- Pochopení toho, jak za pomoci našich rukou manipulujeme s objekty. AI by měla být schopná vypozorovat, co určitá osoba dělá a jak. To, aby umělá inteligence pochopila, jak interagujeme s objekty za pomoci našich rukou je podle autorů projektu klíčové pro to, aby nám AI mohla v budoucnu efektivně pomáhat s činnostmi, které nás má naučit, například výše zmíněné hraní na hudební nástroj.
- Pochopení práce s hlasem a přiřazení hlasu k jeho autorovi. Jako lidé používáme zvuk v podobě mluvené řeči k tomu, abychom komunikovali se světem. Vývojáři stojící za tímto projektem jsou toho názoru, že AI by se svým okolím mohla a měla interagovat stejně. Příkladem situace, který nám autoři projektu k pochopení tohoto benchmarku předkládají, je situace, kdy se určitá osoba účastní online hodiny nebo přednášky a její pozornost sem tam uteče od přednášejícího nebo ji něco vyruší a jí tak uteče část výkladu. V takovém případě by přišla na pomoc AI, které byste se zeptali například na otázku: „O čem mluvil přednášející poté, co zhodnotil výsledky testu, který jsme psali?“ a ona už by vám danou část přednášky zopakovala.
- Seznámení se s naší sociální interakcí ve smyslu toho, jak komunikujeme se svým okolím. Kromě vizuálních a sluchových vjemů je dle názoru vývojářů pro vyvíjenou umělou inteligenci důležité pochopit i mechanismy naší sociální interakce, tedy třeba toho, kdo mluví s kým a kdo komu věnuje pozornost. Pokud se tak například ocitnete ve větší společnosti, kde pro vás bude těžké zachytit obsah sdělení člověka, se kterým se bavíte, tak by vám v budoucnu i s tímto problémem měla být AI schopna pomoci.
Facebooku pomáhá celý svět
Soubory dat, které se zatím podařilo nashromáždit, budou následně distribuovány univerzitám účastnícím se projektu, aby s nimi mohly dále pracovat a přispět tak svou troškou do mlýna. Už teď však má každá z univerzit připravené studijní protokoly a vypracované metodiky s postupy, kterými budou směřovat svou činnost.
Jejich výzkumy podpoří i další data, která výzkumníci z FRL Research nasbírali za pomoci brýlí Vuzix Blade Smart Glasses, představovaná dalšími 400 hodinami videozáznamů z pohledu první osoby pořízených dobrovolníky v simulovaných prostředích, která byla za tím účelem sestavena.
Naučit AI vnímat svět z pohledu první osoby bude velkou výzvou
Výzkumný tým nicméně přiznává, že ho čeká dlouhá cesta, na které bude nutné překonat spoustu výzev, které se před nimi zcela jistě objeví. Naučit umělou inteligenci chápat, že se na svět dívá z pohledu první osoby, bude dle vývojářů náročné, protože v současnosti AI zná svět jen z pohledu třetí osoby. I poté, kdy bude schopná vidět svět „vlastníma očima“, bude navíc nutné, aby dokázala rozlišit mezi těmito dvěma pohledy a uvědomit si, jak spolu souvisejí.
Autoři projektu zmíněnou problematiku přirovnávají k jízdě na horské dráze. Když my stojíme ve frontě na horskou dráhu a čekáme, až na nás přijde řada, vidíme něco jiného než potom, když už sedíme v jednom z vozíků a řítíme se střemhlav dolů. Nedělá nám problém si obě situace spojit a víme, že obojí je horská dráha, jen ji vidíme buď z pozice pozorovatele nebo přímého účastníka. Umělá inteligence na úrovni, na které momentálně je, ke stejnému závěru prozatím není schopná dojít. Pokud teď „posadíte“ umělou inteligencí do sedačky a pustíte ji na horskou dráhu, nebude mít ponětí, kde se nachází a na co se při jízdě dívá.
„K tomu, aby dokázala umělá inteligence interagovat se světem způsobem, jakým to děláme my, musíme vyvinout úplně nový systém vnímání z pohledu první osoby. To znamená, že nepůjde jen o zvládnutí vidění světa lidskýma očima. Pozorovanou situaci bude nutné ukotvit do celkového kontextu pomocí zařízení simulujících další smysly, kterými lze realitu vnímat,“ doplňuje Graumanová. Autoři projektu poukazují i na to, že bude nutné vyvinout nové nástroje, které je k jejich vytyčenému cíli dovedou. Ty současné, které umějí například identifikovat objekty či text na obrázcích, totiž dle jejich slov nejsou připravené na novou výzvu v podobě egocentrického vnímání světa umělou inteligencí.
Tady se opět dostáváme k důležitosti záznamů pořízených z pohledu první osoby, které se již povedlo nashromáždit a jejichž další sběr bude ve velkém rozsahu probíhat i v budoucnu. Klíčovými technologiemi pro sběr tohoto typu dat tak budou kamerové systémy, které musejí dobrovolníci zapojení do projektu nosit přidělané na hlavách. Těmi budou zachycovat svět, jak ho oni sami vidí, a to při činnostech, kterým se denně věnují.
Za zmínku určitě stojí to, že jde o opravdu rozmanitou skupinu dobrovolníků, protože jak uvádí Facebook, účastníci jeho projektu jsou roztroušení doslova po celém světě, ať už je to Itálie, Japonsko, Saúdská Arábie, Singapur, Kolumbie, Rwanda či USA. Stejnou rozmanitost můžeme vidět i v případě jejich věku, profese a samozřejmě, jak už tato doba nese, i genderu, ke kterému se hlásí. Hlavní výhodou rozmanitosti zapojených dobrovolníků má být pokrytí kulturních a geografických rozdílů, majících vliv mimo jiné právě na to, jak rozdílné osoby vnímají svět a žijí své životy.
Vstříc lepší budoucnosti…. Doufejme
Projekt jako takový disponuje podle autorů projektu nezměrným potenciálem ke zlepšení našeho každodenního života. Až se výzkumnému týmu, který na projektu pracuje, povede vypořádat se s problematickými aspekty vývoje, můžeme, alespoň podle toho, jak Facebook projekt prezentuje, čekat opravdu velké technologické novinky, které si nezadají s těmi, jež někteří z nás znají ze sci-fi série Black Mirror.
Nepřehlédněte – Ty vidíš Samsung, já vidím iPhone. Umělá inteligence slibuje revoluci v televizní reklamě
Nezbývá než doufat, že si s tím, jak bude technologie postupně více a více prostupovat naším každodenním životem, poradíme lépe, než se to podařilo v příbězích, které jsme ve zmíněném seriálu mohli vidět.