TOPlist

Apple odhalil unikátní AI model. Pohyblivé 3D scény vytvoří jen ze tří fotek

Náhlavní souprava Apple Vision Pro
  • Apple ve spolupráci s univerzitami vyvinul nový AI model Matrix3D
  • Matrix3D dokáže rekonstruovat detailní 3D scény z pouhých tří 2D obrázků
  • Model zjednodušuje a zefektivňuje proces fotogrammetrie díky jednotné architektuře a inovativní tréninkové metodě

Apple je sice v „uživatelské“ AI povážlivě pozadu, nicméně jeho výzkumný tým strojového učení nezahálí a bádá, Aktuálně totiž oznámil, že ve spolupráci s výzkumníky z Nanjingské univerzity a Hongkongské univerzity vědy a technologie vybádal nový AI model s názvem Matrix3D. V praxi by mělo jít o velký pokrok v oblasti 3D rekonstrukce. Model umí totiž generovat detailní 3D scény a objekty z pouhých tří vstupních 2D obrázků.

Fotogrammetrický model

Matrix3D se coby rozsáhlý fotogrammetrický model od současných postupů liší především svou schopností provádět několik klíčových fotogrammetrických úloh, a to konkrétně odhad pozice kamery, predikci hloubky a syntézu nových pohledů. Všechno to hlavně zvládá v rámci jediného, jednotného modelu.

Sjednocení procesů, které dříve vyžadovalo samostatné modely, tak v praxi vede ke zjednodušení pracovního postupu a zároveň zvyšuje přesnost výsledné 3D rekonstrukce. Základem Matrix3D je multimodální difuzní transformátor (DiT), který umožňuje integraci a zpracování informací z různých modalit, včetně obrázků, parametrů kamery a hloubkových map.

Maskovaná inovace

Klíčovou inovací v tréninku modelu je strategie maskovaného učení, podobná metodám použitým u raných systémů založených na transformátorech, které stály u zrodu prvních verzí ChatGPT.

Tréninková metoda spočívá v náhodném skrývání částí vstupních dat během učení, čímž je Matrix3D nucen naučit se doplňovat chybějící informace. Právě tohle je důležité, protože to ve výsledku umožňuje efektivní trénink modelu i na menších nebo nekompletních datových sadách. A to pak zase výrazně rozšiřuje možnosti využití dostupných tréninkových dat.

Výsledky, kterých Matrix3D dosahuje, jsou hodně zajímavé. S minimálním počtem tří vstupních obrázků dokáže model vytvořit detailní 3D rekonstrukce objektů i celých prostředí. Potenciál pro širokou škálu aplikací je tady hmatatelný, zejména v kontextu imerzivních technologií, jako jsou headsety pro rozšířenou a virtuální realitu, včetně právě Apple Vision Pro. Pokud se Matrix3D „chytí“ a masově rozšíří, mohl by přispět k výraznému zjednodušení tvorby obsahu nejen pro Apple Vision Pro.

Přípravy na budoucnost

Fotogrammetrie je obecně vědní obor, který využívá fotografie k provádění měření za účelem vytvoření 3D modelů nebo map. Současné fotogrammetrické postupy často zahrnují oddělené modely pro různé kroky, což ale může vést k neefektivitě a potenciálním chybám při přechodu mezi jednotlivými fázemi. Matrix3D tento proces zásadně zjednodušuje a zefektivňuje díky své jednotné architektuře a inovativní tréninkové metodě.



Zajímá vás, jak byste mohli vypadat ve stáří? Zkuste ChatGPT!



Nepřehlédněte

Jak budete vypadat za třicet let? Poradíme vám, jak se správně zeptat umělé inteligence

Apple by tak z nového modelu mohl v některých oblastech dost podstatně těžit. Otázkou však zůstává, jak moc bude Matrix3D užitečný v praxi. Jak je dobře známo, Apple Vision Pro není v současné době ani zdaleka masově rozšířené či používané zařízení a nejspíš se to jen tak nezmění. Apple si nicméně může pomalu a jistě připravovat půdu pro nevyhnutelné další verze Apple Vision Pro, které nemusí být „Pro“ a budou tak třeba podstatně dostupnější.

Autor článku Adam Homola
Adam Homola
Nové technologie mě fascinují už od útlého věku. K dlouhodobému zájmu o hry a herní průmysl se mi postupem času přirozeně přidal i hardware, software, internetové služby a od roku 2022 i umělá inteligence.

Kapitoly článku