- Apple ve spolupráci s univerzitami vyvinul nový AI model Matrix3D
- Matrix3D dokáže rekonstruovat detailní 3D scény z pouhých tří 2D obrázků
- Model zjednodušuje a zefektivňuje proces fotogrammetrie díky jednotné architektuře a inovativní tréninkové metodě
Apple je sice v „uživatelské“ AI povážlivě pozadu, nicméně jeho výzkumný tým strojového učení nezahálí a bádá, Aktuálně totiž oznámil, že ve spolupráci s výzkumníky z Nanjingské univerzity a Hongkongské univerzity vědy a technologie vybádal nový AI model s názvem Matrix3D. V praxi by mělo jít o velký pokrok v oblasti 3D rekonstrukce. Model umí totiž generovat detailní 3D scény a objekty z pouhých tří vstupních 2D obrázků.
Fotogrammetrický model
Matrix3D se coby rozsáhlý fotogrammetrický model od současných postupů liší především svou schopností provádět několik klíčových fotogrammetrických úloh, a to konkrétně odhad pozice kamery, predikci hloubky a syntézu nových pohledů. Všechno to hlavně zvládá v rámci jediného, jednotného modelu.
Sjednocení procesů, které dříve vyžadovalo samostatné modely, tak v praxi vede ke zjednodušení pracovního postupu a zároveň zvyšuje přesnost výsledné 3D rekonstrukce. Základem Matrix3D je multimodální difuzní transformátor (DiT), který umožňuje integraci a zpracování informací z různých modalit, včetně obrázků, parametrů kamery a hloubkových map.
Maskovaná inovace
Klíčovou inovací v tréninku modelu je strategie maskovaného učení, podobná metodám použitým u raných systémů založených na transformátorech, které stály u zrodu prvních verzí ChatGPT.
Tréninková metoda spočívá v náhodném skrývání částí vstupních dat během učení, čímž je Matrix3D nucen naučit se doplňovat chybějící informace. Právě tohle je důležité, protože to ve výsledku umožňuje efektivní trénink modelu i na menších nebo nekompletních datových sadách. A to pak zase výrazně rozšiřuje možnosti využití dostupných tréninkových dat.
Výsledky, kterých Matrix3D dosahuje, jsou hodně zajímavé. S minimálním počtem tří vstupních obrázků dokáže model vytvořit detailní 3D rekonstrukce objektů i celých prostředí. Potenciál pro širokou škálu aplikací je tady hmatatelný, zejména v kontextu imerzivních technologií, jako jsou headsety pro rozšířenou a virtuální realitu, včetně právě Apple Vision Pro. Pokud se Matrix3D „chytí“ a masově rozšíří, mohl by přispět k výraznému zjednodušení tvorby obsahu nejen pro Apple Vision Pro.
Přípravy na budoucnost
Fotogrammetrie je obecně vědní obor, který využívá fotografie k provádění měření za účelem vytvoření 3D modelů nebo map. Současné fotogrammetrické postupy často zahrnují oddělené modely pro různé kroky, což ale může vést k neefektivitě a potenciálním chybám při přechodu mezi jednotlivými fázemi. Matrix3D tento proces zásadně zjednodušuje a zefektivňuje díky své jednotné architektuře a inovativní tréninkové metodě.

Nepřehlédněte
Jak budete vypadat za třicet let? Poradíme vám, jak se správně zeptat umělé inteligence
Apple by tak z nového modelu mohl v některých oblastech dost podstatně těžit. Otázkou však zůstává, jak moc bude Matrix3D užitečný v praxi. Jak je dobře známo, Apple Vision Pro není v současné době ani zdaleka masově rozšířené či používané zařízení a nejspíš se to jen tak nezmění. Apple si nicméně může pomalu a jistě připravovat půdu pro nevyhnutelné další verze Apple Vision Pro, které nemusí být „Pro“ a budou tak třeba podstatně dostupnější.