- Nová verze základního modelu Gemini bude umět pracovat s až jedním milionem tokenů
- Model bude také využívat techniku Mixture-of-Experts, díky které bude moci být velice efektivní a rychlý
- Gemini 1.5 Pro by měl být dostupný široké veřejnosti už brzy
Mediální přestřelka mezi Googlem a OpenAI pokračuje. Zatímco Google vykopnul oznámením Gemini 1.5, OpenAI kontrovala mediálně vděčnějším generátorem videí Sora. Ani jedno si zatím nemůžete vyzkoušet, ale něco mi říká, že Gemini 1.5 budete mít v rukách výrazně dříve, než si budete moci vytvořit své první video v Sora.
Milion? Milion!
Přitom právě nová verze Gemini bude v praxi pro většinu lidí nejspíš mnohem užitečnější, neboť z jednoho konkrétního úhlu pohledu překonává ChatGPT 4 o parník.
Konkrétně je řeč o neskutečném číslu 1 milion tokenů. To je v přepočtu zhruba 800 000 slov, čímž Gemini hravě překoná prakticky cokoliv, včetně ChatGPT 4, který se může pochlubit pouze 128 000 tokeny.
Takto výrazný skok ve zpracování dat poskytuje modelu Gemini 1.5 náskok v porozumění a tvorbě rozsáhlých, komplexních textů. Google předpokládá scénáře od tvorby knih až po generování ucelených scénářů. Kromě psaného jazyka umí Gemini 1.5 také všestranné zpracování multimodálních vstupů – včetně obrázků, zvuku a videa – a nabízí rozmanitý výstupní potenciál napříč těmito formáty.
Efektivita především
Gemini 1.5 ale není jen o hrubém výkonu; Google klade velký důraz na efektivitu a škálovatelnost modelu. Srdcem verze Pro je technika Mixture-of-Experts (MoE), která je klíčovým odlišujícím faktorem oproti předchůdci, modelu 1.0 Ultra.
MoE umožňuje systému Gemini 1.5 Pro selektivně směrovat dotazy na vysoce specializované segmenty neuronové sítě. Tato dynamická aktivace stojí v protikladu k tradičním modelům, které pro každou úlohu zpracovávají celou svou architekturu bez ohledu na její složitost.
V praxi tak bude Gemini 1.5 Pro díky MoE mnohem efektivnější a snad i rychlejší. Přičemž už teď je standardní Gemini i Gemini Advanced podstatně rychlejší než ChatGPT 4.
Kvality Gemini 1.5 Pro pak jen podporuje údajně rozsáhlé testování. Model překonal své předchůdce v 87 % interních benchmarků používaných pro vývoj jazyků Googlu. Zejména při hodnocení „Needle In A Haystack“ (jehla v kupce sena), jehož cílem je najít nejasná fakta obsažená v rozsáhlých textových celcích, prokázal model Gemini 1.5 Pro 99% přesnost i v rozsáhlých datových blocích o velikosti 1 milionu tokenů.
Dostupnost snad za rohem
Model si navíc hravě poradil i s vysoce nestandardními jazyky. Když mu výzkumníci předložili gramatickou příručku kalamangu, jazyka, kterým na světě mluví méně než 200 lidí, prokázal Gemini 1.5 Pro překladatelské schopnosti z angličtiny do kalamangu na stejné úrovni jako člověk studující stejný zdrojový materiál.
Jakkoliv je tak Sora od OpenAI nesmírně působivá, „milionový“ Gemini 1.5 v praxi umožní hromadu nových a praktických příkladů použití, jak už ostatně sám Google naznačuje na přiloženém videu. Google se navíc nechal slyšet, že už interně testuje model s jen těžko uvěřitelnými 10 miliony tokenů.
Model Gemini 1.5 Pro zatím dostupný široké veřejnosti není, nicméně až se tak stane, půjde o standardní model v rámci chatbotu Gemini, pouze s různými stupni nacenění, neboť přístup k milionu tokenů zadarmo nebude. Ať už ale budou ceny prémiové verze jakékoliv, zlepšení v kvalitě a rychlosti by měli pocítit i uživatelé bezplatné verze. Jak přesně Google vylepší svůj aktuální placený model Gemini Advanced, zatím v blogovém postu o Gemini 1.5 Pro neřešil, ale jistě na něj také brzy dojde.