Meta podváděla v AI testech. Její nejnovější model zas tak úžasný není

Meta do testu LMArena nasadila upravenou Llama 4 a ohnula tak výsledky ve svůj prospěch
Veřejnosti je přitom přístupná jiná verze modelu, která takových výsledků nedosahuje
Platforma LMArena reaguje a mění pravidla, aby zabránila podobným praktikám do budoucna

Meta čelí ostré kritice za to, že při hodnocení svého nového AI modelu Llama 4 použila upravenou verzi, která není veřejně dostupná. Model s názvem Maverick totiž firma nasadila do prestižního benchmarku LMArena ve speciální experimentální verzi optimalizované pro konverzaci, což mu pomohlo obsadit druhé místo za Gemini 2.5 Pro a předstihnout GPT-4o od OpenAI.

Realita je jinde

Vtip je v tom, že speciálně „konverzačně“ upravený model neodpovídá reálné verzi modelu, kterou si mohou vývojáři stáhnout a se kterou mohou pracovat běžní lidé. LMArena, která slouží jako otevřená platforma pro porovnávání výstupů AI modelů na základě hlasování lidí, reagovala úpravou svých pravidel. „Meta měla jasněji uvést, že se jedná o experimentální model,“ uvedla platforma na síti X. Nově tak zavádí přísnější pravidla, která mají zajistit férové a reprodukovatelné testování.

Meta se hájí tím, že pravidla technicky neporušila a že si jen „hrála s různými variantami“. Podle mluvčí Ashley Gabriel byla testovaná verze „optimalizovaná na chat“ a nyní je venku otevřený model, který si komunita může upravit podle potřeby. Podle viceprezidenta generativní AI v Meta Ahmada Al-Dahleho nejsou pravdivé ani spekulace o tom, že Meta model trénovala na datech z testovacích sad, jak reportuje The Verge.

Výmluvy

Faktem však zůstává, že testovaný model není totožný s tím, který je k dispozici veřejnosti. Výsledky benchmarku jsou tedy pro vývojáře a firmy méně užitečné – hodnotí něco, co si nemohou reálně vyzkoušet. Tudíž ve skutečnosti nešlo nejspíš o nic jiného než prostou chvilkovou chloubu v médiích. A teď je z toho pro změnu ostuda a narušená důvěra.

Meta vydala modely Maverick a Scout taky dost neobvykle v sobotu, což pochopitelně vyvolalo otázky. Mark Zuckerberg na to ale reagoval jednoduše, když prohlásil, že v tu chvíli byly modely připravené, a tak se s jejich zveřejněním na nic nečekalo.

Záleží na tom?

V očích odborné veřejnosti teď může mít Meta sice narušenou důvěru, nicméně pokud někomu narušilo důvěru v Metu až tohle, po všech těch skandálech z minulosti, je to obdivuhodné. Meta a Facebook mají za sebou nespočet průšvihů, kauz a kontroverzí, že úmyslné podvádění v testu výkonu AI modelů je vlastně spíše úsměvné.

V reálu jsou navíc všechny nejpokročilejší modely víceméně srovnatelné, ostatně i v LMArena se modely držící se na špici žebříčku liší pouze o pár procent. Pro běžné uživatele jsou rozdíly navíc v drtivé většině případů neznatelné, tudíž Meta tady jen zbytečně riskovala, nevyplatilo se jí to a utrhla si ostudu.

Vstoupit do diskuze (1)

Zdroj článku

Autor článku

Adam Homola

Nové technologie mě fascinují už od útlého věku. K dlouhodobému zájmu o hry a herní průmysl se mi postupem času přirozeně přidal i hardware, software, internetové služby a od roku 2022 i umělá inteligence.