Нові моделі штучного інтелекту від Meta опинились в центрі скандалу

На вихідних компанія Meta представила дві нові моделі штучного інтелекту Llama 4 – Scout і Maverick. Вони, за словами компанії, виявилися кращими, ніж GPT-4o та Gemini 2.0 Flash в популярних тестах. Проте виявилося, що статистика від Meta може бути маніпуляцією, що було розкрито The Verge.
У пресрелізі Meta підкреслила успішність моделей у рейтингу LMArena, де користувачі порівнюють їх в режимі чату і голосують. Maverick посіла друге місце з ELO-рейтингом 1417, але виявилося, що тестувалася експериментальна версія, оптимізована для чату. Компанія не вказала це відразу, що спричинило критику від LMArena.
Meta звинуватили в тому, що не відповідає їхнім очікуванням як постачальник ШІ-моделей. Компанія почала оновлювати правила для уникнення подібних ситуацій у майбутньому. Вони вважають, що коли постачальники надають спеціальні версії для тестування та різні для громадськості, рейтинги, як LMArena, стають менш достовірними.