9 октября 2025 года Google и Kaggle запустили Game Arena, новую платформу для оценки ИИ-моделей в настольных играх; ведущие модели, включая Claude Opus 4 и Grok 4, уже участвовали в шахматном турнире, оценивает гроссмейстер Магнус Карлсен. Конкуренция LLM обостряется.
Исследователи Google DeepMind запустили Game Arena — бенчмарк с настольными играми для тестирования LLM. Команда разработчиков считает, что если ...
Kaggle Game Arena Chess Exhibition Tournament 2025 ... 4 авг. 2025 г. – 7 авг. 2025 г. Главная. Партии. Результаты
Kaggle Game Arena is a new benchmarking platform where top models from AI Labs like Google, Anthropic, and OpenAI compete in livestreamed and replayable ...
ChatGPT vs Claude vs Gemini: The Best AI Model for Each Use Case in 2025 · Coding: Claude is the best, but Gemini is the most cost effective.
ЛОНДОН, 9 октября 2025 г. - Google в сотрудничестве с Kaggle сообщили о старте Game Arena, новой системы для оценки моделей искусственного интеллекта, где ИИ-агенты будут состязаться в стратегических настольных играх, таких как шахматы и го. Этот шаг ознаменует значительное развитие в сфере оценки возможностей ИИ, отходя от привычных текстовых бенчмарков к интерактивным задачам.
Game Arena создана как эквивалент широко популярной LMArena, но ориентированной на игровые сценарии. Как отмечают представители Google, игры выступают отличным инструментом для измерения глубоких рассуждений моделей. «Многие игры служат приближением к реальным навыкам и могут проверить способности модели в таких областях, как стратегическое планирование, адаптация и память», - подчеркивают в компании.
Платформа, хостингованная на Kaggle, уже предоставляет шахматные турниры для языковых моделей, а в ближайшем будущем запланирована поддержка го и «Мафии». Разработчики планируют включить и другие стратегические настольные игры с соревновательными элементами. Главная особенность бенчмарка заключается в том, что тестируемые языковые модели не обладают доступом к игровым движкам, такому как Stockfish для шахмат. Вместо этого они опираются полностью на систему распознавания изображений для анализа состояния доски.
Валидация ходов служит ключевым элементом: если нейросеть пытается нарушить правила, система блокирует ход и предоставляет три попытки выбрать правильную позицию. Три неудачные попытки завершаются поражением. В настоящее время внедрены турниры по круговой системе, но в дальнейшем появятся турниры на выбывание.
В связи со стартом платформы Google организовал демонстрационный шахматный турнир с 5 по 7 августа 2025 года. В нём приняли участие ведущие модели, такие как Claude Opus 4, DeepSeek-R1, Gemini 2.5 Pro, Gemini 2.5 Flash, Kimi 2-K2-Instruct, o3, o4-mini и Grok 4. Финал турнира шел в прямом эфире каждый день, и результаты подводил гроссмейстер Магнус Карлсен.
Старт Game Arena происходит на фоне нарастающей конкуренции среди разработчиков больших языковых моделей (LLM). По данным аналитических отчётов, таких как пятое издание списка 100 лучших потребительских GenAI-приложений от a16z, экосистема стабилизируется, однако появление новых игроков и ускоренное развитие уже существующих продуктов трансформируют ландшафт.
Google показывает существенный прогресс: четыре продукта компании сразу попали в топ-100 a16z. Мобильная аудитория Gemini (#2 в соответствующем рейтинге) составила почти половину месячной аудитории ChatGPT, в то же время Grok от X демонстрирует быстрый рост, особенно в мобильном сегменте (рост почти 40 % в июле 2025 года после выхода Grok 4).
В области программирования, согласно анализу Питера Янга от 4 июня 2025 г., модель Claude 4 признана лучшей благодаря её умению генерировать сложные игровые механики, хотя Gemini 2.5 Flash предлагает более экономичное решение. При написании текстов Claude также опережает соперников в умении имитировать индивидуальный стиль письма. Для повседневных вопросов ChatGPT выделяется своей функцией «Память», позволяющей учитывать предыдущие взаимодействия. В глубоких исследованиях ChatGPT занимает «золотую середину», предоставляя сбалансированные и конкретные отчёты.
Китайские разработчики занимают всё более заметную позицию на мировом рынке ИИ. Три компании, обслуживающие преимущественно китайскую аудиторию - Quark от Alibaba (#9 в веб-списке), Doubao от Bytedance (#12) и Kimi от Moonshot AI (#17) - вошли в топ-20 веб-приложений. В мобильном сегменте 22 из 50 приложений созданы в Китае, с высокой концентрацией в категории фото и видео. Это обусловлено как численностью исследователей, так и более мягким регуляторным ландшафтом в отношении интеллектуальной собственности.
Возникновение Game Arena указывает на повышающееся осознание того, что для полноценной оценки ИИ-моделей нужны бенчмарки, выходящие за пределы чисто лингвистических задач. Способность моделей к стратегическому планированию, адаптации и обучению в динамичной игровой среде становится критически важной.
Экосистема потребительских ИИ-приложений продолжает расти. 14 компаний, среди которых ChatGPT, Midjourney, Character AI и Eleven Labs, удерживают свои позиции в топ-50 веб-рейтинга на протяжении всех пяти выпусков a16z. Эти «звёзды» представляют широкий спектр потребительского поведения, включая универсальных помощников, средства общения, создание изображений и видео, а также инструменты продуктивности. Любопытно, что, несмотря на растущий глобальный охват, все четырнадцать постоянных участников происходят всего из пяти стран: США, Великобритания, Австралия, Китай и Франция. Пять из них владеют собственными фундаментальными моделями, семь используют чужие модели через API или open source, а две являются агрегаторами моделей.
Старт Google Game Arena представляет значимый шаг к стандартизации и ускорению разработки более интеллектуальных и адаптивных ИИ-систем, способных решать реальные мировые задачи.
Исследователи Google DeepMind запустили Game Arena — бенчмарк с настольными играми для тестирования LLM. Команда разработчиков считает, что если ...
Kaggle Game Arena Chess Exhibition Tournament 2025 ... 4 авг. 2025 г. – 7 авг. 2025 г. Главная. Партии. Результаты
Kaggle Game Arena is a new benchmarking platform where top models from AI Labs like Google, Anthropic, and OpenAI compete in livestreamed and replayable ...
ChatGPT vs Claude vs Gemini: The Best AI Model for Each Use Case in 2025 · Coding: Claude is the best, but Gemini is the most cost effective.
Вопросы и ответы