Grok 4 от xAI дебютирует в топе рейтинга SWE-rebench, модель Kimi K2 показывает рост на 22,3%, а Qwen3-Next демонстрирует эффективность благодаря инновационной MoE-архитектуре. Гонка ИИ-моделей ускоряется.
Мы обновили рейтинг SWE-rebench с оценками моделей Grok 4, Kimi K2 Instruct 0905, DeepSeek-V3.1 и Qwen3-Next-80B-A3B-Instruct по 52 новым ...
Qwen3-Next-80B-A3B-Instruct ; Дата анонса: 11.09.2025 ; Параметров: 81.3B ; Экспертов: 512 ; Активно параметров при инференсе: 3B ; Контекст: 263K
✓. Claude 3.7 Sonnet (20250219). 52.80, $0.35 ; ✓. o4-mini (2025-04-16). 45.00, $0.21 ; ✓. Kimi K2 Instruct. 43.80, $0.00 ; ✓. GPT-4.1 (2025-04-14). 39.58 ...
Qwen3-Next-80B-A3B-Base outperforms Qwen3-32B-Base on downstream tasks with 10% of the total training cost and with 10 times inference ...
САН-ФРАНЦИСКО, 9 октября 2025 - Недавнее обновление платформы SWE-rebench выявило крупные перестановки в расстановке сил среди ведущих языковых моделей, представив четыре новые модели: Grok 4, Qwen3-Next-80B-A3B-Instruct, DeepSeek V3.1 и Kimi-K2 0905. По сведениям Антона из Nebius, эти модели прошли оценку по 52 новым задачам, собранным в августе, что дает актуальный срез их текущих возможностей.
Флагманская модель Grok 4 от xAI, впервые появившаяся в рейтинге SWE-rebench, сразу же заняла место среди лидеров. Её стремительное попадание в верхнюю часть списка свидетельствует о серьёзных амбициях xAI в сфере генеративного ИИ. Точные детали её архитектуры и тренировочных данных остаются коммерческой тайной, однако результаты бенчмарков подчёркивают её мощную продуктивность.
Модель Kimi-K2 0905 (также известная как Kimi K2 Instruct 0905) продемонстрировала впечатляющий прогресс. Её эффективность в решении задач выросла на 22,3 % (с 34,6 % до 42,3 % решённых задач). Этот скачок позволил Kimi K2 попасть в тройку лучших моделей с открытым исходным кодом, что является важным индикатором развития в сообществе Open-Source ИИ.
Модель Qwen3-Next-80B-A3B-Instruct, созданная Qwen, выделяется инновационной архитектурой Qwen3-Next, включающей гибридную систему внимания, сочетая Gated DeltaNet (линейное внимание) и Gated Attention (полное внимание). Это даёт возможность модели эффективно обрабатывать длинные последовательности, одновременно поддерживая высокую точность. Кроме того, в ней используется ультра-разреженная MoE-архитектура с 512 экспертами, из которых активно задействовано лишь 3,7 % параметров (10 направляемых и 1 общий эксперт).
По словам разработчиков, Qwen3-Next-80B-A3B-Instruct демонстрирует результаты, сопоставимые с флагманской моделью Qwen3-235B-A22B-Instruct-2507, но при значительно меньших вычислительных затратах. На бенчмарке Arena-Hard v2 модель набрала 82,7 балла, а в программировании на LiveCodeBench v6 - 56,6 балла, несмотря на отсутствие прямой тренировки на кодинг. Её показатели в математическом бенчмарке AIME25 достигли 69,5 балла. Модель поддерживает контекст до 263 K токенов и была анонсирована 11 сентября 2025 года.
"Qwen3-Next-80B-A3B-Instruct поддерживает только инструкционный (без режима мышления) режим и не генерирует ' "
DeepSeek V3.1 также показала рост в производительности, хотя и не столь масштабный, как у Kimi K2. Тем не менее, как подчёркивает Антон из Nebius, модель привлекает внимание своей способностью генерировать большое количество токенов. Эта особенность может оказаться критически важной для приложений, требующих обработки обширных текстовых массивов или создания развёрнутых ответов.
Обновлённый рейтинг SWE-rebench построен на 52 новых задачах, собранных в августе, что обеспечивает актуальность данных. Платформа SWE-bench (Scientific Workflow Environment Benchmark) остаётся ключевым инструментом оценки моделей в задачах программной инженерии, предлагая разнообразные наборы данных, включая Verified, Lite и Multimodal.
Представители Nebius сообщили о планах включить метрики эффективности, такие как токены в секунду (токены/сек), для более полного отражения скорости работы моделей. Это позволит оценивать не только качество, но и производительность, что является важным фактором при развертывании ИИ в реальных условиях.
В целом, обновление SWE-rebench демонстрирует динамичное развитие в сфере больших языковых моделей, где новые игроки появляются стремительно, а существующие системы продолжают наращивать свою функциональность и эффективность.
Мы обновили рейтинг SWE-rebench с оценками моделей Grok 4, Kimi K2 Instruct 0905, DeepSeek-V3.1 и Qwen3-Next-80B-A3B-Instruct по 52 новым ...
Qwen3-Next-80B-A3B-Instruct ; Дата анонса: 11.09.2025 ; Параметров: 81.3B ; Экспертов: 512 ; Активно параметров при инференсе: 3B ; Контекст: 263K
✓. Claude 3.7 Sonnet (20250219). 52.80, $0.35 ; ✓. o4-mini (2025-04-16). 45.00, $0.21 ; ✓. Kimi K2 Instruct. 43.80, $0.00 ; ✓. GPT-4.1 (2025-04-14). 39.58 ...
Qwen3-Next-80B-A3B-Base outperforms Qwen3-32B-Base on downstream tasks with 10% of the total training cost and with 10 times inference ...
Вопросы и ответы