Logo

GPT-5 лидирует в бенчмарке SWE-rebench, выявляя нюансы производительности ИИ-агентов

САН-ФРАНЦИСКО, 9 октября 2025 г. - Модель GPT-5 недавно завоевала лидирующую позицию в рейтинге SWE-rebench, специализированном бенчмарке для оценки больших языковых моделей (LLM) в задачах программной инженерии. Этот результат, полученный при использовании параметра "medium reasoning effort" (средний уровень рассуждений), подчёркивает растущие стратегии оптимизации производительности ИИ-агентов, а также выявляет ключевые ограничения текущих методов оценки.

Первое место GPT-5 со средним уровнем рассуждений, несмотря на наличие более «интенсивной» опции, стало своеобразным парадоксом. Модель gpt-5-2025-08-07-medium продемонстрировала 38,8 % решённых задач при Pass@5 в 44,9 %, опередив gpt-5-2025-08-07-high, которая зафиксировала 36,3 % решённых задач при том же Pass@5.

Анализ влияния уровня рассуждений

Эксперты, участвующие в разработке и тестировании LLM, уже давно рассматривают оптимальный баланс между глубиной рассуждений и эффективностью выполнения задач. В контексте SWE-rebench, где агенты ограничены 80 шагами для решения проблемы, «high reasoning effort» может вести к избыточной саморефлексии. Как указывает команда SWE-rebench, модель, постоянно перепроверяющая себя и повторно тестирующая решения, «упирается в лимит по кол-ву шагов». Это наблюдение подтверждается данными, показывающими, что увеличение лимита шагов для gpt-5-high до 160 привело лишь к незначительному росту результатов (pass@1: с 36,3 % до 38,3 %, pass@5: с 46,9 % до 48,9 %).

Дискуссии в сообществе разработчиков, в частности на форуме OpenAI, также отмечают этот феномен. Мэтт Амброги, ИИ-инженер, создающий агента на базе GPT-5, подчеркнул, что при выполнении сложных задач, требующих сбора и синтеза данных из множества источников, снижение уровня рассуждений приводит к заметному сокращению задержки «без существенного снижения качества». Другой участник обсуждения, МакФинли, предложил применять низкий уровень рассуждений для быстрой оценки задачи, а затем, при необходимости, повышать его для более глубокого анализа.

Технические ограничения и перспективы улучшений

Текущая оценка GPT-5 в SWE-rebench проводилась через эндпоинт completions, который имеет серьёзный недостаток: рассуждения модели не могут быть переданы в качестве входа следующего шага. Это значит, что на каждом этапе модель видит лишь выводные данные и задействованный инструмент, но не свои собственные предыдущие мыслительные процессы.

В SWE-rebench отмечают, что устранение этого ограничения «в ближайшее время» может значительно улучшить показатели GPT-5. Параллельно с этим, модель gpt-5-medium уже была проверена с включённым контекстом рассуждений через Responses API, достигнув 41,2 % решённых задач и 51 % Pass@5. Тем не менее, эти результаты не попали в основной рейтинг, чтобы сохранить объективность, поскольку другие модели пока не оценивались по той же методологии.

Responses API, применяемый для gpt-5-codex и gpt-oss-120b, изначально поддерживает модели рассуждений, позволяя связывать текущие ответы с предыдущими через уникальные ссылки. Этот механизм, использующий внутренний контекст рассуждений модели, оказался «полезным для агентных систем, требующих непрерывности многошаговых рассуждений».

Тенденции и ключевые данные в сентябре 2025 года

Помимо успехов GPT-5, недавние обновления SWE-rebench, опубликованные в сентябре 2025 года (по состоянию на 09.01.2025), выявили несколько важных трендов:

  • Claude Sonnet 4.5 возглавляет рейтинг по показателю pass@5 (55,1 %) и уникально решила ряд задач: python-trio/trio-3334, cubed-dev/cubed-799, canopen-python/canopen-613.
  • Grok Code Fast 1 и gpt-oss-120b отмечены как «ультра-эффективные бюджетные варианты», показывающие 29-30 % решённых задач при стоимости всего $0.03-$0.04 за проблему.
  • Модели Anthropic, такие как Claude Sonnet 4, по умолчанию не используют кэширование. Активация кэширования резко сократила среднюю стоимость решения задачи для Claude Sonnet 4 с $5.29 в августе до $0.91 в сентябре.

SWE-rebench включает 49 проблем из 47 репозиториев, отобранных в текущем временном окне. В списке лидеров за сентябрь 2025 года представлены следующие модели:

Rank Model Resolved Rate (%) Resolved Rate SEM (±) Pass@5 (%) Cost per Problem ($) Tokens per Problem

Эти показатели подчёркивают, что оптимальная работа LLM в реальных инженерных задачах зависит не только от мощности модели, но и от тонкой настройки параметров, таких как уровень рассуждений и способы взаимодействия с API. Будущие версии бенчмарка SWE-rebench, учитывающие возможность сохранения контекста рассуждений, обещают предоставить более полную картину реальных возможностей этих сложных систем.

Вопросы и ответы

GPT-5 лидирует в бенчмарке SWE-rebench, выявляя нюансы производительности ИИ-агентов
Анализ влияния уровня рассуждений
Технические ограничения и перспективы улучшений
Тенденции и ключевые данные в сентябре 2025 года