9 октября 2025 года GPT-5 возглавил бенчмарк SWE-rebench, показав 38,8% решённых задач при 'medium reasoning effort'. Claude Sonnet 4.5 лидирует по Pass@5 (55,1%).
... Leaderboard · Button image Paper · Button image Data · Button image About ... [2025-10-09]:. Added new models to the leaderboard: Claude Sonnet 4.5, gpt-5-codex ...
Sometimes with low reasoning, the agent misses a critical step / tool call that ultimately cause it to produce an incorrect final response. An ...
SWE-rebench-leaderboard is a continuously updated, curated subset of the full SWE-rebench corpus, tailored for benchmarking software engineering agents on real- ...
SWE-bench Logo Leaderboards ; ✓. Claude 4 Opus (20250514). 67.60, $1.13 ; ✓. GPT-5 (2025-08-07) (medium reasoning). 65.00, $0.28 ; ✓. Claude 4 Sonnet ( ...
САН-ФРАНЦИСКО, 9 октября 2025 г. - Модель GPT-5 недавно завоевала лидирующую позицию в рейтинге SWE-rebench, специализированном бенчмарке для оценки больших языковых моделей (LLM) в задачах программной инженерии. Этот результат, полученный при использовании параметра "medium reasoning effort" (средний уровень рассуждений), подчёркивает растущие стратегии оптимизации производительности ИИ-агентов, а также выявляет ключевые ограничения текущих методов оценки.
Первое место GPT-5 со средним уровнем рассуждений, несмотря на наличие более «интенсивной» опции, стало своеобразным парадоксом. Модель gpt-5-2025-08-07-medium продемонстрировала 38,8 % решённых задач при Pass@5 в 44,9 %, опередив gpt-5-2025-08-07-high, которая зафиксировала 36,3 % решённых задач при том же Pass@5.
Эксперты, участвующие в разработке и тестировании LLM, уже давно рассматривают оптимальный баланс между глубиной рассуждений и эффективностью выполнения задач. В контексте SWE-rebench, где агенты ограничены 80 шагами для решения проблемы, «high reasoning effort» может вести к избыточной саморефлексии. Как указывает команда SWE-rebench, модель, постоянно перепроверяющая себя и повторно тестирующая решения, «упирается в лимит по кол-ву шагов». Это наблюдение подтверждается данными, показывающими, что увеличение лимита шагов для gpt-5-high до 160 привело лишь к незначительному росту результатов (pass@1: с 36,3 % до 38,3 %, pass@5: с 46,9 % до 48,9 %).
Дискуссии в сообществе разработчиков, в частности на форуме OpenAI, также отмечают этот феномен. Мэтт Амброги, ИИ-инженер, создающий агента на базе GPT-5, подчеркнул, что при выполнении сложных задач, требующих сбора и синтеза данных из множества источников, снижение уровня рассуждений приводит к заметному сокращению задержки «без существенного снижения качества». Другой участник обсуждения, МакФинли, предложил применять низкий уровень рассуждений для быстрой оценки задачи, а затем, при необходимости, повышать его для более глубокого анализа.
Текущая оценка GPT-5 в SWE-rebench проводилась через эндпоинт completions, который имеет серьёзный недостаток: рассуждения модели не могут быть переданы в качестве входа следующего шага. Это значит, что на каждом этапе модель видит лишь выводные данные и задействованный инструмент, но не свои собственные предыдущие мыслительные процессы.
В SWE-rebench отмечают, что устранение этого ограничения «в ближайшее время» может значительно улучшить показатели GPT-5. Параллельно с этим, модель gpt-5-medium уже была проверена с включённым контекстом рассуждений через Responses API, достигнув 41,2 % решённых задач и 51 % Pass@5. Тем не менее, эти результаты не попали в основной рейтинг, чтобы сохранить объективность, поскольку другие модели пока не оценивались по той же методологии.
Responses API, применяемый для gpt-5-codex и gpt-oss-120b, изначально поддерживает модели рассуждений, позволяя связывать текущие ответы с предыдущими через уникальные ссылки. Этот механизм, использующий внутренний контекст рассуждений модели, оказался «полезным для агентных систем, требующих непрерывности многошаговых рассуждений».
Помимо успехов GPT-5, недавние обновления SWE-rebench, опубликованные в сентябре 2025 года (по состоянию на 09.01.2025), выявили несколько важных трендов:
pass@5 (55,1 %) и уникально решила ряд задач: python-trio/trio-3334, cubed-dev/cubed-799, canopen-python/canopen-613.SWE-rebench включает 49 проблем из 47 репозиториев, отобранных в текущем временном окне. В списке лидеров за сентябрь 2025 года представлены следующие модели:
| Rank | Model | Resolved Rate (%) | Resolved Rate SEM (±) | Pass@5 (%) | Cost per Problem ($) | Tokens per Problem |
|---|
Эти показатели подчёркивают, что оптимальная работа LLM в реальных инженерных задачах зависит не только от мощности модели, но и от тонкой настройки параметров, таких как уровень рассуждений и способы взаимодействия с API. Будущие версии бенчмарка SWE-rebench, учитывающие возможность сохранения контекста рассуждений, обещают предоставить более полную картину реальных возможностей этих сложных систем.
... Leaderboard · Button image Paper · Button image Data · Button image About ... [2025-10-09]:. Added new models to the leaderboard: Claude Sonnet 4.5, gpt-5-codex ...
Sometimes with low reasoning, the agent misses a critical step / tool call that ultimately cause it to produce an incorrect final response. An ...
SWE-rebench-leaderboard is a continuously updated, curated subset of the full SWE-rebench corpus, tailored for benchmarking software engineering agents on real- ...
SWE-bench Logo Leaderboards ; ✓. Claude 4 Opus (20250514). 67.60, $1.13 ; ✓. GPT-5 (2025-08-07) (medium reasoning). 65.00, $0.28 ; ✓. Claude 4 Sonnet ( ...
Вопросы и ответы