В октябре 2025, датасет SWE-rebench от Nebius стал хитом на HuggingFace, предложив 21 000+ задач для оценки ИИ-агентов в программной инженерии. Он призван решить проблемы загрязнения данных и обеспечить стандартизированное тестирование LLM.
SWE-rebench is a large-scale dataset designed to support training and evaluation of LLM-based software engineering (SWE) agents, building upon and expanding our ...
Использование уже зарекомендовавших датасетов позволяет командам понять, где находится их решение AI-агента по сравнению с другими.
SWE-rebench features an automated pipeline for continuously mining, filtering and integrating new software engineering problems sourced from active open ...
It's easier to build a dataset for "driving agents" than it is to build a dataset for lawyer agents, molecular biologist agents, etc etc. Even ...
В пространстве искусственного интеллекта, где прогресс оценивается сотнями миллионов параметров, и новые модели появляются почти каждый день, ключевой задачей остаётся не только разработка алгоритмов, но и построение надёжных средств для их оценки и обучения. В данном контексте датасет SWE-rebench от Nebius стал одним из важнейших компонентов, вознесясь в список самых скачиваемых на платформе HuggingFace в октябре 2025 года. Этот факт подчёркивает растущий интерес к проблеме обучения программных агентов и важность качественных бенчмарков.
SWE-rebench представляет собой обширный датасет, созданный для содействия обучению и оценке LLM-основанных агентов, ориентированных на задачи программной инженерии (Software Engineering, SWE). Этот набор, основанный на ранее выпущенном SWE-bench-extra, нацелен преодолеть ключевые ограничения существующих бенчмарков.
Основными проблемами, которые стремится решить SWE-rebench, являются:
SWE-rebench, как отмечено в исследовании "SWE-rebench: An Automated Pipeline for Task Collection and Decontaminated Evaluation of Software Engineering Agents", преодолевает их с помощью полностью автоматизированного пайплайна для непрерывного сбора задач из реальных репозиториев GitHub. Этот пайплайн обеспечивает постоянный поток новых задач, снижая вероятность попадания уже использованных данных в обучающие наборы.
На данный момент датасет содержит более 21 000 пар «issue-pull request» из свыше 3400 Python-репозиториев. Каждая задача проверяется через автоматическую настройку окружения и запуск тестов. Ключевые поля датасета включают:
instance_id: Идентификатор задачи, представленный в определённом формате.patch: исправление, которое полностью решает проблему.repo: Идентификатор репозитория.base_commit: Хеш коммита, предшествующего применению патча.hints_text: Подсказки к задаче.created_at: Дата создания pull request.test_patch: Изменения тестового файла.problem_statement: Описание проблемы.version, environment_setup_commit, install_config, requirements, environment: Детали настройки среды.FAIL_TO_PASS, PASS_TO_PASS: Перечни тестов, меняющих статус с FAIL на PASS или сохраняющих PASS.meta: Словарь метаданных задачи, содержащий оценку качества от LLM.license_name: Тип лицензии репозитория.Одной из характерных черт SWE-rebench является автоматизированный механизм оценки качества задач при помощи LLM, который маркирует задачи признаками вроде ясности, сложности и валидности модифицированных тестов. Это даёт возможность более точно настраивать процесс обучения и оценки.
Для исполнения задач из SWE-rebench команда Nebius публикует форк фреймворка SWE-bench, модифицированный под структуру и специфику их датасета. Изменение состоит в применении поля install_config для получения констант настройки окружения, что гарантирует гибкость и специфичность конфигураций для каждой задачи.
Помимо самого набора, 5 августа 2025 г. на Docker Hub появились сопутствующие Docker-образы для 7500 задач, что значительно упрощает их развертывание и тестирование.
В статье «Как тестировать AI-агентов, чтобы не было больно» Роман Куцев акцентирует важность структурированного подхода к тестированию ИИ-агентов. Он выделяет семь основных шагов:
SWE-rebench напрямую покрывает пункты 1, 2 и частично 4, предлагая стандартизированный, регулярно обновляемый и деконтаминированный набор, что значительно повышает эффективность и достоверность тестирования. Его применение также входит в стратегию централизованной и стандартизированной оценки, где все модели тестируются с использованием единого «scaffolding» и одинаковых промптов, позволяя изолировать и сравнивать лишь базовые возможности LLM.
Команда Nebius активно разрабатывает версию v2, обещая новые возможности и улучшения. Планируется регулярное пополнение новых задач, расширение перечня оцениваемых моделей и более глубокий анализ тенденций их производительности.
Как указывалось в обсуждении на Reddit от 2024-02-27, для обучения агентов-«генераторов действий» нужен особый тип данных, отображающий последовательность действий и их последствия. SWE-rebench, предоставляя пары «issue-pull request», по сути создаёт такой «язык действий», где каждое изменение кода (патч) выступает прямым действием, направленным на решение проблемы (issue). Это даёт возможность обучать модели не только генерировать текст или код, но и эффективно взаимодействовать со средой для достижения конкретных инженерных целей.
Итак, SWE-rebench не просто собирает данные; он закладывает новую парадигму для обучения и оценки ИИ-агентов в программной инженерии, предоставляя надёжный фундамент для будущих инноваций в этой критически важной сфере.
SWE-rebench is a large-scale dataset designed to support training and evaluation of LLM-based software engineering (SWE) agents, building upon and expanding our ...
Использование уже зарекомендовавших датасетов позволяет командам понять, где находится их решение AI-агента по сравнению с другими.
SWE-rebench features an automated pipeline for continuously mining, filtering and integrating new software engineering problems sourced from active open ...
It's easier to build a dataset for "driving agents" than it is to build a dataset for lawyer agents, molecular biologist agents, etc etc. Even ...
Вопросы и ответы