Logo

OpenAI объявляет о Red Teaming-Конкурсе с призовым фондом $500 000 для обнаружения уязвимостей в новой открытой модели GPT-OSS-20B

Сан-Франциско, 9 октября 2025 года - OpenAI, разработчик передовых моделей искусственного интеллекта, сообщила о начале масштабного Red Teaming-конкурса с призовым фондом в $500 000. Задача проекта - выявить ещё не обнаруженные уязвимости в только что анонсированной открытой языковой модели GPT-OSS-20B, что свидетельствует о перемещении акцента компании к прозрачности и сотрудничеству с сообществом. Конкурс, рассчитанный на три недели, даёт учёным и экспертам по безопасности шанс тщательно исследовать работу модели на предмет злонамеренного поведения, галлюцинаций, сбоев в моделях вознаграждения и отклонений в выравнивании.

Данное начинание является элементом более масштабной стратегии OpenAI по возврату к принципам открытого кода, что воспринимается как важное событие, поскольку впервые со 2019 года фирма открывает веса своих больших языковых моделей для всех. Модели GPT-OSS-120B и GPT-OSS-20B, выпущенные под лицензией Apache 2.0, являются важным шагом вперёд, давая разработчикам и исследователям уникальный доступ к самым современным ИИ-технологиям.

Характеристики и Контекст Моделей GPT-OSS

Модели GPT-OSS-120b и GPT-OSS-20b базируются на архитектуре Transformer с применением метода Mixture-of-Experts (MoE), что обеспечивает эффективную обработку данных. GPT-OSS-20b, на которой фокусируется Red Teaming-конкурс, содержит приблизительно 21 миллиард параметров, при этом 3,6 млрд задействуются на каждый токен. Это делает её более пригодной для широкого спектра пользователей, поскольку её можно запускать на видеокартах потребительского уровня с 16 ГБ ОЗУ или даже на CPU-серверах без специальных ускорителей, в отличие от более массивной GPT-OSS-120b, которая нуждается в NVIDIA H100.

  • Архитектура и Параметры: Обе модели применяют архитектуру Transformer с технологией Mixture-of-Experts (MoE). GPT-OSS-120b включает 128 экспертов (4 активных на токен), а GPT-OSS-20b - 32 эксперта (по 4 активных).
  • Токенизация: Модели применяют новый токенизатор OpenAI o200k_harmony с размером словаря примерно 200 000 токенов, оптимизированный под работу с длинными контекстными окнами до 128 тысяч токенов. Для участия в конкурсе на GPT-OSS-20B, согласно требованиям OpenAI, необходимо правильно запустить модель, применяя именно токенизацию harmony, что подчёркивает важность нового формата OpenAI Harmony.
  • Функциональность: Модели обеспечивают полный вывод цепочки рассуждений (Chain-of-Thought, CoT), структурированные форматы вывода и вызов внешних инструментов, что классифицирует их как "reasoning agents".
  • Уровень Рассуждения: Для первого раза введён механизм регулируемого уровня рассуждения (LOW, MEDIUM, HIGH), дающий пользователям возможность находить баланс между скоростью ответа и глубиной анализа.
  • Обучение и Безопасность: Модели прошли обучение на триллионах текстовых токенов с применением Supervised Fine-Tuning (SFT) и Reinforcement Learning with Human Feedback (RLHF). Стоит отметить, что OpenAI использовала подход Deliberate Alignment и методику Instruction Hierarchy Fine-Tuning для повышения безопасности, учив модели отвергать потенциально опасные запросы. Обучающие данные были подвергнуты строгой фильтрации на наличие тем CBRN и иной токсичной информации, и знаний модели охватывают период до июня 2024 года.
  • Производительность: GPT-OSS-120b показывает производительность на уровне OpenAI o4-mini на ключевых бенчмарках, как MMLU (до 90 % точности) и GPQA Diamond (80.1 %). GPT-OSS-20b, хотя и представляет собой более лёгкую версию, достигает около 85 % на MMLU и 71.5 % на GPQA Diamond, иногда опираясь выше старших и закрытых моделей в задачах средней сложности по математике и логике. На тестах AIME 2024/2025 GPT-OSS-120b продемонстрировала точность 96-98 %, а GPT-OSS-20b - 90-97 %.

Цели Red Teaming-Конкурса

Конкурс на платформе Kaggle ориентирован на обнаружение любых "странностей и отклонений", включая:

  • Злонамеренное Поведение: Ситуации, в которых система проявляет вредоносные действия или создает недостоверные данные.
  • Нарушение Модели Вознаграждения: Случаи, когда система "нарушает" заданную схему вознаграждения.
  • Ошибки Выравнивания (Alignment Failures): Примеры, когда система отклоняется от ожидаемых целей выравнивания.

От участников ожидается предоставить ясный отчёт о том, каким образом было получено то или иное поведение, что подчёркивает важность не только выявления проблем, но и тщательного документирования способов их воспроизведения. Призовой фонд в $500 000 и трехнедельный период проведения конкурса демонстрируют серьёзность намерений OpenAI по обеспечению безопасности своих открытых моделей.

Значение для Сообщества и Экосистемы ИИ

Проект OpenAI по возврату к открытому коду и активное привлечение сообщества к Red Teaming представляет собой значимый шаг в укреплении доверия к ИИ-технологиям. Лицензия Apache 2.0 допускает широкое использование, модификацию и распространение GPT-OSS, в том числе в коммерческих целях, при условии соблюдения авторских прав и лицензий.

Тем не менее, как указывает пользователь Reddit в сабреддите r/LocalLLaMA, могут возникнуть трудности при интеграции нового формата OpenAI Harmony в существующие инструменты, например Roo Code или open-webui. Поддержка от OpenAI, проявляющаяся в открытой спецификации формата Harmony и открытом рендерере для Python и Rust, а также в совместимости моделей с известными фреймворками - Hugging Face Transformers, vLLM, llama.cpp и Ollama - свидетельствует о желании снизить барьеры перехода.

Несмотря на обещания OpenAI о жёстких мерах безопасности и фильтрации, проверка этих моделей в реальных условиях остаётся крайне важной. Публикация детального отчёта (system card) с описанием ограничений и рисков GPT-OSS, а также рекомендаций по дополнительным мерам защиты для сторонних хостинг-провайдеров, демонстрирует комплексный подход компании к управлению рисками. Этот Red Teaming-конкурс представляет собой прямое продолжение стратегии, нацеленной на создание более безопасных и надёжных ИИ-систем через коллективную экспертизу.

Вопросы и ответы

OpenAI объявляет о Red Teaming-Конкурсе с призовым фондом $500 000 для обнаружения уязвимостей в новой открытой модели GPT-OSS-20B
Характеристики и Контекст Моделей GPT-OSS
Цели Red Teaming-Конкурса
Значение для Сообщества и Экосистемы ИИ