Logo

Тайна моделей GPT-OSS: локальные версии сопоставимы с облачными GPT-5, но с нюансами

В 2025 году локальные модели gpt-oss-20b и gpt-oss-120b продемонстрировали эффективность, сравнимую с новейшими облачными предложениями OpenAI GPT-5 Nano и Mini соответственно, при условии корректной настройки для "рассуждения" и структурированного вывода. Это открытие, по мнению экспертов, указывает на стратегию OpenAI по предоставлению двух уровней доступа к своим передовым разработкам: через облачные API и через распространение адаптированных локальных моделей.

Несмотря на их потенциал, полноценная реализация возможностей gpt-oss-20b и gpt-oss-120b сталкивается с техническими преградами, особенно в части поддержки "Structured Outputs", критически важной для точного и предсказуемого взаимодействия.

Сопоставимость производительности: предварительные бенчмарки

Независимые тесты, проведённые в октябре 2025 года, показали, что "очки на бенчмарке получились у моделей похожие" между gpt-oss-20b и gpt-5-nano, а также между gpt-oss-120b и gpt-5-mini. Этот паритет достигается при использовании таких методов, как Chain-of-Thought (CoT), позволяющих локальным моделям "подумать над проблемой до ответа" аналогично тому, как это происходит в облачных сервисах с поддержкой "рассуждения" (reasoning).

Эксперты отмечают, что "OpenAI не нужно поддерживать большой зоопарк моделей, когда можно обучить три новые модели, выдать по API все три (спрятав reasoning) и раздать всем две младшие модели". Это может объяснить текущую ситуацию, когда публично доступные gpt-oss модели требуют дополнительных настроек для раскрытия своего полного потенциала.

Технические ограничения и проблемы со "Structured Outputs"

Ключевым препятствием на пути к полной функциональности gpt-oss моделей является отсутствие нативной поддержки "Structured Outputs", особенно для их новой архитектуры. Как подтвердили в OpenRouter в октябре 2025 года, даже у таких провайдеров, как Fireworks, модель gpt-oss-20b работает без этой функции.

Проблема не ограничивается отдельными платформами. Например, в обсуждении на GitHub (issue #11691, открыта 5 августа 2025 года) пользователи Ollama столкнулись с тем, что OpenAI SDK "не может распарсить структурированный вывод из ответов gpt-oss:20b". Код воспроизведения демонстрирует ValidationError при попытке использовать модель для генерации структурированных данных. Похожие трудности наблюдались и другими пользователями, включая тех, кто экспериментировал с vllm и xgrammar, сообщая о проблемах с "неестественным текстом" или "случайным JSON" после ожидаемого вывода.

Пользователь ztsvvstz на Hugging Face 15 августа 2025 года пояснил ситуацию с vllm: "vllm пока не поддерживает структурированный вывод для gpt oss (упоминается в их документации), и поэтому вывод всегда 'ненаправленный'". Более того, в версии vllm V1 были удалены обработчики логитов, что ещё сильнее усложняет реализацию контролируемого вывода.

Для решения этих вопросов эксперты советуют:

  • Ручной парсинг: Пока поддержка не будет реализована, пользователи вынуждены вручную разбирать вывод моделей.
  • CoT и Schema-Guided Reasoning: Применение методов CoT (Chain-of-Thought) и Schema-Guided Reasoning (после появления поддержки constrained decoding в xgrammar/outlines для 120B/20B) может помочь улучшить качество ответов.

Применение и экономическая эффективность

Модели GPT-OSS разработаны с учётом различных сценариев использования и оптимизации расходов:

  1. gpt-oss-120b:

    • Рекомендуется для задач, требующих глубокой рассудительности.
    • Наиболее эффективен при развертывании на одной корпоративной GPU, такой как NVIDIA H100-80GB, используя MXFP4-квантование.
    • Смешанная архитектура экспертов (MoE) и примерно 5,1 млрд активных параметров на токен позволяют достичь высокой производительности - до 1,5 млн токенов в секунду на системе GB200 NVL72.
    • Такой подход заменяет несколько дорогостоящих GPU, сокращая аппаратные и хостинговые издержки.
    • В облаке предпочтительны инстансы H100 с MXFP4 и оптимизированные среды выполнения, такие как vLLM или Transformers.
    • Локальное развертывание на платформах, например AMD Ryzen AI Max+ 395 (с 128 ГБ памяти), достигает до 30 токенов/с, что делает его пригодным для "периферийных" вычислений, но явно отстаёт от H100.
  2. gpt-oss-20b:

    • Подходит для большинства повседневных нагрузок, таких как помощь в программировании, приложения RAG и работа с инструментами.
    • Может работать на потребительских GPU или устройствах с NPU (например, на Apple M4 Max 128 ГБ) с использованием около 16 ГБ VRAM, что в 5-10 раз сокращает инфраструктурные затраты по сравнению со 120B.
    • Эрик Чен из TenTen.co отмечает, что "если ваши задачи не требуют строго 120B глубины рассуждения, эта замена является крупнейшим единичным фактором экономии средств".

Пути развертывания и оптимизации

Для снижения расходов и максимизации производительности при работе с gpt-oss моделями предлагаются следующие стратегии:

  • Оптимизация программного стека: Использование Transformers/vLLM с ядрами MXFP4, активация кэша paged KV, эффективная обработка пакетов и потоковая передача.
  • Гибкое масштабирование: Применение управляемых решений, позволяющих платить только за реально использованное время GPU, что особенно выгодно при пиковых нагрузках.
  • Выбор оборудования: Для gpt-oss-120b предпочтительнее облачные H100, а для gpt-oss-20b - потребительские или "периферийные" устройства.
  • Использование экономичных инстансов: В облаке рекомендуется выбирать спотовые/вытесняемые инстансы H100 и применять авто-масштабирование.

В целом, сообщество и разработчики активно работают над улучшением поддержки gpt-oss моделей, ожидая скорейшего появления "constrained decoding" в таких библиотеках, как xgrammar и outlines. Это позволит использовать Schema-Guided Reasoning, делая локальные модели ещё более сопоставимыми с их облачными аналогами.

Вопросы и ответы

Тайна моделей GPT-OSS: локальные версии сопоставимы с облачными GPT-5, но с нюансами
Сопоставимость производительности: предварительные бенчмарки
Технические ограничения и проблемы со "Structured Outputs"
Применение и экономическая эффективность
Пути развертывания и оптимизации