В 2025 году локальные модели GPT-OSS показали паритет с GPT-5 Mini, но их потенциал скован отсутствием "Structured Outputs", требуя для полной реализации мощного железа типа H100.
Comparison between GPT-5 nano (high) and gpt-oss-20B (high) across intelligence, price, speed, context window and more.
Structured outputs doesn't work with gpt-oss due to the use of the new Harmony response format. I believe this can be addressed via an ...
Квантизация MXFP4: Как 120B модель помещается на одну GPU. Еще одна ключевая фишка — 4-битная квантизация весов MoE-слоев в формате mxfp4 . Это ...
VLLM doesn't support structured output for gpt-oss-20b, causing random text or JSON. Manual parsing is the current workaround.
1) Use a single enterprise GPU (H100‑80GB) with MXFP4 for best $/throughput · 2) Burst to managed one‑click deployments when you need scale (pay ...
В 2025 году локальные модели gpt-oss-20b и gpt-oss-120b продемонстрировали эффективность, сравнимую с новейшими облачными предложениями OpenAI GPT-5 Nano и Mini соответственно, при условии корректной настройки для "рассуждения" и структурированного вывода. Это открытие, по мнению экспертов, указывает на стратегию OpenAI по предоставлению двух уровней доступа к своим передовым разработкам: через облачные API и через распространение адаптированных локальных моделей.
Несмотря на их потенциал, полноценная реализация возможностей gpt-oss-20b и gpt-oss-120b сталкивается с техническими преградами, особенно в части поддержки "Structured Outputs", критически важной для точного и предсказуемого взаимодействия.
Независимые тесты, проведённые в октябре 2025 года, показали, что "очки на бенчмарке получились у моделей похожие" между gpt-oss-20b и gpt-5-nano, а также между gpt-oss-120b и gpt-5-mini. Этот паритет достигается при использовании таких методов, как Chain-of-Thought (CoT), позволяющих локальным моделям "подумать над проблемой до ответа" аналогично тому, как это происходит в облачных сервисах с поддержкой "рассуждения" (reasoning).
Эксперты отмечают, что "OpenAI не нужно поддерживать большой зоопарк моделей, когда можно обучить три новые модели, выдать по API все три (спрятав reasoning) и раздать всем две младшие модели". Это может объяснить текущую ситуацию, когда публично доступные gpt-oss модели требуют дополнительных настроек для раскрытия своего полного потенциала.
Ключевым препятствием на пути к полной функциональности gpt-oss моделей является отсутствие нативной поддержки "Structured Outputs", особенно для их новой архитектуры. Как подтвердили в OpenRouter в октябре 2025 года, даже у таких провайдеров, как Fireworks, модель gpt-oss-20b работает без этой функции.
Проблема не ограничивается отдельными платформами. Например, в обсуждении на GitHub (issue #11691, открыта 5 августа 2025 года) пользователи Ollama столкнулись с тем, что OpenAI SDK "не может распарсить структурированный вывод из ответов gpt-oss:20b". Код воспроизведения демонстрирует ValidationError при попытке использовать модель для генерации структурированных данных. Похожие трудности наблюдались и другими пользователями, включая тех, кто экспериментировал с vllm и xgrammar, сообщая о проблемах с "неестественным текстом" или "случайным JSON" после ожидаемого вывода.
Пользователь ztsvvstz на Hugging Face 15 августа 2025 года пояснил ситуацию с vllm: "vllm пока не поддерживает структурированный вывод для gpt oss (упоминается в их документации), и поэтому вывод всегда 'ненаправленный'". Более того, в версии vllm V1 были удалены обработчики логитов, что ещё сильнее усложняет реализацию контролируемого вывода.
Для решения этих вопросов эксперты советуют:
xgrammar/outlines для 120B/20B) может помочь улучшить качество ответов.Модели GPT-OSS разработаны с учётом различных сценариев использования и оптимизации расходов:
gpt-oss-120b:
gpt-oss-20b:
Для снижения расходов и максимизации производительности при работе с gpt-oss моделями предлагаются следующие стратегии:
gpt-oss-120b предпочтительнее облачные H100, а для gpt-oss-20b - потребительские или "периферийные" устройства.В целом, сообщество и разработчики активно работают над улучшением поддержки gpt-oss моделей, ожидая скорейшего появления "constrained decoding" в таких библиотеках, как xgrammar и outlines. Это позволит использовать Schema-Guided Reasoning, делая локальные модели ещё более сопоставимыми с их облачными аналогами.
Comparison between GPT-5 nano (high) and gpt-oss-20B (high) across intelligence, price, speed, context window and more.
Structured outputs doesn't work with gpt-oss due to the use of the new Harmony response format. I believe this can be addressed via an ...
Квантизация MXFP4: Как 120B модель помещается на одну GPU. Еще одна ключевая фишка — 4-битная квантизация весов MoE-слоев в формате mxfp4 . Это ...
VLLM doesn't support structured output for gpt-oss-20b, causing random text or JSON. Manual parsing is the current workaround.
1) Use a single enterprise GPU (H100‑80GB) with MXFP4 for best $/throughput · 2) Burst to managed one‑click deployments when you need scale (pay ...
Вопросы и ответы