OpenAI возвращается к истокам с моделями GPT-OSS-120b и 20b — архитектура MoE, контекст 128k и рекордная производительность доступны всем, бросая вызов закрытым аналогам.
GPT-OSS-120b и GPT-OSS-20b — это продвинутые генеративные модели, сочетающие лучшие практики OpenAI последних лет: архитектуру Transformer с MoE ...
Мне удалось запустить gpt-oss-120b в LM-studio на видеокарте 5060ti 16Gb + 64Gb DDR4 RAM. Я разместил 8 слоев в видеопамяти, остальное в RAM.
Each model is a Transformer which leverages mixture-of-experts (MoE) to reduce the number of active parameters needed to process input. gpt-oss- ...
Минло-Парк, Калифорния. OpenAI, фирма, рано ставшая пионером открытых исследований в сфере искусственного интеллекта, а затем сместившая акценты на проприетарные разработки, сделала значимый шаг к сообществу, представив две новые крупные языковые модели с открытым кодом: GPT-OSS-120b и GPT-OSS-20b. Этот поступок, впервые со времён публикации GPT-2 в 2019 году, возвращает веса важных языковых моделей компании в открытый доступ, что многими рассматривается как ответ на критику в адрес OpenAI за её закрытость.
GPT-OSS-120b и GPT-OSS-20b являются кульминацией последних достижений OpenAI, соединяя архитектуру Transformer с подходом Mixture-of-Experts (MoE), расширенным контекстным окном до 128 000 токенов, инновационными методами квантования MXFP4 и масштабируемой глубиной рассуждений. По данным официальной документации OpenAI, а также информации, опубликованной на GitHub и Hugging Face, эти модели достигают показателей, сравнимых с собственными закрытыми аналогами OpenAI, такими как o3-mini и o4-mini, при этом сохраняют возможность локального запуска.
Обе модели построены на архитектуре Transformer с применением MoE. В GPT-OSS-120b из приблизительно 117 миллиардов общих параметров на каждый обрабатываемый токен активно задействуется лишь 5,1 миллиарда параметров (около 4,4 %), что объясняет их высокую скорость, несмотря на общий размер. Младшая GPT-OSS-20b, имея около 21 миллиарда общих параметров, активирует 3,6 миллиарда.
Таблица параметров
Модель Слои Всего параметров Активных параметров/токен Всего экспертов Активных экспертов/токен Длина контекста gpt-oss-120b 36 ≈117 B 5.1 B 128 4 128k gpt-oss-20b 24 ≈21 B 3.6 B 32 4 128k
Для токенизации данных OpenAI разработала и опубликовала токенизатор o200k_harmony с вокабуляром около 200 тысяч токенов, оптимизированным под длинные контексты. Примечательная особенность - контекстное окно в 128k токенов, значительно опережающее многие существующие открытые языковые модели.
Модели GPT-OSS способны выполнять полноценный вывод цепочки рассуждений (Chain-of-Thought, CoT) и нативно поддерживают структурированные форматы вывода. Они также могут вызывать внешние инструменты (например, веб-поиск или исполнение кода) в ходе диалога, что делает их полноценными «агентами рассуждения». Эта функция, аналогичная возможностям серии o3, позволяет им динамически взаимодействовать с внешними ресурсами для решения сложных задач.
GPT-OSS-120b, ориентированная на максимальную точность, требует один GPU NVIDIA H100 с 80 ГБ памяти благодаря 4-битной квантизации весов MoE-слоёв (формат MXFP4). Это заметно снижает аппаратные требования по сравнению с плотными моделями аналогичного масштаба. Младшая GPT-OSS-20b, наоборот, укладывается в 16 ГБ памяти, что позволяет ей работать на потребительских видеокартах либо даже на CPU-серверах с оптимизированными библиотеками.
Одним из уникальных новшеств является механизм регулируемого уровня рассуждения, встроенный в обе модели. Пользователи могут задать один из трёх режимов - LOW, MEDIUM или HIGH reasoning effort - что дает возможность управлять глубиной и продолжительностью, затрачиваемой моделью на обдумывание ответа. Это обеспечивает гибкость, позволяя модели выступать как быстрый чат-бот, так и как глубоко мыслящий эксперт для сложных запросов. Данный функционал закладывается уже на этапе обучения и доступен через специальную системную инструкцию.
Модели GPT-OSS обучались на триллионах токенов текстовых данных, преимущественно на английском языке, с упором на STEM-дисциплины, программирование и общую эрудицию. Срез знаний модели датирован июнем 2024 года. OpenAI приложила значительные усилия для фильтрации обучающих данных, удаляя контент, связанный с опасными биологическими, химическими, ядерными технологиями (CBRN), а также другую токсичную или запрещённую информацию.
Модели прошли Supervised Fine-Tuning (SFT) для следования инструкциям и использованию инструментов, а также Reinforcement Learning with Human Feedback (RLHF) с применением «high-compute RL stage», аналогичного тем, что использовались для флагманских моделей OpenAI серии o. OpenAI также внедрила подход Deliberate Alignment, обучающий модели отказываться от выполнения потенциально вредоносных или запрещённых запросов, а также методику Instruction Hierarchy Fine-Tuning, усиливающую приоритет системных правил над пользовательскими.
По заявлению OpenAI, обе модели демонстрируют выдающиеся результаты на стандартных тестах для больших языковых моделей. GPT-OSS-120b достигает около 90 % точности на тесте MMLU, что сопоставимо с закрытой моделью OpenAI o4-mini (≈93 %). GPT-OSS-20b набирает порядка 85 % на MMLU. На тесте GPQA Diamond GPT-OSS-120b без инструментов показала 80,1 % успеха, приближаясь к уровню o4-mini (≈81,4 %).
В области программирования GPT-OSS-120b с включёнными инструментами достигла условного рейтинга ≈2 622 баллов Эло на Codeforces, превзойдя o3-mini (≈2 500 баллов). Примечательно, что по внутреннему тесту HealthBench GPT-OSS-120b обогнала более старую модель OpenAI o1 и даже GPT-4o, хотя OpenAI подчёркивает, что модели не предназначены для использования как медицинские экспертные системы.
Важным аспектом является выпуск GPT-OSS под лицензией Apache 2.0, позволяющей свободное коммерческое использование, модификацию и распространение при соблюдении авторских прав и лицензии. OpenAI также представила «Usage Policy», призывающую к ответственному и законному использованию моделей, не накладывая при этом жёстких технических или категориальных ограничений. Для снижения рисков злоупотреблений OpenAI инициировала программу Red Teaming Challenge с призовым фондом в $500 000, привлекая сообщество к выявлению уязвимостей.
Модели GPT-OSS обучены принимать формат промптов OpenAI Harmony, используемый фирменными моделями ChatGPT. OpenAI открыла спецификацию этого формата и предоставляет рендереры на Python и Rust. Модели полностью поддерживают OpenAI Responses API и совместимы с широким спектром открытых фреймворков для инференса, таких как Hugging Face Transformers, vLLM, llama.cpp, Ollama и LM Studio. Крупные облачные платформы, включая Azure, AWS, Google Cloud, а также аппаратные производители, такие как NVIDIA, AMD, Cerebras и Groq, уже обеспечили поддержку и интеграцию GPT-OSS, делая эти мощные модели широко доступными. Веса GPT-OSS-120b составляют около 80 ГБ, а GPT-OSS-20b - около 16 ГБ, с возможностью конвертации в int8 и int4 форматы.
Релиз GPT-OSS знаменует собой значительный сдвиг в стратегии OpenAI, подтверждая приверженность открытому ИИ в момент, когда отрасль всё чаще обсуждает баланс между инновациями, безопасностью и доступностью.
GPT-OSS-120b и GPT-OSS-20b — это продвинутые генеративные модели, сочетающие лучшие практики OpenAI последних лет: архитектуру Transformer с MoE ...
Мне удалось запустить gpt-oss-120b в LM-studio на видеокарте 5060ti 16Gb + 64Gb DDR4 RAM. Я разместил 8 слоев в видеопамяти, остальное в RAM.
Each model is a Transformer which leverages mixture-of-experts (MoE) to reduce the number of active parameters needed to process input. gpt-oss- ...
Вопросы и ответы