14 октября, САН-ФРАНЦИСКО, Together AI и Пекинский университет представили ATLAS и EAGLE-3. Системы адаптивного спекулятивного декодирования ускоряют вывод LLM в 4-6 раз, без потери качества.
ATLAS offers a new way of doing speculative decoding — one that dynamically improves at runtime — and it fits seamlessly alongside our other ...
Привет всем! Я хочу улучшить задержку для qwen3 30b-a3b 2507-thinking, применив спекулятивное декодирование. Когда я проверил поддерживаемые ...
Подходы, которые позволяют улучшать качество фичей и целых продуктов на основе LLM (Больших языковых моделей).
Appendix A.1 of Leviathan et al. (2023) proves that speculative sampling is consistent with the distribution of vanilla autoregressive decoding.
САН-ФРАНЦИСКО, 14 октября 2025 г. - В непрестанно меняющемся ландшафте больших языковых моделей (LLM) оптимизация скорости вывода без потери качества является крайне важной задачей. Недавние разработки от Together AI и академических исследователей демонстрируют заметный прогресс в этой сфере, особенно в рамках спекулятивного декодирования (speculative decoding). Подход Together AI, получивший название AdapTive-LeArning Speculator System (ATLAS), а также новая итерация EAGLE-3, представленная учёными из Пекинского университета, Microsoft Research, Университета Ватерлоо и Vector Institute, предлагают свежие механизмы для повышения производительности LLM, обеспечивая почти четырёхкратное или шестикратное ускорение соответственно.
Классический метод спекулятивного декодирования, впервые подробно описанный в работе 2022 года «Fast Inference from Transformers via Speculative Decoding», направлен на ускорение авторегрессионной генерации LLM. Он использует небольшую «черновую» модель (драфтер) для предварительной генерации последовательности токенов, которые затем параллельно проверяются основной, более крупной моделью. Если предсказания драфтера совпадают с тем, что сгенерировала бы основная модель, принимается самый длинный совпадающий префикс. Такая схема гарантирует, что качество генерации остаётся идентичным качеству основной модели, в то же время вывод ускоряется существенно.
Эта базовая идея претерпела значительные изменения. Примеры включают Medusa, где обучаются отдельные выходные «головы» для предсказания нескольких последующих токенов, а также семейство методов EAGLE (1, 2, 3), где особенно EAGLE-3 демонстрирует самые продвинутые архитектурные новшества.
Together AI, игрок в сфере инфраструктуры искусственного интеллекта, представил ATLAS, систему, стремящуюся решить проблему статичности спекулятивного декодирования. Традиционно спекуляторы показывают хорошие результаты лишь в тех задачах, на которых они были обучены. ATLAS преодолевает это ограничение, объединяя два ключевых компонента:
Кроме того, ATLAS включает контроллер, учитывающий степень уверенности. Этот контроллер динамически решает, какой спекулятор задействовать и сколько токенов предсказывать вперёд, опираясь на предсказания. По данным Together AI, такая архитектура обеспечивает до 4-кратного ускорения вывода LLM, достигая до 500 токенов в секунду (TPS) на DeepSeek-V3.1 и до 460 TPS на Kimi-K2 в полностью адаптированном сценарии, как указано в отчёте от 10 октября 2025 года. Эти показатели, измеренные на NVIDIA HGX B200 с использованием трафика Arena Hard, превосходят даже специализированное оборудование, вроде Groq, для некоторых моделей.
«ATLAS предлагает новый способ спекулятивного декодирования - тот, который динамически улучшается во время выполнения - и он легко сочетается с другими нашими методами Turbo, такими как собственный Together Turbo Speculator или Custom Speculators», - заявляет Together AI.
Важным аспектом ATLAS является его эффективность в обучении с подкреплением (RL). В RL фаза развертывания часто становится узким местом, занимая до 70 % общего времени. Статические спекуляторы быстро теряют актуальность при изменении целевой политики. ATLAS, благодаря онлайн-адаптации, сохраняет согласованность с развивающейся политикой, сокращая время развертывания и показывая снижение общего времени обучения более чем на 60 % для Qwen/Qwen2.5-7B-Instruct-1M на NVIDIA Hopper H100 GPU.
В то время как ATLAS делает упор на адаптивность, новая версия EAGLE, названная EAGLE-3, от 3 марта 2025 года, масштабирует ускорение вывода LLM за счёт нового подхода к обучению и архитектуре черновой модели. Предыдущие версии EAGLE использовали top-layer features целевой модели, однако исследования показали, что такой подход ограничивал выразительность драфтера и препятствовал масштабированию преимуществ от роста обучающих данных.
EAGLE-3 вносит два ключевых изменения:
Эти улучшения, согласно авторам EAGLE-3, позволяют драфтеру полностью воспользоваться масштабированием обучающих данных. В результате EAGLE-3 достигает ускорения до 6,5 раз, что примерно на 1,4 раза превосходит EAGLE-2. Например, на задаче HumanEval EAGLE-3 продемонстрировал ускорение до 6,5x со средней длиной принятия (average acceptance length) ≈ 7,5 токенов при температуре 0.
И ATLAS, и EAGLE-3 представляют существенные шаги вперёд в оптимизации вывода LLM. ATLAS концентрируется на динамической адаптации к рабочим нагрузкам в реальном времени, обеспечивая стабильную производительность и повышенную эффективность RL. EAGLE-3 же переосмысливает архитектуру драфтера и процесс обучения, позволяя эффективно масштабировать модель с увеличением объёма данных, чего ранее не удавалось достичь.
Оба подхода подчёркивают важность точной настройки спекулятивного декодирования. Коэн Левиафан, Матан Кальман и Йосси Матиас ещё в 2023 году в своей работе «Fast Inference from Transformers via Speculative Decoding» подчёркивали, что качество генерации не должно ухудшаться. И ATLAS, и EAGLE-3 придерживаются этого принципа, предоставляя lossless ускорение за счёт строгих условий проверки.
Поскольку область LLM стремительно развивается, такие новшества имеют решающее значение для широкого внедрения, снижения расходов и повышения интерактивности. Возможность динамической адаптации спекуляторов и их масштабирования вместе с ростом данных открывает новые горизонты для применения LLM в сложных и чувствительных ко времени системах.
Тем не менее, остаются открытые вопросы. Оптимальный размер драфтерной модели, баланс между коэффициентом принятия (acceptance rate) и задержкой драфтерa (draft latency), а также влияние различных методов на производительность при изменении размеров батчей требуют дальнейших исследований. Как отмечали эксперты GoPractice 3 июля 2024 года, для улучшения качества LLM-продуктов нужны постоянные эксперименты с моделями, их параметрами и промптами. Подобные исследования, как и SPRIG, опубликованный 18 октября 2024 года Леченом Чжаном и соавторами, показывают, что системные промпты способны значительно повысить эффективность модели в общих сценариях, что свидетельствует о многогранности оптимизации LLM.
Непрерывные усилия таких компаний, как Together AI, и академических исследователей обещают дальнейшее совершенствование, делая LLM ещё более доступными и мощными инструментами.
ATLAS offers a new way of doing speculative decoding — one that dynamically improves at runtime — and it fits seamlessly alongside our other ...
Привет всем! Я хочу улучшить задержку для qwen3 30b-a3b 2507-thinking, применив спекулятивное декодирование. Когда я проверил поддерживаемые ...
Подходы, которые позволяют улучшать качество фичей и целых продуктов на основе LLM (Больших языковых моделей).
Appendix A.1 of Leviathan et al. (2023) proves that speculative sampling is consistent with the distribution of vanilla autoregressive decoding.
Вопросы и ответы