Logo

Достижения в области рассуждающих LLM: Seed-Thinking-Verifier и эволюция «мыслящих» моделей

По мере того как большие языковые модели (LLM) становятся всё более продвинутыми, растёт и их способность к сложным логическим рассуждениям. Новые подходы, такие как Seed-Thinking-Verifier от ByteDance Seed, в рамках их модели Seed1.5-Thinking, представляют собой значительный шаг вперёд в этом направлении, предлагая механизмам искусственного интеллекта (ИИ) возможность «мыслить», проверяя собственные выводы с беспрецедентной глубиной. Эти новшества знаменуют переход от простого предсказания следующего токена к формированию многоэтапных, рефлексивных процессов анализа, которые по своей сути близки к человеческому мышлению.

Изначально такие модели, как GPT-4, успешно справлялись с лингвистическими задачами, но сталкивались с трудностями в областях, требующих строгой логики или вычислений. Это несоответствие привело к появлению Reasoning-LLM - категории моделей, разработанных для решения сложных задач путём построения цепочек рассуждений. Компании, такие как OpenAI, DeepSeek и Anthropic, постепенно выпускают модели, например o1, DeepSeek R1 и Claude 3.7 Sonnet, которые демонстрируют повышенные способности к рассуждению, часто улучшая свои результаты на порядки по сравнению с предшественниками.

Seed-Thinking-Verifier: новый этап самопроверки

Ключевым механизмом в эволюции рассуждающих моделей является внедрение верификаторов. Традиционно проверка ответов LLM в задачах по математике или программированию сводилась к прямой сверке результатов или прогону тестовых наборов. Seed-Thinking-Verifier (STV), описанный в работе Seed1.5-Thinking: Advancing Superb Reasoning Models with Reinforcement Learning, выходит за пределы этих методов. Он имитирует процесс тщательного человеческого размышления и углублённого анализа, получая на вход не только правильный ответ, но и предложенный ответ, и обучая модель оценивать качество последнего.

«Seed-Thinking-Verifier - это модель, которая дополняет этот процесс на уровне со сверкой ответов и запуском тестов. Она вдохновлена процессом тщательного человеческого размышления и глубокого анализа. Тренируется также, как рассуждающая модель, только правильный/неправильный ответ для сравнения - это корректность оценки. То есть модель сама выучивает, как нужно рассуждать, чтобы прийти к выводу о качестве предоставленного ответа».

Эта модель, обучаемая с использованием метода обучения с подкреплением (Reinforcement Learning, RL), осваивает паттерны рассуждений, позволяющие оценить корректность логики. В процессе обучения ей предоставляется пара ответов (один из которых истинен, другой - произвольный) с целью дать оценку их эквивалентности или логической связи. Например, если истинным ответом является «524288», а предложенным - «2^19», STV должен определить их как эквивалентные, даже при отсутствии прямого текстового совпадения.

Внутренние тесты показали заметное преимущество STV на выбранных запросах. В то время как традиционный верификатор и STV демонстрируют 99 % точности на обучающем наборе данных, на выборке из 456 новых запросов рассуждающий верификатор проявляет более высокую точность и реже ошибается. Это подчёркивает способность STV эффективно справляться с пограничными и неочевидными случаями, которые часто остаются незамеченными обычными верификаторами.

Примечательно, что в текущей версии Seed1.5-Thinking применение STV ограничено задачами STEM (наука, технология, инженерия, математика), большая часть которых - это математические задачи. Это вызывает вопрос о его потенциальном использовании для «неверифицируемых» задач, таких как креативное письмо или перевод, где нет однозначного правильного ответа. В подобных ситуациях по-прежнему применяется обычное моделирование вознаграждений (Reward Modelling). Возможно, в будущих итерациях, к примеру в версии Seed2.0, STV будет адаптирован для более широкого круга доменов, что позволит ему раскрыть весь свой потенциал.

Формирование рассуждений: цепочки мыслей и обучение с подкреплением

Основой рассуждающих LLM является принцип «цепочки мыслей» (Chain-of-Thought, CoT), который подталкивает модель к пошаговому анализу задачи, подобно человеческому мышлению. Исследователи OpenAI отмечают, что метод CoT позволяет моделям пройти до шести шагов рассуждения:

  1. Анализ проблемы: переформулирование задачи, выявление ключевых условий.
  2. Декомпозиция на подзадачи: разбивка сложной задачи на более простые части.
  3. Систематическое решение: последовательное выполнение каждой части.
  4. Альтернативные решения: рассмотрение разных подходов.
  5. Самопроверка: периодическая проверка промежуточных результатов.
  6. Самокоррекция: исправление ошибок или противоречий.

Эти процессы не требуют новых архитектурных модулей Transformer, а достигаются за счёт специализированного обучения и тонкой настройки вывода. Методы обучения, такие как обучение с подкреплением на рассуждениях (RLHF) и обучение с учителем (SFT) на заранее подготовленных пошаговых решениях, играют ключевую роль. Например, команда DeepSeek сначала обучила модель DeepSeek-R1-Zero исключительно с помощью RL, без предварительного этапа SFT, демонстрируя способность моделей самостоятельно развивать сложные рассуждающие навыки [https://huggingface.co/deepseek-ai/DeepSeek-R1].

Ключевые модели и их производительность

Ряд моделей демонстрируют выдающиеся способности к рассуждению:

  • OpenAI o1: Представленная в сентябре 2024 года, эта модель-потомок GPT-4o показала значительный прорыв в решении задач Международной математической олимпиады (IMO), решив 83 % задач по сравнению с 13 % у базового GPT-4. В задачах по кодингу o1 достигла 89-го перцентиля на соревнованиях Codeforces. Существует также облегчённая версия o1-mini, ориентированная на кодинг.
  • DeepSeek R1: Выпущенная в январе 2025 года, является одной из первых open-source Reasoning-LLM. Модель имеет архитектуру Mixture-of-Experts (MoE) с 671 млрд параметров, но активирует лишь около 37 млрд на каждый токен, что обеспечивает экономичную работу. DeepSeek R1 продемонстрировала высокие результаты на бенчмарках, таких как AIME 2024 (79,8 %) и MATH-500 (97,3 %), часто опережая OpenAI o1 в математических задачах. Её стоимость использования значительно ниже, чем у коммерческих аналогов, составляя около $0.55 за миллион входных токенов [https://huggingface.co/deepseek-ai/DeepSeek-R1].
  • Claude 3.7 Sonnet: Флагманская модель Anthropic, представленная в конце февраля 2025 года. Она поддерживает расширенное контекстное окно до 200 000 токенов и обладает мультимодальными возможностями. В режиме Thinking Mode модель явно демонстрирует ход своих рассуждений. Claude 3.7 Sonnet превосходит конкурентов в задачах, требующих генерации кода (SWE-bench Verified: 62,3 %) и показывает высокую точность в задачах на рассуждение (Graduate-level reasoning: 84,8 %).

Факторы, влияющие на точность рассуждающих LLM

Эффективность Reasoning-LLM зависит от нескольких ключевых факторов:

  • Качество и объём обучающих данных: Наличие в тренировочных данных сложных задач с пошаговыми решениями существенно повышает способность моделей к рассуждению.
  • Качество промптов: Правильно сформулированные запросы, использующие фразы типа «Let's think step by step», заметно улучшают точность.
  • Fine-tuning и дообучение: Узкоспециализированное дообучение на задачах конкретного типа повышает компетентность модели в соответствующей области.
  • Параметры инференса: Применение низких значений temperature (например, 0) и методов self-consistency (генерация нескольких решений с последующим выбором наиболее частого) существенно повышают точность.
  • Инструменты и дополнительные проверки: Интеграция с внешними инструментами, такими как калькуляторы, интерпретаторы кода или базы знаний, позволяет модели проверять факты и вычисления.
  • Самопроверка и коррекция: Способность модели проверять свои промежуточные ответы и исправлять ошибки критически важна для повышения общей надёжности.
  • Обработка инструкций (Alignment): Оптимальный баланс между соблюдением инструкций и сохранением логики предотвращает неоправданные отказы модели от ответа. Anthropic, к примеру, снизила количество таких отказов у Claude на 45 %.

Reasoning-LLM представляют собой новую эру в развитии ИИ, где машины не просто отвечают, а «мыслят», анализируя и проверяя свои рассуждения. Хотя их применение сейчас сосредоточено на таких областях, как математика и кодинг, потенциал для расширения в менее структурированные домены, при условии дальнейших усовершенствований, таких как Seed-Thinking-Verifier, остаётся огромным. Эти модели, такие как OpenAI o1, DeepSeek R1 и Claude 3.7 Sonnet, уже сегодня являются мощными инструментами для инженеров, аналитиков и исследователей, демонстрируя, что ИИ способен не только выполнять задачи, но и понимать их суть, открывая новые горизонты для применения в самых разных сферах.

Вопросы и ответы

Достижения в области рассуждающих LLM: Seed-Thinking-Verifier и эволюция «мыслящих» моделей
Seed-Thinking-Verifier: новый этап самопроверки
Формирование рассуждений: цепочки мыслей и обучение с подкреплением
Ключевые модели и их производительность
Факторы, влияющие на точность рассуждающих LLM