Logo

Энергетические Трансформеры: Убьют ли «Думающие» Модели ИИ от ЛеКуна Привычные Нейросети?

Новый ИИ-подход от Глэдстоуна [arXiv:2507.02092] показывает на 35% лучшее масштабирование и «мышление 2», но требует на порядок больше FLOPS, бросая вызов Google и Meta.

14 жовтня 2025 р., 15:58
4 мин чтения

Трансформеры, основанные на энергии: переосмысление масштабируемого обучения и мышления в ИИ

9 октября 2025 года - В сфере искусственного интеллекта преобладают модели, предсказывающие распределение вероятностей ответа p(y | x). Тем не менее, новое исследование, представленное в работе «Energy-Based Transformers are Scalable Learners and Thinkers» arXiv:2507.02092 от Алексея Глэдстоуна и его соавторов, предлагает вернуться к концепции энергетических моделей E(x, y), которая, по их утверждению, может заметно повысить эффективность и масштабируемость систем ИИ. Этот подход переводит задачу предсказания в задачу оптимизации, открывая новые возможности для создания моделей, способных к «системному мышлению 2» (System 2 Thinking) без дополнительного надзора.

Традиционные классификаторы p(y | x) стремятся вывести распределение ответов, тогда как энергетические модели E(x, y) оценивают «совместимость» между входом x и потенциальным выходом y. Низкое значение энергии свидетельствует о высокой совместимости, высокое - о низкой. Ян ЛеКун (Yann LeCun), пионер в области глубокого обучения, давно отстаивает преимущество энергетических моделей, особенно в сценариях с несколькими допустимыми выходами или в доменных областях с «бесконечно» большим пространством ответов, таких как генерация изображений или машинный перевод. По его словам, «вероятности бесполезны, если вы хотите принимать решения», и энергетические модели предоставляют «гораздо больший выбор в том, как вы обрабатываете модель, гораздо больший выбор в том, как вы её обучаете, и какую функцию цели вы используете» atcold.github.io.

Механика энергетических трансформеров

Energy-Based Transformers (EBTs) конкретизируют эту парадигму. Вместо того чтобы предсказывать следующий токен в виде распределения вероятностей, EBT получают это распределение на вход и оценивают «энергию» пары входной последовательности и предлагаемого распределения следующего токена. В процессе инференса модель решает задачу оптимизации данного распределения.

Ключевой метод обучения E(x, p(y)) заключается в использовании особенностей инференса - градиентного спуска по E(x, p(y)) для оптимизации вектора p(y). При том, что эта процедура полностью дифференцируема, процесс обучения выглядит так: случайно инициализированный вектор p(y) итеративно корректируется градиентным спуском, а конечные потери рассчитываются как близость полученного p(y) к истинному p(y).

Для стабилизации этого процесса применяются несколько «хаков»:

  • После каждого шага градиентного спуска p(y) подвергается «шумлению», что позволяет исследовать более широкое пространство входных данных.
  • Иногда p(y) инициализируется из ранее найденных «хороших» распределений, ускоряя сходимость.

Такой подход - это «прямой» метод обучения E(x, p(y)), который в контексте рекомендательных систем уже доказал свою эффективность. Там применяются модели вида F(user, item), а не p(item | user).

Масштабирование и производительность

По данным авторов исследования, EBT демонстрируют гораздо более быстрый рост точности на валидационных данных по мере увеличения объёма тренировочных наборов. При 3 миллиардах токенов EBT уже превосходят традиционные архитектуры Transformer++.

Важно подчеркнуть, что такой прирост достигается за счёт роста вычислительных затрат: EBT требуют почти на порядок больше FLOPS для получения того же качества. Тем не мало, как отмечают аналитики индустрии, включая Дилана Пателя (Dylan Patel) и других [habr.com/ru/articles/869674/], способность к масштабированию по данным является более критичным индикатором в долгосрочной перспективе, поскольку вычислительные ресурсы со временем удешевляются, а «разумные» данные остаются ограниченными. В abstract исследования авторы указывают, что «EBTs демонстрируют до 35% более высокую скорость масштабирования по данным, размеру батча, параметрам, FLOPS и глубине».

На этапе инференса EBT повышают производительность на языковых задачах на 29 % по сравнению с Transformer++, благодаря «системному мышлению 2». В отличие от традиционных моделей, которые генерируют токены без отслеживания промежуточных шагов, EBT, как и более продвинутые модели рассуждений, могут разбивать ответ на отдельные шаги (цепочку мыслей), а затем откатываться назад при обнаружении нелогичного вывода, пересматривая предыдущие части. Это свойство соотносится с концепцией «системное мышление 2», где модель активно «думает» и проверяет свои промежуточные шаги, аналогично тому, как шахматный ИИ, такой как AlphaGo, использует поиск по дереву Монте-Карло, значительно улучшая свои возможности.

Перспективы и вызовы

Energy-Based Transformers представляют собой потенциально прорывное направление в исследованиях ИИ. Их способность к масштабированию по данным и эффективному использованию инференс-времени для повышения точности делает их многообещающими для решения сложных задач в различных модальностях (текст, изображение). При этом высокая вычислительная стоимость остаётся серьёзным препятствием для широкого внедрения.

Тем не менее, учитывая постоянные инновации в аппаратных платформах и системной инженерии, например, планы Meta и Google по созданию масштабных центров обработки данных [habr.com/ru/articles/869674/], необходимость в огромных FLOPS может быть нивелирована. Если тенденция к снижению стоимости вычислений сохранится, модели, которые максимально эффективно используют данные, в конечном итоге станут доминирующими.

В заключение, EBTs предлагают не просто линейное улучшение существующих архитектур, а принципиально новый подход к обучению и инференсу, способный масштабировать как обучающие, так и мыслительные возможности моделей. Вопрос о том, заменит ли эта парадигма традиционные подходы, остаётся открытым, но первые результаты демонстрируют значительный потенциал.

Вопросы и ответы

Трансформеры, основанные на энергии: переосмысление масштабируемого обучения и мышления в ИИ
Механика энергетических трансформеров
Масштабирование и производительность
Перспективы и вызовы