Новый ИИ-подход от Глэдстоуна [arXiv:2507.02092] показывает на 35% лучшее масштабирование и «мышление 2», но требует на порядок больше FLOPS, бросая вызов Google и Meta.
by A Gladstone · 2025 · Cited by 2 — We find EBTs scale faster than the dominant Transformer++ approach during training, achieving an up to 35% higher scaling rate with respect to data, batch size ...
by РИ Абдулкадиров · 2023 · Cited by 4 — В данной работе мы предлагаем алгоритм натурального градиентного спуска с импуль- сом на основе распределений Дирихле для ускорения обучения нейронных сетей.
Недостаток данных приводит к тому, что модель плохо обобщает, в то время как избыток данных приводит к переобучению и тратам вычислительных рес ...
In order to perform inference, we search this function using gradient descent to find compatible y y y's. ... P ( y ∣ x ) = exp ( − β F ( x , y ) ) ∫ y ′ exp ...
In AI, scaling laws help us to understand and predict how changes in variables like the amount of computation and data used can have substantial impacts on ...
9 октября 2025 года - В сфере искусственного интеллекта преобладают модели, предсказывающие распределение вероятностей ответа p(y | x). Тем не менее, новое исследование, представленное в работе «Energy-Based Transformers are Scalable Learners and Thinkers» arXiv:2507.02092 от Алексея Глэдстоуна и его соавторов, предлагает вернуться к концепции энергетических моделей E(x, y), которая, по их утверждению, может заметно повысить эффективность и масштабируемость систем ИИ. Этот подход переводит задачу предсказания в задачу оптимизации, открывая новые возможности для создания моделей, способных к «системному мышлению 2» (System 2 Thinking) без дополнительного надзора.
Традиционные классификаторы p(y | x) стремятся вывести распределение ответов, тогда как энергетические модели E(x, y) оценивают «совместимость» между входом x и потенциальным выходом y. Низкое значение энергии свидетельствует о высокой совместимости, высокое - о низкой. Ян ЛеКун (Yann LeCun), пионер в области глубокого обучения, давно отстаивает преимущество энергетических моделей, особенно в сценариях с несколькими допустимыми выходами или в доменных областях с «бесконечно» большим пространством ответов, таких как генерация изображений или машинный перевод. По его словам, «вероятности бесполезны, если вы хотите принимать решения», и энергетические модели предоставляют «гораздо больший выбор в том, как вы обрабатываете модель, гораздо больший выбор в том, как вы её обучаете, и какую функцию цели вы используете» atcold.github.io.
Energy-Based Transformers (EBTs) конкретизируют эту парадигму. Вместо того чтобы предсказывать следующий токен в виде распределения вероятностей, EBT получают это распределение на вход и оценивают «энергию» пары входной последовательности и предлагаемого распределения следующего токена. В процессе инференса модель решает задачу оптимизации данного распределения.
Ключевой метод обучения E(x, p(y)) заключается в использовании особенностей инференса - градиентного спуска по E(x, p(y)) для оптимизации вектора p(y). При том, что эта процедура полностью дифференцируема, процесс обучения выглядит так: случайно инициализированный вектор p(y) итеративно корректируется градиентным спуском, а конечные потери рассчитываются как близость полученного p(y) к истинному p(y).
Для стабилизации этого процесса применяются несколько «хаков»:
p(y) подвергается «шумлению», что позволяет исследовать более широкое пространство входных данных.p(y) инициализируется из ранее найденных «хороших» распределений, ускоряя сходимость.Такой подход - это «прямой» метод обучения E(x, p(y)), который в контексте рекомендательных систем уже доказал свою эффективность. Там применяются модели вида F(user, item), а не p(item | user).
По данным авторов исследования, EBT демонстрируют гораздо более быстрый рост точности на валидационных данных по мере увеличения объёма тренировочных наборов. При 3 миллиардах токенов EBT уже превосходят традиционные архитектуры Transformer++.
Важно подчеркнуть, что такой прирост достигается за счёт роста вычислительных затрат: EBT требуют почти на порядок больше FLOPS для получения того же качества. Тем не мало, как отмечают аналитики индустрии, включая Дилана Пателя (Dylan Patel) и других [habr.com/ru/articles/869674/], способность к масштабированию по данным является более критичным индикатором в долгосрочной перспективе, поскольку вычислительные ресурсы со временем удешевляются, а «разумные» данные остаются ограниченными. В abstract исследования авторы указывают, что «EBTs демонстрируют до 35% более высокую скорость масштабирования по данным, размеру батча, параметрам, FLOPS и глубине».
На этапе инференса EBT повышают производительность на языковых задачах на 29 % по сравнению с Transformer++, благодаря «системному мышлению 2». В отличие от традиционных моделей, которые генерируют токены без отслеживания промежуточных шагов, EBT, как и более продвинутые модели рассуждений, могут разбивать ответ на отдельные шаги (цепочку мыслей), а затем откатываться назад при обнаружении нелогичного вывода, пересматривая предыдущие части. Это свойство соотносится с концепцией «системное мышление 2», где модель активно «думает» и проверяет свои промежуточные шаги, аналогично тому, как шахматный ИИ, такой как AlphaGo, использует поиск по дереву Монте-Карло, значительно улучшая свои возможности.
Energy-Based Transformers представляют собой потенциально прорывное направление в исследованиях ИИ. Их способность к масштабированию по данным и эффективному использованию инференс-времени для повышения точности делает их многообещающими для решения сложных задач в различных модальностях (текст, изображение). При этом высокая вычислительная стоимость остаётся серьёзным препятствием для широкого внедрения.
Тем не менее, учитывая постоянные инновации в аппаратных платформах и системной инженерии, например, планы Meta и Google по созданию масштабных центров обработки данных [habr.com/ru/articles/869674/], необходимость в огромных FLOPS может быть нивелирована. Если тенденция к снижению стоимости вычислений сохранится, модели, которые максимально эффективно используют данные, в конечном итоге станут доминирующими.
В заключение, EBTs предлагают не просто линейное улучшение существующих архитектур, а принципиально новый подход к обучению и инференсу, способный масштабировать как обучающие, так и мыслительные возможности моделей. Вопрос о том, заменит ли эта парадигма традиционные подходы, остаётся открытым, но первые результаты демонстрируют значительный потенциал.
by A Gladstone · 2025 · Cited by 2 — We find EBTs scale faster than the dominant Transformer++ approach during training, achieving an up to 35% higher scaling rate with respect to data, batch size ...
by РИ Абдулкадиров · 2023 · Cited by 4 — В данной работе мы предлагаем алгоритм натурального градиентного спуска с импуль- сом на основе распределений Дирихле для ускорения обучения нейронных сетей.
Недостаток данных приводит к тому, что модель плохо обобщает, в то время как избыток данных приводит к переобучению и тратам вычислительных рес ...
In order to perform inference, we search this function using gradient descent to find compatible y y y's. ... P ( y ∣ x ) = exp ( − β F ( x , y ) ) ∫ y ′ exp ...
In AI, scaling laws help us to understand and predict how changes in variables like the amount of computation and data used can have substantial impacts on ...
Вопросы и ответы