Logo

Sora 2 Решает Задачи по Химии, Veo 3 Моделирует Физику: Начинается Новая Эра Искусственного Интеллекta?

В октябре 2025 Sora 2 от OpenAI показала 55% точности в научном тесте; в это же время Veo 3 от Google DeepMind достигла 78% в решении лабиринтов, намекая на новую эру физического осмысления в ИИ.

14 жовтня 2025 р., 16:21
3 мин чтения

Новая эра ИИ: Видеомодели демонстрируют неожиданные способности к научному осмыслению

В октябре 2025 года передовые видеогенеративные модели искусственного интеллекта показали умение решать сложные научные и физические задачи, обычно сопоставляемые с текстовыми языковыми моделями. Эти успехи свидетельствуют о потенциальной диверсификации путей развития ИИ, отодвигающих акцент от исключительно текстового обучения.

Sora 2: Видеомодель со скрытыми логическими способностями

Исследователи Epoch.AI проверили модель Sora 2 от OpenAI на бенчмарке GPQA Diamond Multiple Choice Benchmark, состоящем из вопросов по химии и физике. Модель, предназначенная для создания видео, смогла правильно ответить на 55 % из десяти случайно отобранных вопросов, что, хотя и ниже показателя GPT-5 (72 %), заметно опережает многие предыдущие поколения моделей.

Методика эксперимента заключалась в запросе видео, где «профессор показывает букву ответа» на листе. Такая косвенная форма взаимодействия намекает на неожиданную способность Sora 2 трансформировать сложные запросы в визуальное исполнение. Epoch.AI полагают, что перед генерацией ролика запросы пользователей могут внутренне перефразироваться или обработаться вспомогательной языковой моделью. Это позволило бы ИИ решить задачу на текстовом уровне, а затем внедрить решение в видеозапрос. Подобные приёмы оптимизации промптов применяются в некоторых иных моделях, например, HunyuanVideo, для повышения качества вывода. Тем не менее, OpenAI официально не подтверждала наличие такого механизма в Sora.

Veo 3 от Google DeepMind: Физическое моделирование в реальном времени

Одновременно Google DeepMind представила результаты тестирования своей видеомодели Veo 3, исследуя её способность к «пониманию» физического мира и логических задач. В отличие от Sora, которая генерирует ответы через косвенный визуальный вывод, Veo 3 прошла широкий набор испытаний, включая решение лабиринтов, симуляцию физических процессов (например, плавучести, трения, отражения и преломления света), а также применение графовых алгоритмов через визуальное представление (заполнение трубочек водой).

Исследование продемонстрировало, что Veo 3 справляется с задачами, на которых она не обучалась напрямую, включая обнаружение объектов. Модель использует «цепь кадров» (Chain-of-Frames) - аналог «цепи мыслей» (Chain-of-Thought) в текстовых моделях, позволяющий вести пошаговое визуальное рассуждение. В тестах с лабиринтами размером 5×5 клеток точность Veo 3 достигла 78 % при показателе pass@10.

Эти результаты подкрепляют аргумент Google DeepMind о том, что Veo - это не просто инструмент для создания видео, а потенциальная система моделирования мира. Такие возможности особенно значимы в контексте дискуссий о том, что понимание материального мира, по мнению таких учёных, как Ян Лекун из Meta, является ключевым препятствием на пути к достижению Общего Искусственного Интеллекта (AGI).

Перспективы и вопросы

Способность видеогенеративных моделей решать научные задачи и осмысливать физические законы открывает новые горизонты в развитии ИИ. Если традиционные языковые модели часто критикуют за отсутствие «здравого смысла» и понимания реального мира, то прогресс в видеомоделях может предложить альтернативный путь к более интерактивному и осмысленному ИИ.

Однако остаются открытыми вопросы о внутренней механике этих процессов. Действительно ли видеомодели самостоятельно «решают» задачи, или они лишь эффективно маскируют работу связанных с ними языковых моделей? Независимо от ответа, интеграция и синергия разных модальностей, таких как текст и видео, очевидно, будут играть центральную роль в будущих архитектурах искусственного интеллекта.

Вопросы и ответы

Новая эра ИИ: Видеомодели демонстрируют неожиданные способности к научному осмыслению
Sora 2: Видеомодель со скрытыми логическими способностями
Veo 3 от Google DeepMind: Физическое моделирование в реальном времени
Перспективы и вопросы