В октябре 2025 Sora 2 от OpenAI показала 55% точности в научном тесте; в это же время Veo 3 от Google DeepMind достигла 78% в решении лабиринтов, намекая на новую эру физического осмысления в ИИ.
Sora 2 от OpenAI научилась отвечать на вопросы по науке. В тесте Epoch AI система выполнила десять заданий из GPQA Diamond Multiple Choice ...
Исследователи проверили Veo 3 на различных заданиях, включая прохождение лабиринтов, моделирование физических процессов, решение визуальных ...
We tested Sora 2 on a small subset of GPQA questions, and it scored 55%, compared to GPT-5's score of 72%. GPQA Diamond is a benchmark of ...
Greater realism and fidelity, including 4k output and Veo 3's real world physics and audio. Follows prompts like never before. Improved prompt adherence ...
В октябре 2025 года передовые видеогенеративные модели искусственного интеллекта показали умение решать сложные научные и физические задачи, обычно сопоставляемые с текстовыми языковыми моделями. Эти успехи свидетельствуют о потенциальной диверсификации путей развития ИИ, отодвигающих акцент от исключительно текстового обучения.
Исследователи Epoch.AI проверили модель Sora 2 от OpenAI на бенчмарке GPQA Diamond Multiple Choice Benchmark, состоящем из вопросов по химии и физике. Модель, предназначенная для создания видео, смогла правильно ответить на 55 % из десяти случайно отобранных вопросов, что, хотя и ниже показателя GPT-5 (72 %), заметно опережает многие предыдущие поколения моделей.
Методика эксперимента заключалась в запросе видео, где «профессор показывает букву ответа» на листе. Такая косвенная форма взаимодействия намекает на неожиданную способность Sora 2 трансформировать сложные запросы в визуальное исполнение. Epoch.AI полагают, что перед генерацией ролика запросы пользователей могут внутренне перефразироваться или обработаться вспомогательной языковой моделью. Это позволило бы ИИ решить задачу на текстовом уровне, а затем внедрить решение в видеозапрос. Подобные приёмы оптимизации промптов применяются в некоторых иных моделях, например, HunyuanVideo, для повышения качества вывода. Тем не менее, OpenAI официально не подтверждала наличие такого механизма в Sora.
Одновременно Google DeepMind представила результаты тестирования своей видеомодели Veo 3, исследуя её способность к «пониманию» физического мира и логических задач. В отличие от Sora, которая генерирует ответы через косвенный визуальный вывод, Veo 3 прошла широкий набор испытаний, включая решение лабиринтов, симуляцию физических процессов (например, плавучести, трения, отражения и преломления света), а также применение графовых алгоритмов через визуальное представление (заполнение трубочек водой).
Исследование продемонстрировало, что Veo 3 справляется с задачами, на которых она не обучалась напрямую, включая обнаружение объектов. Модель использует «цепь кадров» (Chain-of-Frames) - аналог «цепи мыслей» (Chain-of-Thought) в текстовых моделях, позволяющий вести пошаговое визуальное рассуждение. В тестах с лабиринтами размером 5×5 клеток точность Veo 3 достигла 78 % при показателе pass@10.
Эти результаты подкрепляют аргумент Google DeepMind о том, что Veo - это не просто инструмент для создания видео, а потенциальная система моделирования мира. Такие возможности особенно значимы в контексте дискуссий о том, что понимание материального мира, по мнению таких учёных, как Ян Лекун из Meta, является ключевым препятствием на пути к достижению Общего Искусственного Интеллекта (AGI).
Способность видеогенеративных моделей решать научные задачи и осмысливать физические законы открывает новые горизонты в развитии ИИ. Если традиционные языковые модели часто критикуют за отсутствие «здравого смысла» и понимания реального мира, то прогресс в видеомоделях может предложить альтернативный путь к более интерактивному и осмысленному ИИ.
Однако остаются открытыми вопросы о внутренней механике этих процессов. Действительно ли видеомодели самостоятельно «решают» задачи, или они лишь эффективно маскируют работу связанных с ними языковых моделей? Независимо от ответа, интеграция и синергия разных модальностей, таких как текст и видео, очевидно, будут играть центральную роль в будущих архитектурах искусственного интеллекта.
Sora 2 от OpenAI научилась отвечать на вопросы по науке. В тесте Epoch AI система выполнила десять заданий из GPQA Diamond Multiple Choice ...
Исследователи проверили Veo 3 на различных заданиях, включая прохождение лабиринтов, моделирование физических процессов, решение визуальных ...
We tested Sora 2 on a small subset of GPQA questions, and it scored 55%, compared to GPT-5's score of 72%. GPQA Diamond is a benchmark of ...
Greater realism and fidelity, including 4k output and Veo 3's real world physics and audio. Follows prompts like never before. Improved prompt adherence ...
Вопросы и ответы