2025 год отмечен прорывами ИИ: Seed-Prover решил 78,1% задач IMO; Sora 2, Veo 3 создают видео; CometAPI сравнивает GPT-5, Claude Code, O3, Perplexity AI.
by BD Seed · 2025 · Cited by 73 — Seed-Thinking-Verifier is inspired by the human judgment process, which generates conclusive judgments through meticulous thinking and in-depth ...
Сравнение ИИ стало проще: функции, цены, тесты производительности и примеры использования. Принимайте обоснованные решения по выбору лучшего ИИ-решения для ...
Google AI Deep Think IMO ( available to Ultra users) won Gold Medal in IMO 2025 - Math Olympiad. ByteDance Seed-Prover Achieves Silver Medal ...
В стремительно меняющемся ландшафте искусственного интеллекта 2025 год стал отмечен значительными прорывами, охватывающими широкий спектр применений - от автоматизированного доказательства теорем до создания реалистичного видеоконтента. Эти успехи подчёркивают не только растущую вычислительную мощность ИИ-моделей, но и всё более изощрённые подходы к их разработке и оценке.
Важный шаг вперёд в области математического рассуждения продемонстрирован в статье, представленной в arXiv:2507.23726 от 31 июля 2025 года. Исследователи, среди которых Луосин Чен, Цзинмин Гу и Лянкай Хуан, представили Seed-Prover - модель рассуждений для автоматизированного доказательства теорем. Эта система умеет итеративно уточнять свои доказательства, используя обратную связь от Lean, уже доказанные леммы и механизмы самообобщения. Seed-Prover не только решил 78,1 % формализованных задач Международной математической олимпиады (IMO) прошлых лет, но также достиг более 50 % на PutnamBench, что существенно превосходит предыдущие современные показатели.
В дополнение к Seed-Prover была представлена Seed-Geometry, специализированный механизм рассуждений в области геометрии, который опережает существующие формальные геометрические движки. Совместно эти две системы приняли участие в IMO 2025, полностью решив 5 из 6 задач. Такой результат подчёркивает эффективность использования формальной верификации в сочетании с длинными цепочками рассуждений для глубокого и широкого логического анализа, ранее являвшегося серьёзным препятствием для больших языковых моделей (LLM) из-за отсутствия чётких сигнальных надзоров в естественном языке.
На примере работы (источник от 2025-10-09) показана ключевая задача в оценке моделей ИИ: как определить математическую эквивалентность ответов, которые синтаксически различаются? В традиционных системах оценки, таких как «Seed-Verifier», простое несовпадение результатов приводит к штрафу для модели. Однако более продвинутые подходы, именуемые «Thinking», предлагают сравнение промежуточных значений. Это позволяет системе установить, что, несмотря на внешние различия, ответы математически идентичны, и, следовательно, «наградить обучаемую модель». Такой метод критически важен для разработки более нюансированных и справедливых систем оценки ИИ, способных отличать фактическую ошибку от альтернативного, но корректного представления ответа.
На платформе CometAPI регулярно публикуются сравнительные обзоры новейших моделей ИИ, что свидетельствует о динамичном характере рынка и высоких темпах инноваций.
Эти события показывают, что 2025 год стал периодом стремительного развития ИИ, где специализированные системы способны решать сложные математические задачи, а универсальные модели продолжают расширять свои возможности в самых разных областях - от творчества до программирования. Конкуренция между лидерами рынка, такими как OpenAI, Google и Anthropic, стимулирует постоянные инновации, преобразующие как академические исследования, так и практические решения в сфере искусственного интеллекта.
by BD Seed · 2025 · Cited by 73 — Seed-Thinking-Verifier is inspired by the human judgment process, which generates conclusive judgments through meticulous thinking and in-depth ...
Сравнение ИИ стало проще: функции, цены, тесты производительности и примеры использования. Принимайте обоснованные решения по выбору лучшего ИИ-решения для ...
Google AI Deep Think IMO ( available to Ultra users) won Gold Medal in IMO 2025 - Math Olympiad. ByteDance Seed-Prover Achieves Silver Medal ...
Вопросы и ответы