19 октября 2025 г., Epoch.AI: GPT-5-High достигла 46% решаемости в FrontierMath при многократных прогонах, доходы OpenAI $13 млрд. ИИ агенты, как ChatGPT Agent, лидируют с доступом к интернету; к 2026 г. ожидается 80% решаемости.
По замеру от 11 октября 2025 лучший результат показала GPT-5 Pro от OpenAI: модель решила 6 из 48 предложенных задач, немного опередив Gemini 2 ...
ChatGPT now thinks and acts, proactively choosing from a toolbox of agentic skills to complete tasks for you using its own computer.
GPT-5 and GPT-4 were both major leaps in benchmarks from the previous generation. Despite mixed reception, benchmark data show GPT-5's gains ...
Generative AI is moving into a new phase in 2026, reshaping industries from entertainment to healthcare while creating fresh opportunities ...
Москва, 19 октября 2025 г. - Свежие данные от исследовательской группы Epoch.AI бросают вызов современным представлениям о границах возможностей передовых больших языковых моделей (LLM), таких как GPT-5-High, в решении самых сложных математических задач. Хотя ранее оценки показывали уровень решения лишь около 29 % задач в бенчмарке FrontierMath, детальное тестирование с многократными прогонами и удлинённым контекстом демонстрирует заметный рост, поднимая показатель решаемости до 46 % и намекая на потенциал в 50 %. Эти результаты, опирающиеся на крупномасштабные вычислительные ресурсы, задействованные OpenAI (чьи доходы, по оценкам Epoch.AI, выросли с $2 млрд в 2023 году до $13 млрд к августу 2025 года, демонстрируя годовой рост в 3,2 раза), подчёркивают динамичное развитие ИИ и его роль в преодолении задач, ранее считавшихся прерогативой узкоспециализированных экспертов.
Исследователи Epoch.AI, получив доступ к существенным вычислительным мощностям, провели эксперимент, выходящий за пределы стандартных протоколов тестирования LLM. Вместо единственного прогона и сравнения одного ответа, каждая задача в бенчмарке FrontierMath была обработана моделью GPT-5 32 раза. Кроме того, модели был предоставлен в 10 раз больший объём токенов для анализа, чем в предыдущих измерениях, что существенно увеличивает «время на размышления» или, точнее, способность модели к более глубокому анализу и проработке решения.
Это изменение в подходе привело к заметному росту показателей:
Авторы исследования сделали вывод, что потолок для GPT-5 в текущей конфигурации находится примерно в районе 50 %, исходя из динамики полученных результатов. Дополнительная серия из 100 прогонов для 10 неразрешённых задач не дала ни одного правильного ответа, что, по мнению исследователей, подтверждает наличие определённого предела для данной архитектуры.
При объединении результатов всех LLM и систем, протестированных на бенчмарке, включая ChatGPT Agent и Gemini Deep Think, суммарный показатель решаемости достигает 57 %. Тем не менее, эксперты Epoch.AI полагают, что даже при ещё большем числе прогонов этот показатель вряд ли превысит 70 %.
Бенчмарк FrontierMath известен своей высокой сложностью. Его задачи, по словам авторов, часто требуют от профессионального математика от нескольких часов до нескольких недель работы и основаны на реальных «коротких исследовательских проектах», разработанных профессорами и постдоками. Некоторые из них настолько специализированы, что их понимает буквально 10-20 человек на планете, а по смежным темам существует лишь 2-3 научные статьи.
Именно здесь проявляется потенциальное преимущество: из всех протестированных систем только ChatGPT Agent имеет доступ к интернету. Эта возможность, в сочетании с 16 прогонами, позволила ему решить 49 % задач, причем 14 из них не были решены ни одной другой моделью. Для сравнения, GPT-5 с 32 прогонами решила 46 % задач, продемонстрировав лишь одно уникальное решение. Epoch.AI планирует интегрировать функцию поискового доступа в будущие версии своих оценок, что, вероятно, приведёт к дальнейшим улучшениям.
Эти данные согласуются с общими тенденциями в развитии ИИ. Согласно анализу Forbes от 25 сентября 2025 года, к 2026 году ожидается широкое распространение «агентов в повседневной жизни», способных выполнять не просто реактивные, но и проактивные действия, взаимодействуя с внешними системами. «Агентные чат-боты» уже сейчас переходят от простого ответа на запросы к автономной работе над долгосрочными целями, примером чему служит режим агента ChatGPT.
Опираясь на текущие темпы прогресса, авторы исследования предсказывают, что к 2026 году модели смогут с первой попытки решать около 80 % задач FrontierMath, не прибегая к групповым или многократным прогонам. Этот прогноз согласуется с заявлением Forbes о трансформационном влиянии генеративного ИИ на работу и жизнь в 2026 году.
Тем не менее, скептицизм относительно некоторых задач FrontierMath остаётся. Высокая специализация и редкость информации по отдельным разделам математики могут представлять собой фундаментальное препятствие для LLM, независимо от количества прогонов или расширения контекста, если модель не имеет адекватного доступа к этим узкоспециализированным знаниям.
Однако отчёт Epoch.AI подчёркивает, что «возможности ИИ неуклонно улучшались в течение последнего года», охватывая такие области, как кодирование, визуальное и здравое рассуждение, а также математика. Прогресс GPT-5 в бенчмарках примерно сопоставим с тем скачком, который GPT-4 совершила по сравнению с GPT-3.
В целом, представленные данные убедительно показывают, что нынешние оценки возможностей LLM часто недооценивают их потенциал, особенно при использовании более продвинутых методов исследования и обеспечении обширных вычислительных ресурсов. Открытие доступа к внешней информации для моделей, таких как ChatGPT Agent, может стать ключевым фактором для преодоления текущих барьеров и приближения к прорывам, которые, по мнению ряда экспертов, определят развитие ИИ в ближайшие годы.
По замеру от 11 октября 2025 лучший результат показала GPT-5 Pro от OpenAI: модель решила 6 из 48 предложенных задач, немного опередив Gemini 2 ...
ChatGPT now thinks and acts, proactively choosing from a toolbox of agentic skills to complete tasks for you using its own computer.
GPT-5 and GPT-4 were both major leaps in benchmarks from the previous generation. Despite mixed reception, benchmark data show GPT-5's gains ...
Generative AI is moving into a new phase in 2026, reshaping industries from entertainment to healthcare while creating fresh opportunities ...
Вопросы и ответы