Logo

GPT-5: Перелом в AI или PR-ход OpenAI? Производительность и Стоимость

7 августа 2025 года OpenAI представила GPT-5, новое семейство масштабных языковых моделей. Внутренние тесты компаний и независимые бенчмарки демонстрируют улучшение производительности по сравнению с GPT-4o и конкурентами, особенно в кодинге и финансовом анализе, при этом модель позиционируется как "очень дешевая".

17 жовтня 2025 р., 09:17
8 мин чтения

GPT-5: Истинный Перелом или Рекламный Ход? Обзор Производительности Самой Последней Модели OpenAI

Дебаты вокруг анонса GPT-5 от OpenAI накаляются с новой силой, находясь между утверждениями о революционной эффективности и скепсисом пользователей Reddit, уже выразивших недовольство. На фоне этого информационного шума возникает вопрос: может ли GPT-5 быть лишь очередным итеративным улучшением, или же это действительно прорыв, меняющий правила игры? Фактические данные и независимые бенчмарки проливают свет на эту проблему, показывая сложную картину заметных улучшений в ряде ключевых областей, но также подчёркивая сохраняющиеся нюансы в восприятии пользователями.

7 августа 2025 года OpenAI официально представила GPT-5 как новое семейство масштабных языковых моделей, отличающихся «инженерной устойчивостью, мультифункциональностью и управляемостью». В это семейство входят gpt-5-main (стандартная), gpt-5-main-mini (упрощённая), gpt-5-thinking («размышляющая»), gpt-5-thinking-pro (ускоренная для рассуждений) и gpt-5-thinking-nano (компактная для разработчиков). Ключевым элементом архитектуры является встроенный роутер, который автоматически выбирает наиболее подходящую модель для каждого запроса, стремясь оптимизировать производительность и эффективность.

Бизнес-приложения: Конкретные Улучшения в Реальных Сценариях

Компании, внедряющие искусственный интеллект в свои продукты, сообщают о заметных повышениях при использовании GPT-5 в сравнении с предыдущими моделями и конкурентами. Эти сведения, полученные из внутренних тестов, дают представление о практической применимости новой модели:

  • Банковские операции: В задачах сверки банковских выписок и извлечения данных о поставщиках GPT-5 продемонстрировала рост на 15-38 % по сравнению с GPT-4o. Это указывает на повышенную точность и эффективность в обработке структурированных финансовых данных.
  • Разработка программного обеспечения:
    • Code Review: Платформа Coderabbit.ai зафиксировала значительный рост pass rate при ревью PR, поиске ошибок и их исправлении: 77.3 % у GPT-5 против 26.7 % у Sonnet 4 и 44 % у GPT-4o.
    • End-to-End решение задач: Внутренние тесты Cognition (разработчика Devin) показали, что GPT-5 опережает Sonnet 4, особенно в задачах планирования, где её показатель выше на 7 %.
    • Внутренние бенчмарки: Windsurf на собственном бенчмарке Cascade SWE-Bench отметил рост примерно на 3-4 % по метрике pass@1 и около 12 % по pass@5 относительно Sonnet 4.
    • Кодинг-задачи JetBrains: Евгений Патеха из JetBrains сообщил об улучшении на 20-100 % против Claude в внутренних задачах по программированию на Java/Kotlin, Go и Rust, включая работу с закрытыми репозиториями.
  • Работа с документами и данными:
    • Извлечение бизнес-сущностей: Box.com зафиксировал рост в среднем на 5 % и на 9 % для длинных документов в задачах по извлечению бизнес-сущностей.
    • Excel: GPT-5 показала 88 % точности в задачах работы с Excel-файлами, тогда как Gemini и Sonnet 4 достигли 78 %.
    • Страховые формы: При заполнении страховых форм модель достигла 86 % против 78 % у Gemini.
    • Финансовые инсайты: В поиске финансовых инсайтов в документах GPT-5 продемонстрировала 83 % точности, опередив o3 (79 %), Gemini (65 %) и Claude (62 %).

Эти результаты, хотя получены из внутренних источников, подтверждают, что GPT-5 обладает ощутимыми преимуществами в специализированных и экономически значимых применениях, где точность и эффективность критичны.

Независимые Оценки: Производительность на Абстрактных Задачах

Помимо бизнес-приложений, GPT-5 также подтверждает своё лидерство в ряде независимых бенчмарков, измеряющих более абстрактные когнитивные способности:

  • Визуальное понимание физики (Visual Physics Comprehension): GPT-5 показала результат 66 %, обойдя Gemini (48 %) и Claude (39 %).
  • IFScale (составление ответов с ограничениями): В этом бенчмарке модель достигла более 90 % точности при работе с более чем 500 инструкциями в контексте, существенно превзойдя Gemini 2.5 (70 %).
  • Длинный контекст (до 100k токенов): На бенчмарке от Artificial Anlys, опубликованном всего 5 дней назад, GPT-5 заняла первое место с 76 % точности, в то время как Grok 4, Gemini и Claude показали 68 % и 66 % соответственно.
  • Бенчмарк Рината (бизнес-задачи): GPT-5 достигла 79.4 % в задачах средней сложности, опередив Gemini (74 %) и Claude 3.7 (71 %).
  • Livecodebenchpro-live (свежие задачи по программированию): Модель набрала рейтинг Elo в 2296, значительно выше показателя Gemini (1585).
  • WeirdML-v2 (13 новых задач): GPT-5 лидирует с 56.3 % точности, против 50 % у Gemini и 45.3 % у Claude 4 Sonnet.
  • Конфабуляции/Галлюцинации: GPT-5 продемонстрировала самый низкий уровень конфабуляций - 10.3 % по сравнению с 12.4 % у Gemini и 13.2 % у Sonnet, что свидетельствует о повышенной надёжности.

Особое внимание заслуживает тестирование безопасности, проведённое более чем за 9000 часов. GPT-5 получила статус «высокого риска» в вопросах биологической и химической безопасности, но остаётся более безопасной, чем конкуренты. Модель демонстрирует 99.9 % устойчивости к джейлбрейкам и 95.5 % отказа от самоповреждающего контента. При «небезопасном» запросе модель не просто отказывает, а аргументированно объясняет пользователю неверность задачи.

GPT-5 Pro: Лидер в абстрактном мышлении и оптимальность затрат

GPT-5 Pro заняла первое место среди всех проверенных frontier-LLM на закрытом бенчмарке ARC-AGI Semi-Private. Этот тест оценивает абстрактное рассуждение, стратегическое мышление и решение сложных задач. Примечательно, что, хотя экспериментальная версия o3-preview ранее показывала до 87.5 % точности на ARC-AGI-1, её вычислительная стоимость была значительно выше, что не позволило включить её в публичный рейтинг. Таким образом, GPT-5 Pro признаётся самой мощной из доступных и подтверждённых моделей в этой категории, подчёркивая стремление OpenAI к эффективности ресурсов.

Экономическая Эффективность и Доступность

Помимо улучшенной производительности, GPT-5 также выделяется своей ценой. Согласно OpenAI, модель позиционируется как «очень дешевая» - дешевле GPT-4o и решений Anthropic. Стоимость 1 млн входных токенов составляет $1.25, а 1 млн выходных токенов - $10. Кэширование теперь даёт 90 % скидку, тогда как ранее показатель составлял 50 %. Эти ценовые преимущества делают модель более доступной для широкого круга экономических задач.

GPT-5 уже доступна в ChatGPT для аккаунтов Pro/Plus/Team/Free с роутингом, а для Pro-подписчиков предоставлен неограниченный доступ к GPT-5 и GPT-5 Pro. Бесплатные пользователи получают доступ к reasoning-функционалу примерно 2-3 дня в неделю, после чего запросы перенаправляются на gpt-5-mini.

Устранение «Эффекта Бернулли» и архитектурные инновации

OpenAI утверждает, что GPT-5 решает так называемый «Bernoulli effect» - проблему случайного выбора пути рассуждения в LLM, который не всегда оптимален. Для этого применяются следующие механизмы:

  • Динамическая маршрутизация моделей: Роутер анализирует тип, сложность и глубину задачи, направляя запрос в одну из специализированных моделей (gpt-5-main, gpt-5-thinking, gpt-5-thinking-pro, gpt-5-mini).
  • Parallel Thought Sampling в GPT-5 Pro: Эта техника одновременно запускает несколько путей рассуждения и выбирает лучший результат, снижая вариативность ответов и зависимость от начального случайного выбора. В тестах это привело к уменьшению критических ошибок на 22 % по сравнению с обычной reasoning-моделью.
  • Chain-of-Thought Validation: Система проверяет логические цепочки рассуждения перед генерацией финального ответа, сравнивая их и отбрасывая слабые или противоречивые.
  • RLHF с контекстной оценкой reasoning: Обучение с обратной связью от человека сосредоточено на некорректных путях рассуждения, а не только на итоговых ответах, что позволяет модели избегать логических ловушек.

Выводы: Между Реальностью и Восприятием

Несмотря на скептицизм отдельных пользователей, выраженный в соцсетях, консолидированные данные из внутренних бенчмарков и независимых оценок убедительно указывают на значительный прогресс GPT-5 в разных сферах. Модель демонстрирует превосходство над предшественниками и конкурентами в задачах, связанных с обработкой естественного языка, программированием, финансовым анализом и даже абстрактным мышлением.

Однако, как отмечают некоторые аналитики, субъективное ощущение «деградации» может появляться даже при статистически значительном улучшении. Если GPT-4o давала правильный ответ в 30 % случаев, а GPT-5 - в 60 %, то в 35 % ситуаций пользователь всё равно может посчитать более ранний ответ лучшим. Это так называемый «эффект Бернулли» в контексте пользовательского опыта: даже при общем росте качества неизбежны моменты, когда результат новой модели кажется менее оптимальным для привычных сценариев. Жалобы от 1 % из 700 миллионов пользователей (то есть 7 миллионов), из которых 1 % решит их написать, всё равно дадут значительное число - 70 тысяч.

Совокупность доказательств на октябрь 2025 года указывает на то, что GPT-5 - это, действительно, существенный шаг вперёд. Его экономическая эффективность, архитектурные новшества и подтверждённая производительность в прикладных и абстрактных задачах делают его важнейшим игроком на рынке больших языковых моделей, готовым к широкому внедрению в корпоративной практике.

GPT-5 - это не просто эксперимент, а платформа, подготовленная к масштабному использованию в бизнесе, образовании и науке. Она мультимодальна, интегрирована в продуктивные сценарии, предельно точна (особенно в медицине, науке, программировании), а также безопасна и этически контролируема. Модель обучена на данных до октября 2024 года, что делает её одной из самых современных систем, способных учитывать свежие достижения.

Вопросы и ответы

GPT-5: Истинный Перелом или Рекламный Ход? Обзор Производительности Самой Последней Модели OpenAI
Бизнес-приложения: Конкретные Улучшения в Реальных Сценариях
Независимые Оценки: Производительность на Абстрактных Задачах
GPT-5 Pro: Лидер в абстрактном мышлении и оптимальность затрат
Экономическая Эффективность и Доступность
Устранение «Эффекта Бернулли» и архитектурные инновации
Выводы: Между Реальностью и Восприятием