Logo

GPT-5 vs. Человек: Как Новая Метрика ОИИ Измеряет Разрыв?

27% у GPT-4, 58% у GPT-5. Новая метрика на базе теории КХК измеряет когнитивную универсальность ИИ, но "зазубренные" профили показывают отставание в долгосрочной памяти.

17 жовтня 2025 р., 08:35
5 мин чтения

В условиях затяжной дискуссии о темпах развития искусственного интеллекта и его возможности достичь человеческого уровня познания, фундаментальное определение Общего Искусственного Интеллекта (ОИИ) остаётся нечетким. Отсутствие ясных метрик усложняет оценку реального разрыва между современными специализированными ИИ-системами и когнитивными способностями человека.

Новая метрика для ОИИ: Количественная оценка

Недавнее исследование, представленное на agidefinition.ai, предлагает новую количественную основу для определения ОИИ. Этот подход опирается на измерение когнитивной универсальности и профессионализма ИИ-систем в сопоставлении с образованным взрослым человеком. Методология исследования базируется на теории Кеттелла-Хорна-Кэрролла (КХК), признанной наиболее эмпирически обоснованной моделью человеческого познания.

Теория КХК, сформированная на основе работ Раймонда Б. Кеттелла, Джона Л. Хорна и Джона Б. Кэрролла, постулирует иерархическую структуру когнитивных способностей. Она состоит из трёх уровней:

  • Узкие способности (Stratum I): Конкретные навыки, такие как скорость чтения или дедуктивное мышление.
  • Широкие способности (Stratum II): Общие когнитивные домены, включая:
    • Постижение знаний (Gc)
    • Подвижный логический ход мысли (Gf)
    • Количественные знания (Gq)
    • Способность к чтению и письму (Grw)
    • Кратковременная память (Gsm)
    • Долгосрочное хранение и извлечение данных (Glr)
    • Визуальная обработка (Gv)
    • Слуховая обработка (Ga)
    • Скорость познавательной активности (Gs)
  • Общий интеллект (Stratum III): Единый фактор «g», объединяющий все когнитивные способности.

В рассматриваемом фреймворке интеллект делится на десять основных когнитивных доменов, включая рассуждение, память и восприятие. Для их измерения адаптированы уже существующие психометрические тесты, применяемые к людям. Эти тесты позволяют сформировать «когнитивные профили» ИИ-систем, выявляя их сильные и слабые стороны.

Неравномерный прогресс: «зазубренные» когнитивные профили ИИ

Применение данного фреймворка обнаружило явно «зазубренный» когнитивный профиль у современных моделей искусственного интеллекта. Хотя они показывают высокие результаты в областях, требующих глубоких знаний, текущие ИИ-системы явно отстают в базовых когнитивных механизмах. В частности, выявлено значительное отставание в долгосрочном хранении памяти.

Исследование приводит конкретные оценки ОИИ:

  • GPT-4: 27 %
  • GPT-5: 58 %

Эти цифры не только количественно подтверждают быстрый рост в сфере ИИ, но и наглядно демонстрируют существенный разрыв, который ещё предстоит преодолеть до появления полноценного Общего Искусственного Интеллекта.

Сравнение GPT-4O и GPT-5: Нюансы производительности

Несмотря на заявленный скачок в GPT-5, тщательный анализ показывает, что разница между этим поколением и его предшественником GPT-4o не всегда очевидна. Как отмечает Бегиныч на DTF в своём сравнении от 23 августа 2025 года, «пятёрка» ожидалась «намного умнее», однако «разница у новой модели едва уловима». Это подчёркивает сложность достижения прорывных улучшений, когда уровень развития уже высок.

Скорость и качество

  • Скорость: GPT-4o заметно опережает GPT-5 по скорости генерации текста, изображений и кода. Например, GPT-4o создал статью в четыре раза быстрее.
  • Качество текста: GPT-5 выдаёт более высокое качество текста, формируя более связные и детальные предложения, а также точнее следуя задаче пользователя. Тем не менее иногда наблюдается избыток сложных оборотов.
  • Генерация изображений: При простых запросах GPT-4o показывает лучший результат, создавая более чёткий текст и минимизируя визуальные ошибки. При создании инфографики с большим объёмом текста GPT-5 генерирует более продуманный и чистый визуал.

Функциональные аспекты

  • Вайбкодинг (создание приложений): GPT-5 явно превосходит GPT-4o, предлагая более проработанный интерфейс, логику приложения и уделяя внимание удобству пользователя (например, с помощью ховеров и лёгких цветовых палитр).
  • Поиск в интернете и ответы: Обе модели демонстрируют высокую точность, но GPT-5 проводит более глубокий фактологический анализ и предоставляет более информативные ответы.
  • Генерация идей: В этом параметре GPT-4o оказывается более эффективным, предлагая больше полезных идей по сравнению с GPT-5.
  • Аналитика (SWOT): GPT-5 собирает больше данных из свежих источников и представляет более развернутый и глубокий анализ, в отличие от более поверхностных и шаблонных отчётов GPT-4o.

Проблемы галлюцинаций и поиск источников

Обе модели сталкиваются с проблемой «галлюцинаций» и некорректного использования источников. В ходе теста, когда моделям было предложено отвечать, ссылаясь на актуальные источники 2025 года, GPT-4o указал четыре устаревших источника из десяти, а GPT-5 - восемь. Кроме того, GPT-5 четырежды использовал ссылки на Википедию, несмотря на запрет на этот ресурс. Это подчёркивает сохраняющуюся проблему надёжности и избирательности источников информации у ИИ-систем.

Как отметил Шайлендра Кумар в статье «AGI 2025: A Realistic Roadmap to Artificial General Intelligence» от 7 октября 2025 года, хотя полноценный ОИИ остаётся недостижимым, быстрые достижения в 2023-2025 годах переопределяют представления о возможностях ИИ. Он ссылается на GPT-5 от OpenAI, который, по его словам, обладает «уровнем рассуждений, сопоставимым с кандидатской степенью».

Заключение

Сочетание психометрических методов оценки с анализом реальной производительности ИИ-моделей позволяет точнее отслеживать прогресс в направлении ОИИ. Несмотря на значительные шаги вперёд, особенно с моделями типа GPT-5, наблюдается «зазубренность» когнитивных профилей и сохраняющиеся проблемы в фундаментальных областях, таких как долгосрочная память. Предложенный фреймворк служит важным инструментом для количественной оценки этих достижений и вызовов, обеспечивая более информированный диалог о будущем Общего Искусственного Интеллекта.

Вопросы и ответы

Введение
Новая метрика для ОИИ: Количественная оценка
Неравномерный прогресс: «зазубренные» когнитивные профили ИИ
Сравнение GPT-4O и GPT-5: Нюансы производительности
Скорость и качество
Функциональные аспекты
Проблемы галлюцинаций и поиск источников
Заключение