Logo

GPT-5 лидирует, но мета-подсказки решают: взгляд на новые рубежи LLM

Октябрь 2025 года - В постоянно меняющемся ландшафте больших языковых моделей (LLM) преобладающее положение OpenAI GPT-5 остаётся несомненным, однако новые сведения показывают, что чистое превосходство модели не гарантирует оптимальную работу без сложной мета-оптимизации. Последние сравнительные исследования выявили, что, несмотря на лидерство GPT-5 во многих направлениях, её общая эффективность всё ещё не превышает 50 %. Параллельно, усилия по «жёсткому» (hardening) оформлению системных подсказок открывают путь для конкурирующих решений, особенно в сегменте с открытым кодом.

Превосходство GPT-5: доминирование с оговорками

Согласно внутренней оценке, проведённой сообществом r/ChatGPTPromptGenius, GPT-5 продемонстрировал заметное превосходство над соперниками, заняв первое место «с большим отрывом». Модель OpenAI возглавляла большинство доменов, за исключением автоматизации браузера, где неожиданно вперед вырвался Grok 4 от x.ai (анонсирован 9 июля 2025 года). Тем не менее, авторы исследования подчёркивают, что даже в оптимальных условиях «финальное качество всё равно ниже 50 %».

Этот парадокс указывает на то, что необработанная мощь модели не всегда трансформируется в высокую пользовательскую ценность без дополнительных усилий. В ответ на это сообщество r/ChatGPTPromptGenius предложило «мета-рабочий процесс» для повышения производительности GPT-5, который подразумевает:

  1. Тщательный анализ слабых мест GPT-5: Составление отчёта о проблемах, которые «люди не любят в GPT-5», и возможных решениях через подсказки или обходные схемы.
  2. Создание специализированного GPT: Загрузка полученного отчёта в новый пользовательский GPT.
  3. Формирование командной подсказки: Инструкция модели «не делать то, что всем неприятно», с использованием найденных тактик и экстраполяций.
  4. Постоянная мета-подсказка: Перед выполнением задачи модель сначала генерирует оптимизированную, «исправляющую недочёты» GPT-5 подсказку, а затем применяет её.

Подход подчёркивает растущую значимость инженерии подсказок (prompt engineering) и мета-оптимизации для извлечения максимальной пользы из самых мощных LLM.

Открытый исходный код: GLM-4.5 лидирует, Kimi K2 отстает

В категории моделей с открытым кодом GLM-4.5 был признан лучшей моделью, превзойдя по этому показателю Kimi-K2. Это заключение расходится с первоначальными ожиданиями некоторых экспертов, которые, опираясь на публичные данные о Kimi-K2, предполагали её преимущество благодаря продвинутым процессам дообучения с использованием Multitask Continual Pretraining (MCP) [1].

Тем не менее, независимое тестирование, проведённое платформой SPLX.ai 11 августа 2025 года, выявило существенные различия в безопасности и надёжности между этими двумя моделями. SPLX.ai, используя свои инструменты «red teaming», проверила GLM-4.5 и Kimi K2 по трёхуровневой системе:

  • Без системной подсказки (No SP): Модель в «сыром» виде.
  • Базовая системная подсказка (Basic SP): Применение коротких инструкций по безопасности.
  • Усиленная системная подсказка (Hardened SP): Использование инструмента SPLX для автоматического усиления подсказок, снижающего уязвимости.

Результаты показали, что GLM-4.5, «левый unguarded», не прошёл базовые проверки безопасности для корпоративного применения. Например, в режиме «No SP» её показатели безопасности, safety и бизнес-соответствия составили лишь 1.64 %, 5.37 % и 0.48 % соответственно. Kimi K2 демонстрировала схожие низкие результаты: 1.55 %, 4.47 % и 0.00 %.

Однако при «усиленной» защите SPLX, GLM-4.5 продемонстрировал значительный рост:

Конфигурация Безопасность (Security) Безопасность (Safety) Соответствие бизнесу (Business Alignment)

Это говорит о том, что GLM-4.5, несмотря на исходные уязвимости, может быть доведён до уровня, приемлемого для корпоративного развертывания, если применяется надёжная защита. Примеры атак, такие как генерация инструкций по изготовлению взрывчатки или мошеннические предложения, подчёркивают критическую важность преддеплойментных проверок и «жёсткого» оформления подсказок.

Mateja Vuradin из SPLX.ai отмечает, что GLM-4.5 представляет собой «захватывающий прорыв для LLM с открытым кодом», превосходящий многие ведущие модели по «агентным рассуждениям, кодингу и выполнению задач». Однако без адекватной защиты модель остаётся столь же уязвимой к злоупотреблениям, как и Kimi K2.

Заключение

Текущие тенденции в развитии LLM демонстрируют двойственную природу технологического прогресса. С одной стороны, мы видим появление всё более мощных моделей, таких как GPT-5, которые опережают своих предшественников по производительности. С другой стороны, эти модели требуют всё более изощрённых методов управления и «жёсткого» обеспечения безопасности для надёжного и эффективного использования. Открытые модели, вроде GLM-4.5, обладают огромным потенциалом, однако их внедрение в критически важные системы будет зависеть не только от их необработанной вычислительной мощности, но и от способности сообщества и разработчиков гарантировать их надёжность и устойчивость к злоупотреблениям через передовые практики инженерии подсказок и системной защиты.

Вопросы и ответы

GPT-5 лидирует, но мета-подсказки решают: взгляд на новые рубежи LLM
Превосходство GPT-5: доминирование с оговорками
Открытый исходный код: GLM-4.5 лидирует, Kimi K2 отстает
Заключение