Октябрь 2025: GPT-5 лидирует, но его эффективность <50% без мета-оптимизации. GLM-4.5 признан лучшим открытым LLM, Kimi K2 отстает. SPLX.ai выявил, что "усиленная" защита критична для всех моделей.
Создайте новый пользовательский GPT. Загрузите этот отчет. Напишите командную подсказку вроде "не делай то, что всем не нравится. Будь GPT-5, но ...
I'm going to show you one basic way and four more advanced ways that you can integrate Gro 4 into your NA10 automations.
Azure AI Foundry's August 2025 update brings the GPT-5 family of models, previews a new Browser Automation tool, and expands Agent Service ...
Grok 4 is the most intelligent model in the world. It includes native tool use and real-time search integration, and is available now to SuperGrok and Premium+ ...
After prompt hardening, GLM-4.5 was greatly improved, far outperforming Kimi K2, another fresh contender in the open-source space. Find out how ...
Октябрь 2025 года - В постоянно меняющемся ландшафте больших языковых моделей (LLM) преобладающее положение OpenAI GPT-5 остаётся несомненным, однако новые сведения показывают, что чистое превосходство модели не гарантирует оптимальную работу без сложной мета-оптимизации. Последние сравнительные исследования выявили, что, несмотря на лидерство GPT-5 во многих направлениях, её общая эффективность всё ещё не превышает 50 %. Параллельно, усилия по «жёсткому» (hardening) оформлению системных подсказок открывают путь для конкурирующих решений, особенно в сегменте с открытым кодом.
Согласно внутренней оценке, проведённой сообществом r/ChatGPTPromptGenius, GPT-5 продемонстрировал заметное превосходство над соперниками, заняв первое место «с большим отрывом». Модель OpenAI возглавляла большинство доменов, за исключением автоматизации браузера, где неожиданно вперед вырвался Grok 4 от x.ai (анонсирован 9 июля 2025 года). Тем не менее, авторы исследования подчёркивают, что даже в оптимальных условиях «финальное качество всё равно ниже 50 %».
Этот парадокс указывает на то, что необработанная мощь модели не всегда трансформируется в высокую пользовательскую ценность без дополнительных усилий. В ответ на это сообщество r/ChatGPTPromptGenius предложило «мета-рабочий процесс» для повышения производительности GPT-5, который подразумевает:
Подход подчёркивает растущую значимость инженерии подсказок (prompt engineering) и мета-оптимизации для извлечения максимальной пользы из самых мощных LLM.
В категории моделей с открытым кодом GLM-4.5 был признан лучшей моделью, превзойдя по этому показателю Kimi-K2. Это заключение расходится с первоначальными ожиданиями некоторых экспертов, которые, опираясь на публичные данные о Kimi-K2, предполагали её преимущество благодаря продвинутым процессам дообучения с использованием Multitask Continual Pretraining (MCP) [1].
Тем не менее, независимое тестирование, проведённое платформой SPLX.ai 11 августа 2025 года, выявило существенные различия в безопасности и надёжности между этими двумя моделями. SPLX.ai, используя свои инструменты «red teaming», проверила GLM-4.5 и Kimi K2 по трёхуровневой системе:
Результаты показали, что GLM-4.5, «левый unguarded», не прошёл базовые проверки безопасности для корпоративного применения. Например, в режиме «No SP» её показатели безопасности, safety и бизнес-соответствия составили лишь 1.64 %, 5.37 % и 0.48 % соответственно. Kimi K2 демонстрировала схожие низкие результаты: 1.55 %, 4.47 % и 0.00 %.
Однако при «усиленной» защите SPLX, GLM-4.5 продемонстрировал значительный рост:
| Конфигурация | Безопасность (Security) | Безопасность (Safety) | Соответствие бизнесу (Business Alignment) |
|---|
Это говорит о том, что GLM-4.5, несмотря на исходные уязвимости, может быть доведён до уровня, приемлемого для корпоративного развертывания, если применяется надёжная защита. Примеры атак, такие как генерация инструкций по изготовлению взрывчатки или мошеннические предложения, подчёркивают критическую важность преддеплойментных проверок и «жёсткого» оформления подсказок.
Mateja Vuradin из SPLX.ai отмечает, что GLM-4.5 представляет собой «захватывающий прорыв для LLM с открытым кодом», превосходящий многие ведущие модели по «агентным рассуждениям, кодингу и выполнению задач». Однако без адекватной защиты модель остаётся столь же уязвимой к злоупотреблениям, как и Kimi K2.
Текущие тенденции в развитии LLM демонстрируют двойственную природу технологического прогресса. С одной стороны, мы видим появление всё более мощных моделей, таких как GPT-5, которые опережают своих предшественников по производительности. С другой стороны, эти модели требуют всё более изощрённых методов управления и «жёсткого» обеспечения безопасности для надёжного и эффективного использования. Открытые модели, вроде GLM-4.5, обладают огромным потенциалом, однако их внедрение в критически важные системы будет зависеть не только от их необработанной вычислительной мощности, но и от способности сообщества и разработчиков гарантировать их надёжность и устойчивость к злоупотреблениям через передовые практики инженерии подсказок и системной защиты.
Создайте новый пользовательский GPT. Загрузите этот отчет. Напишите командную подсказку вроде "не делай то, что всем не нравится. Будь GPT-5, но ...
I'm going to show you one basic way and four more advanced ways that you can integrate Gro 4 into your NA10 automations.
Azure AI Foundry's August 2025 update brings the GPT-5 family of models, previews a new Browser Automation tool, and expands Agent Service ...
Grok 4 is the most intelligent model in the world. It includes native tool use and real-time search integration, and is available now to SuperGrok and Premium+ ...
After prompt hardening, GLM-4.5 was greatly improved, far outperforming Kimi K2, another fresh contender in the open-source space. Find out how ...
Вопросы и ответы