Галлюцинации ИИ системны и связаны с долей единичных фактов (singleton rate) в данных; исследование OpenAI от сентября 2025 г. предлагает отказаться от бинарных оценок, поощряя «честность» моделей.
Основой для понимания этого феномена стала серьезная научная работа, опубликованная в сентябре 2025 ... Исследование OpenAI развеяло этот миф.
OpenAI's new research explains why language models hallucinate. The findings show how improved evaluations can enhance AI reliability, ...
Recent work illustrates that language models hallucinate in-part because they are optimised to be good test-takers under binary scoring schemes ...
Противоречивая природа галлюцинаций в больших языковых моделях (БЯМ) представляет собой не случайный сбой, а основной, предсказуемый эффект их внутреннего механизма обучения, как продемонстрировало исследование OpenAI сентября 2025 года. Этот вывод ставит под вопрос привычные методы оценки и открывает новые возможности для разработки действительно надёжных систем искусственного интеллекта. Пока пользователи продолжают полагаться на технологии, ожидая от них безошибочной точности, БЯМ показывают способность «лгать» убедительно, что имеет серьёзные последствия для бизнеса и широкого применения ИИ.
Согласно данным OpenAI, галлюцинации БЯМ не являются следствием технических недоработок или плохих данных. Они заложены в самой сути обучения и оценки моделей. Ключевым фактором, определяющим вероятность галлюцинаций, считается так называемый singleton rate - доля фактов в тренировочных данных, встречающихся лишь один раз. Если 20 % фактов в наборе являются единичными, модель будет галлюцинировать минимум в 20 % случаев, что делает проблему системной.
Примеры из исследования иллюстрируют это явление:
Эти ошибки делятся на два типа: галлюцинации, вызванные singleton rate (модель придумывает факты, которых почти нет в данных), и погрешности, возникающие из-за несовершенства внутренних моделей (модель не справляется с задачей, даже имея всю необходимую информацию). Примечательно, что DeepSeek-R1 с применением «цепочки рассуждений» (Chain of Thoughts) корректно справлялась с задачей подсчёта букв, подробно проговаривая процесс.
Критическую роль в усилении проблемы играет существующая система оценки ИИ:
Единственное исключение - WildBench, использующая 10-балльную шкалу, но даже там ответ «не знаю» (3-4 балла) оценивается ниже, чем галлюцинация с частичной правдой (5-6 баллов).
Калибровка модели - это соответствие между её уверенностью и фактической точностью. Базовая GPT-4 до обучения с подкреплением (RLHF) показывала высокую точность самооценки, имея ошибку калибровки всего 0.007. После RLHF калибровка ухудшилась: модель стала более уверенной, но менее точной. Этот факт дополнительно подтверждает системный характер проблемы.
| Тема / Эксперимент | Модель | Результаты и ключевые факты |
|---|
Для построения надёжных ИИ-систем, особенно в контексте БЯМ, требуется комплексный подход к оценке, включающий анализ релевантности ответа, соответствия запросу, точности, наличия галлюцинаций, контекстной уместности и метрик ответственности, таких как предвзятость и токсичность.
Сегодня в авангарде находятся оценщики, использующие сами БЯМ для проверки выходных данных других моделей. Одним из таких решений является G-Eval - фреймворк, применяющий GPT-4 для генерации и применения шагов оценки через цепочки рассуждений (CoTs). Prometheus, открытая модель на базе Llama-2-Chat, дообученная на 100 тысячах отзывов, сгенерированных GPT-4, также показывает сопоставимые возможности.
Prometheus отличается рядом особенностей:
Ключевым инструментом для реализации и выбора подходящего набора метрик служит библиотека DeepEval. Она предлагает наборы метрик, ориентированных на разные задачи и архитектуры, включая метрики для RAG-систем (Faithfulness, AnswerRelevancyMetric, ContextualPrecisionMetric, ContextualRecallMetric, ContextualRelevancyMetric), а также для дообучения моделей (Hallucination, Toxicity, Bias).
Примеры использования DeepEval:
Оценка токсичности и предвзятости с помощью G-Eval:
Важно отметить, что метрики, основанные на статистическом сходстве (BLEU, ROUGE, METEOR), а также модели NLI и BLEURT, обладают ограниченными возможностями в оценке семантики и контекста, что существенно снижает их эффективность для сложных выводов БЯМ.
OpenAI предлагает четырёхкомпонентный план для борьбы с галлюцинациями, требующий пересмотра самой парадигмы разработки и оценки ИИ:
Главный вывод OpenAI прост: перестать наказывать модели за честность и начать её поощрять. Организации, которые первыми внедрят эти принципы, получат конкурентное преимущество благодаря более надёжным ИИ-системам.
В ближайшие годы появятся новые метрики и тесты, измеряющие не только точность, но и «честность» моделей. Цель - создать архитектуры, где ключевая задача - оценка собственной уверенности, а не бесконечная генерация ответов. Модели научатся чётко различать «точно знаю», «предполагаю» и «не имею понятия».
В долгосрочной перспективе разовьются системы, работающие по принципу «проверь, потом говори», сверяя ответы с независимыми источниками и достоверно информируя о уровне надёжности данных. Это потребует фундаментального сдвига в мышлении: от стремления к «всезнающим» системам к разработке ИИ, осознанно действующего в пределах своих знаний.
Галлюцинации перейдут из загадки в решаемую инженерную задачу. Способность ИИ честно сказать «я этого не знаю» может стать ценнее, чем быстрая, но потенциально неверная генерация. Доверие пользователей к ИИ-системам, умеющим самокритику и честность, станет решающим фактором успеха.
Основой для понимания этого феномена стал серьёзный научный доклад, опубликованный в сентябре 2025 года компанией OpenAI - исследование «Why Language Models Hallucinate» (авторы: Adam Tauman Kalai, Ofir Nachum, Santosh S. Vempala, Edwin Zhang).
Примечание: оригинальная статья была опубликована здесь 9 сентября 2025 года, а также ссылается на материал о метриках оценки LLM от kucev на Habr от 16 января 2025 года, доступный по ссылке.
Основой для понимания этого феномена стала серьезная научная работа, опубликованная в сентябре 2025 ... Исследование OpenAI развеяло этот миф.
OpenAI's new research explains why language models hallucinate. The findings show how improved evaluations can enhance AI reliability, ...
Recent work illustrates that language models hallucinate in-part because they are optimised to be good test-takers under binary scoring schemes ...
Вопросы и ответы