Метаобзор показал: более 50% статей используют ошибочные метрики (вроде NDCG) для тестов RL в рекомендациях. RL оптимизирует долгосрочную награду; метрики из supervised learning не учитывают это влияние. Без онлайн-тестов оценка невозможна. Нужен пересмотр протоколов и фокус на бизнес-метрики.
5. Недостаточное тестирование после фиксов. Тестировщики иногда проверяют только конкретный баг, не учитывая, что его исправление могло ...
I am thinking of implementing unit tests for my RL algorithms to try to catch implementation mistakes and save me hours or days of wasted effort.
This fundamental difference makes RL suitable for a different class of problems than supervised learning.
Evaluating reinforcement learning (RL) algorithms involves a variety of metrics, each providing insights into different aspects of the algorithm's performance.
Влияние ошибочного тестирования моделей усиленного обучения в рекомендательных системах: Анализ наиболее распространённых проблем подхода
Системы на основе reinforcement learning (усиленного обучения, RL) в последние годы привлекли значительное внимание как наиболее перспективный подход к реализации рекомендательных платформ в таких сферах, как онлайн-торговля, социальные сети и сервисы потокового видео. Однако, как показывают систематические обзоры и свежие метаанализы, фундаментальное недопонимание базовых принципов RL остаётся широко распространённым среди исследователей, что существенно снижает достоверность и прикладную пользу результатов многих новаторских разработок.
Ключевая проблема — и, согласно недавнему метаобзору (см. исходную публикацию), она отмечается более чем в половине научных статей этой области, — состоит в ошибочном выборе метрик для тестирования RL-моделей. Основная ошибка заключается в применении метрик, заимствованных из supervised learning (обучения с учителем) — таких как NDCG (Normalized Discounted Cumulative Gain) и аналогичные показатели ранжирования — для оценки результатов RL-моделей в системах рекомендаций.
В RL агент — в данном случае алгоритм рекомендательной системы — обучается максимизировать некоторую целевую функцию (награду), прямо определяемую бизнес-метриками и отдачей от взаимодействия с реальными пользователями. Принципиальная особенность этого подхода состоит в том, что действия агента влияют не только на моментальный отклик (например, клик по ссылке), но и на долгосрочную траекторию пользователя в платформе, а также на структуру самого набора данных, который затем используется для обучения. В условиях отсутствия этого влияния RL-фреймворк фактически вырождается в задачу supervised learning, полностью теряя свои преимущества.
Сравнение RL-модели с обученными на кликах алгоритмами по метрикам вроде NDCG принципиально некорректно: RL-агент оптимизирует суммарную награду за более продолжительный период и может намеренно «жертвовать» краткосрочными выигрышами ради долгосрочных результатов. Превосходство RL-модели по краткосрочной метрике скорее говорит о слабости базовой supervised learning-модели, чем о силе самой RL-архитектуры.
Ряд работ предлагают привести к единому стандарту процесс верификации новых RL-подходов. Однако, как подчёркивают эксперты (см. дискуссию в авторском Telegram-канале), уже исходные экспериментальные протоколы и наборы метрик требуют пересмотра. Без тестирования в условиях реального онлайн-взаимодействия с пользователями невозможно корректно оценить долгосрочный эффект рекомендательного алгоритма, поскольку любые off-policy или offline-метрики неизбежно игнорируют то влияние, которое RL-агент оказывает на среду (пользовательское поведение и контекст).
Несмотря на широкое распространение подобных ошибок (в том числе в публикациях, где внедряются DQN-модификации с многочисленными дополнительными эвристиками), экспертное сообщество продолжает фиксировать неадекватные сравнительные оценки новых моделей, выполненные на устаревших или нерелевантных метриках. Результаты таких исследований зачастую оказываются или не воспроизводимыми, или не имеющими практической значимости для крупных коммерческих систем.
Авторитетные исследовательские коллективы призывают к повышению стандартов экспериментов, большей прозрачности в публикации кодов и конфигов и, главное, соблюдению фундаментальных принципов самого подхода reinforcement learning. Детальный анализ и критика текущего состояния методологии доступны по открытой ссылке в Telegram.
С учётом перечисленного, дальнейшее прогрессирование области RL в рекомендательных системах возможно только при осмысленном и корректном трактовании её задач — с доминирующим акцентом на измерения долгосрочных бизнес-метрик и моделировании реальных сценариев пользовательского поведения.
5. Недостаточное тестирование после фиксов. Тестировщики иногда проверяют только конкретный баг, не учитывая, что его исправление могло ...
I am thinking of implementing unit tests for my RL algorithms to try to catch implementation mistakes and save me hours or days of wasted effort.
This fundamental difference makes RL suitable for a different class of problems than supervised learning.
Evaluating reinforcement learning (RL) algorithms involves a variety of metrics, each providing insights into different aspects of the algorithm's performance.
Вопросы и ответы