Logo

Яндекс Выпустил Крупнейший Датасет Yambda Для Исследований Рекомендательных Систем

Яндекс опубликовал YaMBDa – крупнейший датасет (4,79 млрд взаимодействий) для рекомендательных систем. Он базируется на обезличенных данных Яндекс Музыки и включает "is_organic" флаг, отличающий органические прослушивания; это новаторский шаг для индустрии.

22 червня 2025 р., 14:30
3 мин чтения

Российская технологическая компания Яндекс выложила в открытый доступ один из крупнейших в мире датасетов для исследований рекомендательных систем — YaMBDa (Yandex Music Billion-interactions Dataset). Новый ресурс содержит 4,79 миллиарда обезличенных взаимодействий пользователей сервиса Яндекс Музыка, что делает его уникальным по охвату и глубине среди публично доступных данных этого типа. Открытие такого объёма информации коммерческой платформой остается редким явлением в индустрии, традиционно характеризующейся жёсткими ограничениями на обмен пользовательскими данными как из соображений конфиденциальности, так и по бизнес-причинам.

Датасеты подобного масштаба играют ключевую роль в исследовании и развитии рекомендательных систем, обеспечивая необходимую базу для тестирования новых алгоритмов и сравнительного анализа технологий. До 2025 года расширенные открытые датасеты с качественной пользовательской историей доступны в ограниченном количестве, что подтверждают данные крупнейших научных публикаций в области RecSys. Существенную часть существующих открытых коллекций составляют размеченные вручную или искусственно сгенерированные данные, не полностью отражающие реальные поведенческие паттерны пользователей потоковых платформ.

Структура YaMBDa включает сведения о прослушиваниях, лайках, дизлайках — то есть так называемый неявный фидбэк — а также некоторые характеристики треков. Дополнительно присутствует флаг is_organic: он обозначает, было ли действие пользователя инициировано органическим способом или стало результатом работы системы персонализированных рекомендаций. Такое разделение критически важно для оценки эффективности современных рекомендательных алгоритмов, которые всё больше учитывают различие между органическим и подсказанным поведением.

Данные хранятся в формате Apache Parquet, что позволяет эффективно обрабатывать большие объёмы информации на распределённых вычислительных платформах. Разметка проведена с использованием глобального временного сплита: каждая строка данных фиксирует точное событие во временной последовательности, что способствует снижению риска некорректного использования информации о будущем (т.н. data leakage), часто возникающего при классическом методе Leave-One-Out. Таким образом, YaMBDa позволяет проводить более корректные эксперименты с временной динамикой пользовательских взаимодействий.

Вместе с датасетом Яндекс опубликовал набор базовых моделей (бэйзлайнов), включая MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA и SASRec. Это даёт исследователям и инженерам возможность сразу сравнивать свои алгоритмы с известными стандартами, экономя ресурсы на предварительной реализации типовых решений и обеспечивая воспроизводимость результатов.

Официальные анонсы и подробное описание структуры датасета доступны на Хабр и на платформе Hugging Face, где размещены сами данные и сопутствующий код.

Распространение YaMBDa может усилить темпы международных исследований в области рекомендательных систем, в том числе по направлениям обнаружения новых музыкальных предпочтений, оценке эффектов алгоритмических вмешательств и анализу масштабируемости моделей для потоковых медиа. В условиях растущей критики закрытости алгоритмов крупных IT-компаний и дефицита достоверных тестовых данных, ход Яндекса формирует важный прецедент в открытии исследовательских ресурсов глобальному сообществу.

Data Secrets

Исследователи Яндекса разработали и выложили в опенсорс YaMBDa — один из самых больших датасетов в области рекомендательных систем.

В нем 4,79 миллиардов обезличенных пользовательских действий на Яндекс Музыке. Для RecSys это редкость, так как качественных открытых датасетов в этой области дефицит. Тем более очень нечасто такие данные публикуют коммерческие платформы.

Структура YaMBDa (YAndex Music Billion-interactions DAtaset): внутри прослушивания, лайки, дизлайки (то есть неявный фидбэк), некоторые характеристики треков и флаг is_organic, который означает, было ли действие пользователя органическим или вызванным рекомендациями.

Файлы предоставляются в формате Apache Parquet с глобальным временным сплитом. Опять же, удобно, потому что в отличие от Leave-One-Out сохраняется глобальная временная последовательность и исключаются лики.

Допом к датасету идет набор бэйзлайнов (MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA, SASRec). Можно не реализовывать базу, а сразу сравнивать ваши алгоритмы с существующими метриками.

Хабр | Hugging Face

22 червня 2025 р., 14:30

Вопросы и ответы

Введение