Яндекс опубликовал YaMBDa – крупнейший датасет (4,79 млрд взаимодействий) для рекомендательных систем. Он базируется на обезличенных данных Яндекс Музыки и включает "is_organic" флаг, отличающий органические прослушивания; это новаторский шаг для индустрии.
2025: Представление Yambda. Учёные Яндекса разработали и выложили в опенсорс Yambda - один из крупных датасетов для развития рекомендательных ...
Данные хранятся в формате Apache Parquet, который из коробки поддерживают библиотеки анализа данных на Python вроде Pandas и Polars. Для ...
The Yambda-5B dataset is a large-scale open database comprising 4.79 billion user-item interactions collected from 1 million users and spanning 9.39 million ...
We present Yambda-5B, a large-scale open dataset sourced from the Yandex Music streaming platform. Yambda-5B contains 4.79 billion user-item ...
Apache Parquet is an open source, column-oriented data file format designed for efficient data storage and retrieval. It provides high performance compression ...
Российская технологическая компания Яндекс выложила в открытый доступ один из крупнейших в мире датасетов для исследований рекомендательных систем — YaMBDa (Yandex Music Billion-interactions Dataset). Новый ресурс содержит 4,79 миллиарда обезличенных взаимодействий пользователей сервиса Яндекс Музыка, что делает его уникальным по охвату и глубине среди публично доступных данных этого типа. Открытие такого объёма информации коммерческой платформой остается редким явлением в индустрии, традиционно характеризующейся жёсткими ограничениями на обмен пользовательскими данными как из соображений конфиденциальности, так и по бизнес-причинам.
Датасеты подобного масштаба играют ключевую роль в исследовании и развитии рекомендательных систем, обеспечивая необходимую базу для тестирования новых алгоритмов и сравнительного анализа технологий. До 2025 года расширенные открытые датасеты с качественной пользовательской историей доступны в ограниченном количестве, что подтверждают данные крупнейших научных публикаций в области RecSys. Существенную часть существующих открытых коллекций составляют размеченные вручную или искусственно сгенерированные данные, не полностью отражающие реальные поведенческие паттерны пользователей потоковых платформ.
Структура YaMBDa включает сведения о прослушиваниях, лайках, дизлайках — то есть так называемый неявный фидбэк — а также некоторые характеристики треков. Дополнительно присутствует флаг is_organic: он обозначает, было ли действие пользователя инициировано органическим способом или стало результатом работы системы персонализированных рекомендаций. Такое разделение критически важно для оценки эффективности современных рекомендательных алгоритмов, которые всё больше учитывают различие между органическим и подсказанным поведением.
Данные хранятся в формате Apache Parquet, что позволяет эффективно обрабатывать большие объёмы информации на распределённых вычислительных платформах. Разметка проведена с использованием глобального временного сплита: каждая строка данных фиксирует точное событие во временной последовательности, что способствует снижению риска некорректного использования информации о будущем (т.н. data leakage), часто возникающего при классическом методе Leave-One-Out. Таким образом, YaMBDa позволяет проводить более корректные эксперименты с временной динамикой пользовательских взаимодействий.
Вместе с датасетом Яндекс опубликовал набор базовых моделей (бэйзлайнов), включая MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA и SASRec. Это даёт исследователям и инженерам возможность сразу сравнивать свои алгоритмы с известными стандартами, экономя ресурсы на предварительной реализации типовых решений и обеспечивая воспроизводимость результатов.
Официальные анонсы и подробное описание структуры датасета доступны на Хабр и на платформе Hugging Face, где размещены сами данные и сопутствующий код.
Распространение YaMBDa может усилить темпы международных исследований в области рекомендательных систем, в том числе по направлениям обнаружения новых музыкальных предпочтений, оценке эффектов алгоритмических вмешательств и анализу масштабируемости моделей для потоковых медиа. В условиях растущей критики закрытости алгоритмов крупных IT-компаний и дефицита достоверных тестовых данных, ход Яндекса формирует важный прецедент в открытии исследовательских ресурсов глобальному сообществу.
Исследователи Яндекса разработали и выложили в опенсорс YaMBDa — один из самых больших датасетов в области рекомендательных систем.
В нем 4,79 миллиардов обезличенных пользовательских действий на Яндекс Музыке. Для RecSys это редкость, так как качественных открытых датасетов в этой области дефицит. Тем более очень нечасто такие данные публикуют коммерческие платформы.
Структура YaMBDa (YAndex Music Billion-interactions DAtaset): внутри прослушивания, лайки, дизлайки (то есть неявный фидбэк), некоторые характеристики треков и флаг is_organic, который означает, было ли действие пользователя органическим или вызванным рекомендациями.
Файлы предоставляются в формате Apache Parquet с глобальным временным сплитом. Опять же, удобно, потому что в отличие от Leave-One-Out сохраняется глобальная временная последовательность и исключаются лики.
Допом к датасету идет набор бэйзлайнов (MostPop, DecayPop, ItemKNN, iALS, BPR, SANSA, SASRec). Можно не реализовывать базу, а сразу сравнивать ваши алгоритмы с существующими метриками.
2025: Представление Yambda. Учёные Яндекса разработали и выложили в опенсорс Yambda - один из крупных датасетов для развития рекомендательных ...
Данные хранятся в формате Apache Parquet, который из коробки поддерживают библиотеки анализа данных на Python вроде Pandas и Polars. Для ...
The Yambda-5B dataset is a large-scale open database comprising 4.79 billion user-item interactions collected from 1 million users and spanning 9.39 million ...
We present Yambda-5B, a large-scale open dataset sourced from the Yandex Music streaming platform. Yambda-5B contains 4.79 billion user-item ...
Apache Parquet is an open source, column-oriented data file format designed for efficient data storage and retrieval. It provides high performance compression ...
Вопросы и ответы