俄罗斯搜索引擎巨头Yandex近日发布了全球最大的音乐推荐系统开源数据集Yambda,包含47.9亿条匿名用户与939万首歌曲的交互数据,覆盖2800万Yandex Music月度用户的行为记录。该数据集以Apache Parquet格式存储,并附带时间戳,可显著提升AI音乐推荐算法的准确性。
Yambda在Hugging Face平台提供三种规格的数据集,最大版本Yambda-5B需85GB存储空间,适合开发者研究或构建类似Spotify的智能推荐服务。目前,主流音乐平台鲜少公开推荐算法细节,而Yambda的开源或将为行业提供重要研究资源。