电话:020-66888888
Yandex发布了全球事件数据集,以帮助开发推荐系
作者:365bet官网 发布时间:2025-06-01 10:02
Yambda,全球领先的推荐系统开放数据集Yandex启动了领先的推荐系统,该系统可用于推动全球的研发工作。此开放数据集包含通过Yandex音乐流服务在10个月内收集的47.9亿个身份不明的用户联系数据(收听,不喜欢)。该数据集包含匿名音频嵌入向量,自然接触标记和准确的时间戳,这些音频被支持进行真实的行为分析。引入了全局时间评估方法(GTS)以维持事件的顺序,并将基线算法用作参考。该数据集可在拥抱面平台上的三个尺度上获得:50亿,5亿个活动订单和5000万个活动订单,以满足各种的研发需求。 Yandex发布了YAMBDA(Yandexmusic亿万个Interactions DataSet,这是世界上最大的推荐系统开放数据集,其中包含来自用户的近50亿匿名交互式数据,以及来自其音乐流平台的音频跟踪NDEX音乐。 Yambda是全球领先的推荐系统开放数据集,Yambda可以Yambda可以用作测试推荐系统的新方法和算法的一般基准,适用于所有领域,适用于电子商务,社交网络和短视频培训等各个领域,使用建议和行业系统培训质量培训对网络,社交网络,简短的服务,简短的服务,诸如网络,简短的网络,简短的服务,以及网络,简短的网络,以及网络,以及网络,简短的服务,以及网络,简短的网络,以及网络培训。很难证明现代用途方案的复杂性:Spotify的播放列表数据集对于缺乏适当的文档和身份的商业级别系统而言很小,仅专注于AD。数据缺陷导致差距的出现:具有良好学业表现的模型在实际生活应用中的表现往往差。将推荐系统与高级建筑结合在一起也仅限于缺乏适当的培训数据。引言YAMBDA数据集提供的Yambda提供了来自音乐流服务的大量未知数据集,每月有2800万个活跃用户,从而解决了推荐系统面临的挑战。 DAT宣布这是用户与Yandex音乐平台的内容联系的方式,Yandex音乐平台以我的Wave高级推荐系统而闻名,该系统提供了自定义的聆听体验以适应每个用户的口味。为了保护隐私,所有用户数据和音轨都是匿名的,并且使用数字身份来遵守隐私标准。内容内容内容内容内容内容历史记录的主要特征:47.9亿未知的用户联系数据在10个月内收集。来自100万用户和身份不明的描述符的数据,有939万个音轨。反馈有两种类型:隐式联系人(听)和明确的联系(例如,不喜欢和注意)。提供有关音频传播向量的已知信息(V由卷积神经网络产生的Ector表示)和音轨。有一个“ is_organic”标记,可以识别用户是独立发现的音轨还是通过检测建议,从而有助于对行为进行更深入的研究。所有事件均已定时,从而支持用户行为的时机,从而使模型以更接近使用现实生活的方案的方式进行评估。该数据集以Apache Parquet格式发布,与Spark和Hadoop等共享处理系统以及熊猫和Polyrs等评估库兼容。 Nikolaisavush补充说:“ Yambda允许研究人员验证创新的假设,并使企业能够开发更智能的Systemsma建议。最终,用户将受益于轻松找到满足其需求的歌曲,商品或服务。”数据集版本提供并评估Yamba的三个量表:约50亿,5亿和5000万个活动订单以满足DiffereNT的需求和计算资源条件。 Listening to the number of likes of those who want Yambda-50m10,000934,05746,467,212881,456107,776yambda-500m100,0003,004,578466,512, 1039,033,9601,128,113yambda -5b1,0009,390,6234,649,567,41189,334,60511,579,579,143使用全球时间细分(GTS)进行审查将来无法使用数据的现实条件,并使模型测试更加现实。使用全球时间细分(GTS)的审查方案实施包括MospOp,DecayPop,ItemKnn,IALS,IALS,BPR,SANSA和SASREC,它为比较新推荐的系统方法提供了基准。这些理由由标准指标评估,包括:ndcg@k(质量分类)记住@k(获取影响)范围@k(差异-Bahas catal of CatalOG)“当行业领导者共享重要的工具和数据时,所有好处是:研究人员获得真正的基准,在BTHE World中创业可以享受更好和个人的体验,” Nikolaysavkin补充说。 Yambda是世界上最大的推荐系统开放数据集,现在已发布给Huggingface。
电话
020-66888888