新闻推荐(5):主流数据集介绍

本文通过MASR在ACL2020/上的心智数据集论文,介绍了新闻推荐中常用的一些数据集

(2013)通过收集发表在13德国新闻门户网站上的新闻文章和用户的点击日志,构建了Plista4数据集。它包含70,353篇新闻文章和65,438+0,095,323次点击。这个数据集中的新闻文章都是德语的,用户主要来自德语国家。

根据adreseavisen网站的期刊,Adressa数据是在10周内建立的,该网站有48486篇新闻文章,3083438个用户和27223576次点击事件。每个点击事件包含几个属性,如会话时间、新闻标题、新闻类别和用户ID。每篇新闻文章都与作者、实体和主题等详细信息相关联。这个数据集中的新闻文章是用挪威语写的。整个数据集分为两个不同尺度的版本。

综合来看,Adressa在内容上是最全面的,可以用于常规的新闻推荐、基于会话的推荐和基于知识图谱的推荐。

2018)建立了来自巴西热门新闻门户网站globo的新闻推荐数据集。这个数据集包含大约365,438+04,000个用户,46,000篇新闻文章和300万次点击。每个点击记录包含用户ID、新闻ID和会话时间等字段。最早在Kaggle平台开放,提供训练有素的新闻嵌入,不需要原始新闻文章信息。

它包含14180条新闻和34022个点击事件。每篇新闻文章用一个word id表示,不提供新闻原文。该数据集中的用户数量未知,因为没有用户ID。

如果觉得有用,请喜欢并关注。如果有兴趣推荐,欢迎评论区/私信交流~ ~ ~