java新闻网站算法研究

(一)算法伦理的研究

1.算法内涵的定义。算法源于数学,但现代算法远不止传统数学的计算范畴。算法通常被理解为计算机用来解决问题的程序或步骤,是现代人工智能系统的运行支柱。计算主义:新的世界观(李建辉等人,2012)将算法定义为可行的方法。在外界的常识中,所谓算法就是一套可以感觉到的运算规则。该规则的特点是运算时间有限,计算步骤有限,输入结果准确。它是一个机械的步骤或者是一个可计算的程序。这个定义指出了算法应该具备的两个基本属性——有限性和有限性。从计算的角度看世界(李,2016)从信息传播的角度解读算法,认为算法本质上是一种信息处理方法。

2.算法伦理研究

伦理与道德价值、真理和判断有关。存在于自然界和社会中的人,在行为上应该遵循一定的伦理规范。伦理的作用应该导向善。伦理学注重对个体存在、个体自由、公平正义以及组织和群体的延续和发展的尊重。在一定程度上,今天的人类社会已经不能没有智能算法系统来运转了。

算法无时无刻不在影响着世界,所以算法必然会触及伦理。何(2017)曾指出,算法系统在人类社会生活中的广泛应用,会陷入许多人类面临且无法回避的伦理困境。但当算法与伦理联系在一起时,一般认为会引出两个伦理问题:职业伦理和技术伦理。

职业道德主要与算法系统的开发者有关,也就是说开发者是开发算法系统的行动者,具有人格价值观和伦理道德,所以算法系统从一开始就会掺杂设计者的主观道德。设计者开发一个算法系统的目的,以及设计者对不同问题的伦理态度,都会在算法系统的运行中体现出来。

技术伦理是一种算法体系,在某种意义上可以称之为一种科学技术。这种技术本身和它的运行结果都会负载着伦理价值。事实上,在某些情况下,职业道德和技术道德并没有明确的划分。刘泽源和王国玉已经讨论过这一点。

本文试图从技术伦理的角度对算法的伦理问题做深入的研究。

(二)网络新闻传播的算法伦理研究

算法与技术的融合在网络新闻传播领域持续运用,从数据新闻到机器写作,从算法推送到舆情分析,国内新闻媒体领域的机器新闻及相关研究也在逐步发展。在《机器新闻写作:一场正在进行的革命》(2014)中,作者更早关注的是基于算法的新闻内容的生产和编辑。相信在自动化新闻生产大发展的前提下,劳动密集型的基础工作和新闻制作或发行等环节将被技术取代。在《从比特到人工智能:数字新闻生产的算法转向》(2017)中,Juck Zhang和钟欣认为算法正从比特形式走向人工智能阶段,使得数字新闻与传统新闻的界限更加清晰,推动了数字新闻生产的转型。胡在《智能算法推荐的伦理风险及防范策略》中从算法推送方面总结了对新闻价值观的负面影响;以及新闻的公共性、客观性和真实性的弱化;来自受众:将详细讨论信息茧现象和受众的知情权与被遗忘权;从社会影响方面,论述了对社会群体、社会领域和社会文化的负面影响。

根据上述文献可以看出,目前国内对网络新闻传播算法伦理的研究主要集中在新闻格式算法伦理失范的相关问题上,因为相对于其他失范问题更容易发现。但是,目前国内对网络新闻传播算法伦理的研究还存在一些不足:国内对网络新闻传播算法伦理和算法伦理的研究还处于起步阶段,尚未出现相对成熟的系统研究;算法开发者和平台的责任机制研究相对薄弱。总的来说,需要继续加强对算法推送新闻伦理问题的研究。

2.新闻推荐算法的兴起、发展及原理。

2.1新闻推荐算法的兴起

随着计算机技术的信息处理维度越来越高,信息处理能力也在不断提高。算法技术可以从大数据中筛选出用户最关注、最感兴趣的信息,改变了原有的新闻信息传播模式,重塑了新的媒体生态和传播格局。

另一方面,在人人都可以生产信息的背景下,信息生产、传播、反馈的速度呈几何级数增长,用户面对的信息越来越多。由于设备的限制和信息量的巨大,用户无法专注于自己感兴趣的东西,无法及时抓取有用的信息,于是出现了“注意力经济”。美国经济学家迈克尔·戈德海默(1997)认为,当今社会是一个信息极其丰富甚至泛滥的社会,互联网的出现加速了这一进程。信息不是稀缺资源,而是过剩。相对于过剩的信息,只有一种资源是稀缺的,那就是人的注意力。换句话说,信息不能一味追求数量,也要有价值。价值在于用户对信息的关注。谁获得了用户的关注,谁就能有市场发展的空间。新媒体聚合平台通过“卖”用户的注意力,可以盈利,维持发展。此外,生活节奏越来越快,人们对信息和效率的要求越来越高,不想在自己不感兴趣的信息上浪费时间,因此用户获取信息的“个性化”特征变得明显。

基于这一背景,算法推送新闻的传播机制应运而生。用户不需要搜索自己需要的信息,但是海量的信息会自己“找到”用户,节省用户搜索时间,真正为用户提供有用的信息。

2.2新闻推荐算法的发展现状

算法推荐是基于用户数据为用户推荐特定领域的信息,并根据受众的反馈不断修正和完善推荐方案。目前使用算法推送的新闻机构主要有两类。一类是新型互联网新闻聚合平台,国内主要以今日头条、一点资讯等算法平台为代表,在中国新闻客户端市场占有极高的市场份额。张一鸣依靠大数据和算法向用户推荐信息,并提供连接人与信息的服务,从而创造了今日头条。算法会通过关键词等元素判断用户的兴趣爱好,从全网抓取内容,实现个性化推荐。国外以脸书、Instagram等平台为代表。这些app通过算法挖掘用户的数据,根据用户的个性化需求推送用户的新闻。另一类是专业新闻制作的传统媒体。为了积极应对新闻市场的竞争,提高技术水平,向新闻全媒体平台转型,比如中国的人民日报。使用算法向国外用户推送新闻的传统媒体包括美国的美联社、华盛顿邮报和英国的BBC。他们用算法来监控受众的数量和他们的阅读行为,让他们的新闻报道更能被受众喜欢,增加用户的粘性。

2.2新闻推荐算法的原理

2.2.1新闻推荐算法的基本要素

算法推送有三个基本要素,即用户、内容和算法。用户是算法推送系统的服务对象。对用户的理解和认知越透彻,内容分类方法就越准确有效。内容是算法推送系统的基本生产资料,各种传播形式的分析、组织、存储和分发需要科学的手段和方法。算法是技术支撑,是算法推送的核心。系统中大量的用户无法独自匹配庞大的信息量,所以我们需要一个推送算法来连接用户和内容,在用户和内容之间起到桥梁作用,高效地将合适的内容推荐给合适的用户。

2.2.2新闻推荐算法的基本原理

算法推送的出现需要两个条件:充足的信息源和准确的算法框架。其中,算法的内容生产来源与信息分发的最终效果息息相关:是否有足够的信息可供抓取,信息的质量是否足以让用户满意,都会对信息的传播效果产生影响。同时,分发环节也在走回头路,改变着整个传播的生态。目前国内新闻传播领域使用的算法推送主要有三种类型——协同过滤推送、基于内容推送和关联规则推送。

协同过滤推送分为基于用户的协同过滤和基于模型的协同过滤。前者主要考虑用户之间的相似度。只要找出相似用户喜欢的新闻文章类别,预测目标用户对这篇文章的喜欢程度,就可以向用户推荐其他文章。后者类似于前者。不同的是,这个时候,我们转而寻找文章之间的相似性。只有找到目标用户对某一类文章的喜欢程度,才能预测相似度高的相似文章,并向用户推荐相似喜欢的相似文章。所以前者利用用户历史数据在整个用户数据库中寻找相似的推送文章进行推荐,后者通过用户历史数据构建预测模型,然后通过模型进行预测推送。

基于内容的推送是根据用户历史提取和过滤文本信息特征,生成模型,向用户推荐与历史条目相似的信息。其优点之一是解决了协同过滤中数据稀缺时无法准确判断分布的问题。但如果只是长期基于用户的历史数据进行信息推荐,就会造成过度的个性化,容易形成“信息茧房”。

关联规则推送是基于用户历史数据挖掘用户数据背后的关联,从而分析用户的潜在需求,推荐用户可能感兴趣的信息。基于该算法的信息推荐过程主要分为两步。第一步,根据当前用户阅读过的内容,推断出用户可能感兴趣的内容。二是将内容按照规则的重要程度进行排序,展示给用户。关联规则推送的效果取决于规则的数量和质量,但随着规则数量的增加,对系统的要求也会提高。

2.2.3算法推送的实现过程

在信息过载的时代,同一个新闻话题有很多同质化的报道,所以需要在发布前对新闻内容进行淘汰,淘汰后的新闻内容会等待推送。这时候有三类推送:开始推送、扩展推送、限制推送。

第一种是开始推送,先精准推送用户,即第一时间向用户推荐自己订阅账号的更新内容;然后根据用户的历史浏览数据,将相似的文本特征进行分类,推送给其他用户;最后推荐给类似关注用户的人。第二种扩展推送是指系统会自动筛选出点击率和阅读时间明显高于平均水平的新闻内容,推荐给更多的人。但是在扩展推荐的过程中,系统会根据用户的反馈做出调整。三是限制推送,即点击率和阅读时间明显低于平均水平的新闻内容会被系统自动筛选出来抑制推送,此类内容会被缩小范围。

3.“今日头条”新闻推荐算法分析

今日头条是国内的一个资讯媒体聚合平台,每天有超过654.38+0.2亿人使用。从“你在乎的是头条!”今天的“信息创造价值!”产品口号的改变也意味着今日头条正逐渐摆脱过去单一粗暴的流量思维,开始注重人与信息的连接,在推动信息高效精准传播的同时,注重正确的价值引导。

2018年初,“今日头条”资深算法架构师曹欢欢博士在一次分享交流会上披露了其算法的运行原理。他在叙述中非常详细地介绍了“今日头条”的算法推荐系统概况,以及算法推荐系统的工作原理。

曹欢欢博士3.1.1-1今日头条算法建模

上图用数学形式化的方法描述了“今日头条”的算法推送,其实是一个可以得到用户对内容满意度的函数:即Y是用户对内容的满意度,、、徐是今日头条算法推送的三个维度:是用户,包括用户的性别、年龄、职业、兴趣标签,以及其他算法模型描绘的隐形用户偏好;Xc就是环境,这也是移动互联网时代新闻推送的特点。因为用户随时随地都在不断移动,移动终端也在移动,在不同的工作场所、出行等场景下,用户的信息推送偏好会有所不同;徐是内容,今日头条是信息聚合平台,内容形式多样。本章将基于该功能逐一分析今日头条的推荐算法。

3.1推荐维度之一:内容分析。

内容分析原本是指在第二次世界大战期间,传播学家拉斯韦尔和其他研究人员组织了“战士传播研究”的工作,以德国公开出版的战时报纸为研究对象,阐明报纸内容的本质事实和趋势,揭示隐藏的信息内容,获得大量军事秘密信息,并对局势发展做出情报预测。在“今日头条”中,内容分析是从文章和视频中提取关键元素,通过对文字和视频标题关键词的语义识别,对内容进行分类。“今日头条”的推送系统是典型的层次文本分类算法,帮助每条新闻找到合适的分类。比如第一大分类是政治、科技、财经、娱乐、体育等。,运动可以分为篮球、足球、网球等。,足球可分为中国足球和国际足球,中国足球最终可分为甲A、中超、国家队等。这一步是对文章进行分类,以便日后推荐给客户。

为了达到内容分析的效果,需要海量的内容信息为算法系统提供有效的筛选和分类。既然“今日头条”依靠算法推送新闻,那么背后的数据库必然强大。“网络蜘蛛”和“头条号”是支撑今日头条平台新闻来源的重要渠道,其新闻来源极其丰富,随时随地有新情况都能高效抓取信息。

第一个新闻来源是“网络蜘蛛”,也叫网络爬虫。头条使用了一个名为“Bytespider”的搜索引擎爬虫。它可以按照一定的规则自动抓取和抓取互联网的信息或脚本,就像蜘蛛通过蜘蛛网捕食一样。当它发现新的信息资源时,蜘蛛会立即发出抓取信息内容并将其放入自己的数据库。与微信的垂直搜索不同,Bytespider是一个全新的搜索引擎,可以抓取全网内容。因此,“今日头条”的搜索引擎功能全面,搜索资源广泛,资源包容性极强。

Bytespider信息抓取的基本流程如下:一、网页抓取。Bytespider沿着网页中的超链接从一个网站爬行到另一个网站,通过超链接分析不断访问和爬行更多的网页。捕获的网页被称为网页快照。因为超链接在互联网中的应用非常广泛,理论上,从一定范围的网页中,可以收集到大部分网页。第二步是处理网页。搜索引擎捕获网页后,要做大量的预处理工作,才能提供检索服务。其中,最重要的是提取关键词,建立索引数据库和索引。其他包括消除重复页面,判断页面类型,分析超链接,计算页面的重要性和丰富性。第三步是提供检索服务。用户输入关键字进行搜索,搜索引擎从索引数据库中找到与关键字匹配的网页。为了方便用户,除了网页的标题和网址,还会提供来自网页的摘要等信息。

第二个来源渠道是头条号。不同于“今日头条”,它是今日头条面向媒体、国家机关、企业、自媒体的专业信息发布平台。致力于帮助制作人在移动互联网高效获得更多曝光和关注。简单来说,头条号就是媒体在上面撰写、发布文章、视频后,在今日头条(包括今日头条极速版)平台展示。通过头条号后台,媒体可以看到具体文章的推荐量、阅读量、粉丝阅读量、评论量、转发量、收藏量。最后,通过这些可量化的用户阅读行为反馈,算法系统进一步向目标用户推荐内容。

3.2推荐维度2:用户分析

通过提取用户的有效数据进行用户分析,如用户经常浏览的文字类型、经常搜索的关键词、注册信息的内容等。,算法系统可以提取每个用户的浏览记录、浏览时间、评论、转发等行为的关键词,最终形成用户画像,以便后期向用户精准推送文章和视频。比如给喜欢看“运动”的用户贴上“运动”标签;给喜欢“娱乐”的用户贴上“娱乐”的标签。这一步的作用是对用户的兴趣进行建模,包括用户对文章和视频的整体受欢迎度、分类受欢迎度、主题受欢迎度和关键词受欢迎度。大推荐系统中的热点信息可以解决新闻冷启动的问题,帮助新闻推送。

用户分析还具有协同特性,可以在一定程度上帮助解决所谓算法越来越窄的问题。协同特征,即“联想式”推送方法,不仅考虑了用户的已有历史,而是通过用户行为分析不同用户之间的相似性,如点击相似度、兴趣分类相似度、主题相似度、兴趣词相似度,甚至向量相似度,从而扩展了模型的探索能力。根据用户之间计算数据的相似性,将用户划分为不同的目标群体,然后将他们感兴趣的新闻内容集中推送给目标群体。

内容分析和用户分析是相辅相成的。如果没有经过分析的文本标签,就无法获取用户兴趣标签,如果没有用户兴趣标签,就无法定位用户,实现精准推送。

3.3建议的第三个方面:环境分析

环境分析是根据文章的时效性和接近度推送给相应的用户,比如获取用户的当前位置是否在旅游区,这可以通过获取用户的实时位置来实现。它还会通过与用户之前经常出现的地方进行对比,不断确认当前状态,分析用户是在永久区域还是在旅行。此时,如果系统检测到有用户在泰山内及周边游玩,可能会推送泰山相关文章、周边交通新闻、天气信息等等。

通过以上三个推荐维度,可以作为数据依据,分析当前用户的环境,结合用户画像和文章的内容分类进行推荐,使推送的内容尽可能的有趣。通过内容分类、分析和提取,算法系统将消除文本相似度高的文章的重复,包括新闻话题和内容相似的文章,解决重复推送的问题,进一步向目标用户推荐精准、不重复的内容。最后,过滤低俗、色情内容,以免在平台上造成不良倾向。

3.4“今日头条”新闻推荐算法的价值取向

3.4.1“用户至上”

“今日头条”的算法推送是基于用户的立场,为了满足用户的个性化和推送的精准性。“今日头条”也重新衡量了新闻价值标准:以用户为导向,用户对新闻内容和阅读方式的满意是平台推送新闻的价值宗旨。传统媒体时代,只有报纸和电视要看观众想看的,现在“今日头条”是根据用户兴趣推送的。算法推送平台的用户范围很广,很多都热衷于关注负面。也有很多用户有偷窥和好奇心,喜欢无聊的八卦和无聊的新闻,在好奇心的影响下都有从众心理。这就使得制作方过度迎合观众,只要用户喜欢看,就可以发布在今日头条上。

3.4.2“面向算法”

“今日头条”更注重技术分发,制作者是用户,受众也是用户,内容的监管和分发难度很大。算法推送机制根据用户喜好进行推送,这样产生的内容速度快,无疑会加快内容分发的效率。在算法推送模型中,用户点击频率、阅读时间、点赞和评论以及转发都是算法时代可以量化的目标。对于这种情况下产生的内容,想要获得较大的点击率和推送率,就需要一个标题来吸引用户,因为用户在平台上一眼就能看到的就是标题和图片。标题和图片决定了用户是否会打开你的内容,导致很多内容生产者在编辑新闻标题时陷入标题党的怪圈,也导致低俗内容的呈现,通过制造冲突、制造悬疑标签来引导用户点击,意图将自己的文章做成爆款文章。对于海量信息内容,即使今日头条数据和智能推荐做得很好,目前也很难抵御海量垃圾信息。

4.算法推送新闻引发的伦理问题。

在当今互联网时代的传播思维中,“用户至上”、“算法领先”的新闻价值取向在算法聚合平台中已经普遍存在。算法推送技术作为吸引用户的手段,构建诱导媒体环境,增加用户对平台的粘性。与过去相比,算法推送技术在获取信息和传播速度上有了很大的进步,但同时,由于算法推送技术的加入,新的伦理问题也随之产生,并变得日益复杂。

4.1算法推送引发的伦理问题

4.1.1算法推送太机械化,没有思维能力。

单向算法推荐往往会给用户带来内容混乱、信息量过大、信息价值低等问题。从逻辑上讲,算法只是从关键词搜索和匹配上完成统计推荐,对于新闻报道或文学作品的艺术性和专业性内容,无法保证推送的质量。目前的算法主要基于匹配检索和统计,且多为个人关注的信息类型和标签,难以达到良好的推送效果。一千个人眼里有一千个哈姆雷特,但电脑只有一台。算法技术过于注重机械化统计,只根据关键词推荐用户,中国有深厚的汉字文化底蕴,推荐算法远远不够。整个新闻客户端看起来像菜市场,没有态度和风格,阅读体验单一,呈现碎片化特征。新闻不仅能让用户了解身边发生的新鲜事,还能促进积极的思想,传播正能量。新闻也应该带给人们新的思考。机器做出正确的判断很简单,但机器很难对心理学、社会学,甚至某个细分领域的规则做出判断,并正确引导观众。就像算法技术无法完成一篇充满人性、文学性、批判性的深度报道,止步于碎片化、表层化的传播范畴。

4.1.2容易造成“信息茧房”效应。

“信息茧房”的概念是基思·桑斯坦在《信息乌托邦》一书中提出的。意味着受众处于过度的信息自我选择中,会减少接触外界其他信息的可能性,从而把自己的生活局限在蚕茧般的“蚕房”里。人们的信息场会习惯性地被自己的兴趣所引导,信息的变窄会带来受众信息接收的单一,可能会使受众陷入循环,加剧受众信息的同质化。

互联网普及初期,受众主要从主流媒体和门户网站获取新闻信息,主流媒体能够保证新闻质量。对于其他信息的获取,由于技术限制,此时的茧房并没有被过度放大,受众对新闻有适当的自主选择性阅读。然而,在当今智能科技的互联网时代,情况发生了变化,信息茧现象越来越明显。当用户被标签化后,算法系统主动推送大量,让受众被动成为信息的接受者。用户的阅读兴趣并不能覆盖所有的知识领域。算法分发的核心逻辑是基于用户的行为数据进行精准推荐,但同时算法会自动过滤掉“不感兴趣”和“不喜欢”的信息,实现“看我想看的,听我想听的”。在这个过程中,由于算法技术的力量放大了用户的信息选择效果,进而将受众困在信息茧房中,受众很难凭借自身力量破茧而出,甚至会在不知不觉中遭受更多的负面影响。

4.1.3算法推送的“伪中性”

客观性和全面性是新闻伦理的基本要求,记者必须从良好的信息来源获得真实的信息,以客观的态度反映现实。我们以前认为互联网技术服务商是技术中立的,不需要承担约束大众媒体的社会责任。然而,当信息把关人、新闻编辑摇身一变成为算法工程师,传统的媒体伦理似乎已经失效。算法带有商业倾向,“中立”是算法平台逃避媒体责任的理由,对大众媒体造成传播混乱,更像是算法平台“胡作非为,不想负责”的诡辩。

算法平台的信息源经过筛选,“头条号”的内容占了“今日头条”整个信息系统的绝大部分。然而,在“人人都可以当记者”的时代,头条号平台是一个开放的网络媒体环境,存在大量的偏见和误解。无论是“今日头条”平台设置的算法规则,还是其他爬虫抓取的关键词,算法系统的很多信息源都是有目的的、有偏见的、非客观的信息,因此信息源无法直接作用于用户。因此,与传统的手工编辑相比,筛选算法系统的信息来源极其广泛,且难以核对。如果算法被恶意使用,整个通信系统就很容易被控制。

4.1.4算法推送中的“议程设置”

原始议程设置功能所揭示的重要内涵是:“虽然受众对新闻的看法受大众传媒议程设置功能的支配,但更深刻的是议程设置给大众传媒新闻带来的放大和延伸,使受众对新闻选择做出动态修正,并在满足需求和媒介依赖中逐渐培养潜在的认同感。”

推送算法技术在互联网平台的应用,改变了传统媒体主导的议程设置过程,议程设置功能随着传播权的转移、公众参与度的提高、信息量的剧增而逐渐弱化。以往传统新闻的内容都是由编辑有选择地报道后再呈现给观众,而个性化新闻推送则是让用户选择看哪些内容。在这一环节中,自然技术赋予了用户从传统媒体向平台用户下放传播权的权力,使得受众与社会的联系不再依赖于传统媒体,新闻媒体的把关人角色和议程设置功能正在弱化。

4.2算法新闻治理缺陷下的算法权利异化

算法作为人工智能的基石之一,是“一种有限的、确定的、有效的解决问题的方法,适用于计算机程序,是计算机科学的基础”。近年来,随着人工智能深度学习算法的巨大突破和大数据时代的到来,人工智能的应用场景不断拓展,人工智能时代正从想象逐渐成为现实。拥有深度学习算法的人工智能机器,借助海量大数据和强大计算能力的硬件设备,通过自主学习和强化训练,不断提升自身能力,解决许多人类无法有效应对的治理问题。随着人工能量算法在国家和社会治理中的重要性日益增加,国家和社会对算法的依赖也逐渐加深,一种新的权力形态——算法权力也随之出现。

算法权利可分为四类:数据主权、算法设计权、研发资本权和算法控制权。由于前三种权利都是单向的,算法开发者把权利交给算法,属于算法开发者,对算法分发平台呈现的效果没有直接影响,本文将重点讨论算法的控制权。

算法的控制权是双向的,用户是算法技术数据行为的提供者,同时又是算法技术控制的受害者。比如我们看到“今日头条”会通过推送算法监督用户的发布和浏览行为,平台通过算法决策系统实现内容的发布,引导用户。算法控制权当然是自然技术赋予的权利,但只有在用户提供数据的情况下才能实现。因此,算法控制权不仅有生产内容的权利,还有尊重和保护算法相对人的义务。

正因为如此,算法技术被认为是一把双刃剑。一方面,算法可以做出准确的行为预测,为管理者提供非常好的循环干预机制。对于公共行为者,可以通过大数据的应用解决社会治理问题,对于私人行为者,可以借助数据提供个性化、定制化的服务;另一方面,算法技术存在收益和风险不对称等问题,并且由于算法技术的高度发展,新技术的创造者拥有不对称的信息和技术优势,可以根据自身利益在平台上塑造算法推送逻辑和社会体系,带来了监管的不确定性。人们应该通过集体行为来承担社会责任,以这种方式规范算法权利,可以让我们更深入地思考算法分发制度的意义和价值。