南风金融网 - 中原最权威行情财经门户

热门关键词:  缪学刚  www.ymwears.cn  xxx    
热门: 北大数字金融公开课内容回 对付勒索软件的利器:二级 还在为云存储掏冤枉钱?那 直播预告 | “经世微语课堂 中国个体经营户总量测算与 中国个体经营户研究系列报

【MLinEcon文献推送12】维基百科中的偏见会趋同还是极端化

来源:南风金融网 作者:南风金融网 人气: 发布时间:2020-03-03 09:07:45

原文信息



Greenstein, S., Gu, Y., & Zhu, F. (2016). Ideological segregation among online collaborators: evidence from Wikipedians (No. w22744). National Bureau of Economic Research.


推文作者|钟世虎(上海财经大学公共经济与管理学院博士研究生)




一、研究问题



当涉及有争议、非常主观或者不可验证的话题时,在线社区是否会将“有争议的知识”分离成不同的两个部分?作者检验了维基百科中有关美国政治问题的讨论,看贡献者是否有所偏颇,更民主亦或是更共和。民主党人和共和党人的观点差异请参阅:https://www.sohu.com/a/224286824_136745?


作者重点关注了两个问题:(1)贡献者是否和站点编辑人员保持了相似或者相反的政治倾向?(2)贡献者的极端或者中性的观点在站内是否会有所变化,这种变化是否又会随着时间改变了他们对于网站的贡献?




二、研究发现



结果显示:(1)尽管知识贡献者以及内容有很大的异质性,但总的趋势是隔离对话的减少;(核心结论一)(2)大部分的贡献者倾向于编辑与站点具有相反观点的文章,但其内容会随着时间变得更加中性而不是越来越极端;(核心结论二)(3)如果和观点不同的文章有更多交锋,则其观点更容易变得中性;(调节作用)(4)共和党人和民主党人也有一些显著差异。(异质性)




三、研究背景



首先,在线社区的发展模糊了读者和作者之间的界限,颠覆了我们对生成和消费在线内容过程的理解。这些社区会产生大量的合作和对抗行为。


其次,在线社区将来自于不同社会背景的参与者聚集在一起,他们有着不同的表达方法、文化和历史基础,进而产生大量不同的观点,这些不同的观点给在线社区带来了挑战(Arazy等,2011)。


最后,虽然许多研究都考察了在线社区解决观点对立问题的过程,但缺乏对此过程的定量分析,而这恰恰是最具挑战性的,例如涉及有争议的内容的辩论。


有争议的内容,作者将其简要定义为涉及主观的、不可证实的或有争议的信息使在线内容的创建和消费复杂化。




四、研究策略



(一)相关概念界定

1、内容倾斜度的定义及测量:

参照Greenstein和Zhu(2012年,2016年),将内容倾斜度定义为一个数值,以区间[-D,R]为界,D>0和R>0 。作者将内容中性点正规化为0。内容偏差是倾斜度的绝对值。我们以类似方式定义站点内容贡献者的倾向和偏见。


2、参与者观点倾斜度判定的一个简单模型:

参与者分为分两组:(1)一组参与者的意见介于[0,R]之间,另一组参与者的意见介于[-D,0]之间,他们之间有着不可调和的分歧(除了一小部分人持有“中立”的观点。这些观点建立在无法证实的事实和主观的基础上,信息和观点在面对对方时不会改变。(2)定义两组参与者标记为OD和OR的意见。OD包括区间[-D,0], OR包括区间[0,R]。(3)类似地,定义站内持有意见OR和OD的人数分别为NR和ND, N=NR+ND。


3、隔离对话的测量:

参照Greenstein和Zhu(2012年,2016年),作者的测量策略使用基于文本的关键字来测量倾斜度和偏差,这与基于引文的倾斜度测量方法形成对比,如Groseclose和Milyo(2005)。


他们计算站点文章的倾斜度是根据其是否引用媒体报道的的美国200个智囊团中相关观点,然后根据其引用的时间区分出参众两院的演讲。但是本文不能用这种方法,因为本文的分析考察的是维基百科上的部分文章,而这些文章中大多数没有引用这些智囊团的观点。


??(二)数据来源

参照Greenstein和Zhu(2016)开创的方法,作者开发了一个维基百科上的文章样本集。


作者关注的是定义广泛而包容的美国政治议题,包括所有维基百科文章,基于关键词“共和党”或“民主党”,从2011年1月16日开始,收集了维基百科上的111216条相关条目,删除无关条款和涉及非国家事件的条款,将其样本减少到70305条。


作者的样本涵盖了许多有争议的主题,从堕胎、枪支管制、外交政策和税收,以及相对较小的与历史、政治有关的争议,比如政治家传记等。类似地,作者也是从2011年1月16日开始,收集了对维基百科上的相关条目进行修改的历史数据,它包含了2891877位内容贡献者。


(三)变量设置

1、被解释变量:

编辑内容的倾斜度。维基百科上的每一篇文章都有一个修订记录,即预编辑和后编辑版本。作者计算编辑前后的倾斜指数,取两者之间的差异,用倾斜指数的差异作为由此编辑产生的倾斜度的改变。这样,我们就得到了每次内容编辑后倾斜度的变化。


为了识别来自同一贡献者的连续编辑,作者在所有分析中将编辑序列视为一个单独的编辑。这些连续的编辑往往是高度相关的,或者可能是一个完整的贡献,例如贡献者多次保存其修改的地方。


接下来,作者将重点放在作为分析单元的单个贡献者上。为了达到作者的研究目的,作者需要根据站点贡献者的网上政治立场来确定他们的偏见和倾向意识形态。为此,作者确定并衡量他们对维基百科所做的更改的类型。对于作者的数据中的每一次编辑,作者都考虑了预编辑和后编辑之间的差异文章的版本以确定此编辑的倾斜度更改。


作者首先对编辑进行分类,并为每个编辑指定一个倾斜度值。假设每个献者倾斜度的零值表示用户的编辑包含一组平衡的共和党/民主党的词汇或不包括倾斜度的短语。贡献者倾斜度的负值或正值表示贡献者的民主党倾向或共和党倾向。在作者的样本中,2,678,626个独立贡献者的贡献率为零,占总样本的92.6%,超过22.5万贡献者至少做出一个倾斜度的贡献。


按年度列出的贡献者倾斜度。在我们的第一个分析中,我们假设所有贡献者在他们的生命周期中有相同的政治倾向,在第二个分析中,我们放松了假设,即贡献者倾斜度会随时间发生变化。


在后一种方法中,我们按年度和按每次计算贡献者倾斜的方法相同,也就是说,我们计算贡献者在那一年内所做的所有次数编辑的更改带来的平均变化,即平均倾斜度。如果参与者的数值因为在过去的几年里,倾斜度保持不变,那么他或她的按年度列出的贡献者倾斜度等于贡献者倾斜度。


按年度列出的贡献者类别和贡献者类别。我们创建两个分类变量。基于贡献者倾斜度,我们创建贡献者类别,它的值为-1、0或1,以低于平均值、介于和之间的两个标准差来进行区分。类似地按年度列出的贡献者类别是贡献者类别的年度版本。


2、解释变量:

前文倾斜度和前文类别。前文倾斜度表示在特定的编辑之前该文章的倾斜倾斜度。这个变量用作解释变量来分析文章的与下一个投稿人的倾向度的关系。我们还创建了一个分类变量,对前面的文章进行分类,类似地,将以前的文章倾斜分类为-1、0和1分别表示低于平均值、介于平均值和高于平均值的偏差。


作出贡献的年份。对于我们样本中的每次编辑,会记录贡献者进行该编辑的时间。此时间变量用于分析贡献者的倾向度随着时间的推移而发生的改变。


3、调节变量:

所编辑文章的平均偏倚度。在数值上,一篇文章的偏倚度等于它的倾斜度的绝对值。所编辑文章的平均偏倚度是指贡献者所编辑的所有文章偏倚度的平均。此变量有助于衡量贡献者的在线经历,并帮助我们确定贡献者倾斜度的变化。


所编辑的极端文章的比率。我们使用这个变量来描述贡献者在在线体验期间与之互动的极端文章。极端文章的定义是如果偏离平均值超过两个标准差,则为极值。所编辑的极端文章的比率等于贡献者已编辑的极端文章数与贡献者编辑的文章总数之间的比率。有助于确定随着时间的推移,贡献者内容倾向偏见发生的变化。


4、控制变量:

上一篇文章长度和参考文献。除文章倾斜度外,还有其他一些随时间变化的文章特定特征,可能会影响稿件类型的选择。例如,较长的文章可能包含更多的观点,而这些观点反过来又倾向于以吸引更多的贡献者。


此外,维基百科要求从主要的第三方来源引用文章内容的参考(通常列在页面底部),因此参考文献也更有可能包含更多的外部论点或有争议的观点是时候了。具有这些特征的文章可能会吸引某些类型的贡献者。到为了控制这些影响,作者使用在某一编辑之前的文章,用之前的文章长度表示,作者测量本文的外部参考文献,由先前的参考文献表示。


编辑次数。与文章长度一样,贡献者的一些时变特征可能影响他们随时间的倾斜度变化。其中之一是到目前为止贡献者参与的编辑总数,因为做更多编辑次数的人可能会更多地受到在线内容的影响。作者将编辑次数定义为贡献者迄今所做的维基百科编辑总数。




五、主要回归结果表



表1:历年不同类型贡献者分布情况


表2:关键变量的描述性统计分析



表3:关于贡献者倾斜度和先前文章倾斜度之间关系的OLS回归


表4:关于贡献者倾斜度和先前文章倾斜度之间关系的OLS回归:核心贡献者与外围贡献者的差异


表5:关于贡献者类别和先前文章倾斜度之间关系的Logit回归


表6:多年来贡献者倾斜度变化程度的回归


表7:多年来贡献者倾斜度变化程度与先前文章倾斜度关系的回归


表8:参与讨论对多年来贡献者倾斜度变化程度的调节作用


表9:贡献者具有超过50%的概率转为中性观点所需的时间


表10:不同文章主题下民主党人和共和党人的异质性



表11:贡献者倾斜度与该地区共和党人比例的回归分析


表12:贡献者倾斜度与先前文章倾斜度之间的关系:仅考虑首次编辑



图1:贡献者编辑次数的分布


图2:维基百科中贡献者倾斜度变化的转换矩阵


图3:贡献者倾斜度随时间变化的转换矩阵


图4:对不同年份的贡献者进行Vintage分析


排? ? 版 | 石庆宇

审?? ?核 |?郭? ?峰

责任编辑:南风金融网

最火资讯

首页 | 财经资讯 | 金融理财 | 价格行情

Copyright © 2012-2015 南风金融网门户站 版权所有 Power by DedeCms 豫ICP备12016580号  技术支持:南风金融网

电脑版 | 移动版