acm-header
登录

ACM通信

评论文章

同行评审中的挑战、实验和计算解决方案


聊天的气球

图片来源:Creative Icon Styles;Andrij Borys同事

同行评议是科学研究的基石。尽管在今天相当普遍,但以目前的形式,同行评议只在20个国家中流行起来th世纪。同行评议着眼于评估研究的能力、意义和独创性。6它旨在确保质量控制,以减少错误信息和混乱4从而维护科学的诚信和公众对科学的信任。49它还有助于提高已发表研究的质量。17在论文数量众多的情况下,同行评议还有另一个作用:40“读者似乎害怕互联网的水管:他们希望有人选择、过滤和净化研究材料。”

回到顶部

关键的见解

ins01.gif

调查48多个科学领域的研究人员发现,同行评议受到大多数研究人员的高度重视。事实上,大多数研究人员认为,同行评议给已发表文章的学术严谨性带来了信心,并提高了已发表论文的质量。这些调查还发现,改善同行评议过程的愿望相当大,而且越来越强烈。

同行评审被认为是为“理性、公平和客观的决策制定机制”。17为此,必须确保评估“独立于作者和审稿人的社会身份,独立于审稿人的理论偏见和风险容忍度”。22然而,要实现这些目标,还面临着一些关键的挑战。下面是雷尼的话35总结了同行评审中的许多挑战:同行评议被吹捧为科学自我批判本质的证明。但这是一个人类的系统。每个参与的人都会带来偏见、误解和知识上的差距,所以没有人应该对同行评审经常是有偏见和低效的感到惊讶。它有时是腐败的,有时是一种伪装,是对剽窃者的公开诱惑。即使怀有最好的意图,同行评议如何以及是否能识别高质量的科学也是未知的。总之,这是不科学的。”同行评议中的问题所产生的后果远远超出了一篇具体论文或拨款申请的结果,特别是由于马太效应(“富人更富”)在学术界的广泛流行。

在本文中,我们将讨论上述挑战的几种表现形式、有助于理解这些问题和相关权衡的实验,以及文献中的各种(计算)解决方案。就具体而言,我们的论述集中在科学会议中的同行评审。讨论的大多数要点也适用于其他形式的同行评审,如评审拨款提案(用于每年授予数十亿美元的拨款)、期刊评审和组织中员工的同行评审。此外,这一主题的任何进展都将影响到各种应用程序,如众包、同行评分、推荐系统、招聘、大学招生、司法裁决和医疗保健。这些应用程序的共同主线是它们涉及到分布式人工评估:一组人需要评估一组项目,但每个项目都由一小部分人评估,而每个人只评估项目的一小部分。

回到顶部

审查过程概述

我们首先概述代表会议的审查过程。整个过程在一个被称为会议管理系统的在线平台上进行协调。同行评审过程中的每个参与者都有以下四个角色中的一个或多个:项目主席,协调整个同行评审过程;向会议提交论文的作者;审稿人,他们阅读论文并提供反馈和评估;还有元评审员,他们是评审员和项目主席之间的中介。

作者必须在预定的截止日期前提交论文。提交截止日期之后是“竞标”,审稿人可以表明他们愿意或不愿意审查哪些论文。然后,论文被分配给审稿人进行审阅。每篇论文都由少数(通常是三到六名)审稿人审阅。每个审稿人的论文数量因会议而异,从少量(人工智能领域的3到8篇)到几十篇不等。每个元审查员被要求处理几十篇论文,每篇论文由一个元审查员处理。

每个审稿人都被要求在规定的期限前为他们分配的论文提供评论。审查包括对论文的评价和改进论文的建议。然后,作者可以对评论进行反驳,澄清评论中的任何不准确或误解。审稿人被要求阅读作者的反驳(以及其他评论),并相应地更新他们的评论。然后,每篇论文的审稿人和元审稿人之间会进行讨论。基于所有这些信息,元审查员然后向程序主席推荐是否接受论文参加会议的决定。项目主席最终对所有论文做出决定。


同行评议的结果可以对作者的职业轨迹产生相当大的影响。虽然我们相信同行评审的大多数参与者都是诚实的,但不幸的是,风险可能会激励不诚实的行为。


虽然这一描述是许多会议(特别是人工智能领域的大型会议)的代表,但个别会议可能会有一些偏差。例如,许多较小规模的会议没有元审查员,最终的决定是通过整个审查员池和程序主席之间的面对面或在线讨论做出的。也就是说,本文的大部分内容都具有广泛的适用性。

回到顶部

不匹配的评论家的专业知识

审稿人对论文的分配决定了审稿人是否有必要的专业知识来审查一篇论文。一次又一次,作者对评论不满的首要原因是评论者的专业知识与论文不匹配。对于小型会议,项目主席可能自己分配评审员。然而,这种方法不适用于有成百上千篇论文的会议。因此,在大多数中等规模到大型的会议中,评审员的任务都是以自动的方式执行的(有时会进行一些手动调整)。在自动分配过程中有两个阶段。

计算相似性分数。分配过程的第一阶段涉及为每对审稿人的论文计算一个“相似度分数”。相似度评分年代p, r任何纸之间p和任何评论r是否有一个介于0和1之间的数字能够捕获评审人员之间的专业知识匹配r和纸p.相似度分数越高,评论的质量就越好。相似性是根据以下一个或多个数据来源计算的。

某些领域的选择。当提交一篇论文时,作者被要求注明论文所属的一个或多个主题领域。在评审过程开始之前,每个评审人员还指出他们的专业知识的一个或多个主题领域。然后,对于每一对审稿人,根据论文和审稿人选择的主题领域之间的交集量计算得分。

文本匹配。使用自然语言处理技术将审稿人以前的论文文本与提交的论文文本进行匹配。我们在这里总结了一些方法。929一种方法是使用语言模型。在较高的水平上,如果提交的论文的(部分)文本在假设的语言模型下出现在审稿人以前论文的语料库中的可能性更高,这种方法就会赋予更高的文本相似性得分。如果在提交的论文中(经常)出现的单词也经常出现在审稿人以前的论文中,那么这种方法的一个简单实例就会赋予一个更高的文本相似度分数。

第二种常用方法使用“主题建模”。每一篇论文或一组论文都转换为一个向量。这个向量的每一个坐标代表一个主题,该主题是以自动的方式从整个论文集中提取出来的。对于任何一篇论文,一个特定坐标的值表示论文的文本在多大程度上属于相应的主题。文本评分相似度是提交论文的向量与审稿人过去论文对应的向量的点积。

通过自然语言处理的进步来设计更精确地计算相似点的算法是一个活跃的研究领域。32

投标。许多会议采用“竞标”程序,向审稿人展示提交的论文列表,并要求他们表明愿意或不愿意审查哪些论文。示例投标界面显示在图1

f1.jpg
图1。投标的示例界面。

Cabanac和就7分析几次会议上审稿人的出价。在这里,随着每次评审,评审人员还被要求报告他们对评审的信心。他们发现,分配评审人员积极(愿意)出价的论文与评审人员对其评审报告的更高信心相关。这一观察结果表明,将论文分配给积极出价的审稿人的重要性。

许多会议在很大一部分提交的文件上缺乏充分的投标。例如,在2005年ACM/IEEE数字图书馆联合会议(JCDL)上提交的264份文件中,有146份没有正面报价。36机器学习领域的神经信息处理系统(NeurIPS) 2016年会议旨在为2425篇论文中每篇分配6名审稿人和1名元审稿人,但278篇论文最多收到2个正面报价,816篇论文最多收到5个正面报价,而1019篇论文从元审稿人那里得到0个正面报价。38

Cabanac和就7还发现了竞标过程中的一个问题。那里的会议管理系统给每一篇提交的论文分配了一个编号,称为“paperID”。然后,竞价界面根据论文id对论文进行排序,也就是说,每个审稿人在显示给他们的列表的顶部看到论文id最小的论文,然后增加论文id。他们发现,随着paperID值的增加,提交的投标数量通常会减少。这一现象可以用经过充分研究的序列位置效应来解释31人们更有可能与显示在列表顶部而不是列表下方的项目进行互动。因此,这种界面的选择会导致系统对分配的论文id值较大的论文产生偏见。

Cabanac和Preuss建议利用连续位置效应,通过将向任何审稿人展示的论文按已收到的投标顺序排序,来确保投标在论文中更好地分布。然而,这种方法可能会导致审稿人的高度不满,因为与审稿人的兴趣和专业知识相关的论文可能会排在列表的下方,而与审稿人无关的论文可能会出现在顶部。目前在会议管理系统中普遍使用的另一种排序策略是,首先使用其他数据源计算所有审稿人-论文对之间的相似度,然后按与审稿人相似度的递减顺序对论文进行排序。尽管这种方法解决了审稿人的满意度问题,但它并没有像Cabanac和Preuss那样利用序列位置效应。此外,与所有审稿人相似度适中的论文(例如,如果论文是跨学科的)不会被任何人显示在列表的顶部。这些问题激发了一种算法10它通过权衡审稿人的满意度(在顶部显示相似度较高的论文)和平衡论文出价(在顶部显示出价较低的论文),为每个审稿人动态地排序论文。

结合数据源。然后将上面讨论的数据源合并为一个单一的相似度评分。一种方法是使用特定的公式进行合并,例如年代p, r= 2bid-scorep, r(subject-scorep, r+ text-scorep, r)/4用于NeurIPS 2016会议。38第二种方法是让项目负责人尝试各种组合,观察产生的任务,并选择似乎最有效的组合。最后也是最重要的一点,如果有评论者r与某篇论文的作者有冲突吗p(也就是说,如果审稿人是论文的作者,或者是论文作者的同事或合作者),那么相似性年代p, r设置为-1,以确保该审稿人从未分配到这篇论文。

计算任务。第二阶段以最大化所分配的审稿人-论文对的相似度分数函数的方式分配审稿人。最流行的方法是最大化所有分配的审稿人-论文对的相似性得分总和:9

ueq01.gif

根据负载约束,每篇论文分配一定数量的审稿人,并且没有审稿人分配超过一定数量的论文。

这种最大化相似性分数总和的方法可能会导致某些论文的不公平。42作为说明这个问题的一个简单例子,考虑一个有三篇论文和六个审稿人的会议,其中每篇论文分配给一个审稿人,每个审稿人分配给两篇论文。假设相似点由左边的表格给出图2.其中{论文A、审稿人1、审稿人2}属于一个研究学科,{论文B、审稿人3、审稿人4}属于第二个研究学科,论文C的内容跨越这两个学科。最大限度地提高相似性分数的总和的结果是分配的阴影光/橙色在左边图2.注意,论文C的分配很差:所有分配的审稿人都是零相似度。这是因为这种方法使A和B两篇论文得到了更好的审稿人,而c篇论文则受到了影响。这种现象在实践中确实存在。这篇论文18分析了来自计算机视觉和模式识别(CVPR) 2017年和2018年会议的数据,其中有数千篇论文。分析表明,至少有一篇论文,该方法分配给所有审稿人的相似度分数为零,而其他分配可以确保每篇论文至少有一些合理的审稿人。

f2.jpg
图2。使用流行的和相似度优化方法(左)和更平衡的方法(右)在虚构的例子会议中分配任务。

的右边图2描述相同的相似度矩阵。浅/蓝色阴影的单元格描述了另一种分配。这种分配更加平衡:与之前相比,它分配论文A和B的审稿人的相似度较低,但论文C的审稿人的总相似度为1而不是0。这个作业是另一种方法的一个例子131842这对最差的论文进行了优化,因为它的审稿人的相似性是最差的:

ueq02.gif

然后,该方法为下一个最差的纸张进行优化,以此类推。评估1842在几次会议上表明,这种方法显著缓解了分配不平衡的问题,与最大化和相似分的方法相比,只适度降低了和相似分的值。

最近的工作还在审稿人的论文作业中纳入了各种其他的需求。23在做作业时出现的一个问题是不诚实的行为。

回到顶部

不诚实的行为

同行评议的结果可以对作者的职业轨迹产生相当大的影响。虽然我们相信同行评议的大多数参与者都是诚实的,但不幸的是,风险可能会激励不诚实的行为。我们讨论两个这样的问题。

孤独的狼。会议的同行评审是竞争性的,也就是说,大致预先确定的提交论文的数量(或部分)被接受。此外,许多作者也是审稿人。因此,审稿人可以通过操纵其他论文的评论(例如,提供较低的评分)来增加自己论文被接受的机会。

Balietti等人的对照研究。3.考察了竞争同行评审参与者的行为。参与者被随机分为两种情况:一种情况下,他们自己的评审不会影响他们自己的工作结果,另一种情况下,他们的评审会影响他们自己的工作结果。Balietti等人观察到,后一组给出的评分明显低于前一组。他们的结论是:竞争刺激审稿人的策略性行为,降低了评价的公正性和审稿人之间的共识。研究还发现,这种战略评审的数量会随着时间的推移而增加,这表明同行评审存在报复循环。

这激发了“策略正确性”的要求:任何审稿人都不能通过操纵自己提供的审稿来影响自己提交的论文的结果。一种简单而有效的确保策略安全性的方法叫做基于分区的方法。1基于分区的方法的关键思想在图3.考虑“作者身份”图图3一顶点由提交的论文和审稿人组成,如果审稿人是该论文的作者,则在论文和审稿人之间存在一条边。基于分区的方法首先将审稿人和论文分成两个(或更多)组,这样任何论文的所有作者都与论文在同一组(图3 b).然后将每篇论文分配给另一组的审稿人审阅(图3 c).最后,任何小组对论文的决定都独立于其他小组(图3 d).这种方法是无策略的,因为任何审稿人的评论只影响其他组的论文,而审稿人自己的论文属于同一组。

f3.jpg
图3。基于分区的策略验证方法。

基于分区的方法主要是在同类评分设置的背景下研究的。在同侪评分中,可以假设每一篇论文(作业)是由一个审稿人(学生)写的,每个审稿人写一篇论文,就像在图3.会议的同行评议更为复杂:论文有多个作者,作者提交多篇论文。因此,在会议同行评审中,甚至不清楚是否存在分区。即使存在这样一个分区,对分配的基于分区的约束也会导致分配质量的大幅降低。关于在会议同行评议中实现分区方法的问题还有待解决,初步结果很有希望51表明这种划分在实践中确实存在,作业质量的降低可能不会太大。

联盟。最近的几项调查发现了同行评审中的不诚实联盟。2446在这里,审稿人和作者达成了共识:审稿人操纵系统,试图分配作者的论文,然后接受分配的论文,而作者可以在同一个会议上或其他地方提供交换条件。可能有超过两个人之间的联盟,一群审稿人(他们也是作者)非法地推动彼此的论文。

防范这种行为的第一道防线是利益冲突:人们可能会怀疑,共谋者可能彼此非常了解,也共同撰写了论文。那么,将之前的合作作者视为利益冲突,并确保不将任何论文分配给与作者有冲突的审稿人,似乎可以解决这个问题。事实证明,即使同谋者合作,他们也可能不遗余力地促成不诚实的行为:46“有一个由几十位作者组成的聊天群,他们分成几个小组,研究共同的主题,小心翼翼地确保彼此不与他人合著任何论文,以避免出现彼此的冲突列表(甚至在某种程度上,即使有合作,他们也会自愿放弃一篇论文的作者身份,以防止未来多篇论文发生冲突)。”


关于作者身份的偏见在计算机科学中被广泛争论。


第二道防线针对的是两个或两个以上的审稿人(他们也提交了自己的论文)旨在审查彼此论文的攻击。这推动了分配算法的设计14附加的约束是不允许作业中出现任何循环,也就是说,确保不给两个人分配彼此的论文。这种防御可以防止共谋者在同一地点进行交换。然而,这种辩护可以被避免形成循环的合谋者所绕过,例如,在某个会议上,审稿人帮助作者,而作者在其他地方进行回报。此外,据发现,在某些情况下,作者向特定的审稿人施压,要求分配并接受论文。19这条防线并不能防止在会议内部没有交换条件的情况。

第三道防线是基于这样一种观察:同行评审的竞标阶段可能是最容易操纵的:通过有策略的竞标,审稿人可以显著增加被分配到他们可能瞄准的论文的机会。1650这建议减少或审计投标,这一方法在本文中得到了遵循。50这项工作使用来自所有评论者的出价作为标签来训练一个机器学习模型,该模型基于其他数据来源预测出价。这个模型可以用来作为分配的相似点。因此,它通过降低与剩余数据显著不同的出价来减轻不诚实行为。

不诚实的串通也可以在没有操纵报价的情况下执行。例如,审稿人/论文的主题领域和审稿人简介可以被战略性地选择,以增加分配目标论文的机会。

安全研究人员已经证明了论文分配系统容易受到攻击,作者可以操纵他们提交的论文的PDF(可移植文档格式),以便指定特定的审稿人。27这些攻击在提交论文的PDF中插入文本,其方式满足以下三个属性:插入的文本与目标审稿人论文中的关键词匹配;人类读者看不到这些文本;这些文本由(自动化的)解析器读取,解析器计算提交的论文和审稿人过去的论文之间的文本相似度得分。这些属性保证了串通的审稿人-论文对的高度相似度,同时确保没有人类读者发现它。这些攻击是通过针对嵌入在PDF中的字体来完成的,如图4.对计算机通信国际会议(INFOCOM)上使用的审稿人分配系统的经验评估证明了这些攻击的高效率,能够使论文与目标审稿人相匹配。在实践中,可能有恶意参与者使用的其他攻击超出了程序主席和安全研究人员迄今检测到的范围。

f4.jpg
图4。通过在提交论文的PDF中嵌入字体来攻击作业系统。27

在某些情况下,合谋审稿人可能会自然地被分配到目标论文,而不需要对分配过程进行任何操作:46“他们在提交论文前交换论文,然后要么出价,要么凭借对论文主题的专业知识被分配评审彼此的论文。”

最后的防线16这里讨论的没有对操纵的性质做任何假设,而是使用随机分配来减少参与者进行这种不诚实行为的能力。在这里,程序主席指定0到1之间的值。随机分配算法选择可能的最佳分配,但约束条件是分配任何审稿人给任何论文的概率不超过该值。分配概率的上限导致独立审查员被分配到任何论文的可能性更高,无论不诚实审查员的操作方式或规模如何。自然地,这样的随机分配也可能排除了具有适当专业知识的诚实审查员。因此,程序负责人可以在运行时通过检查随机化数量和分配质量之间的权衡来选择概率值(图5).该防御在人工智能进步(AAAI) 2022大会上使用。

f5.jpg
图5。权衡任务的质量(相似性之和)y-axis)与随机数(由程序椅子上指定的值x-axis)以减少不诚实的联盟。16

最近对不诚实行为的发现也提出了处理这种行为的法律、政策和伦理方面的重要问题:项目主席应该如何处理可疑行为,以及什么构成适当的惩罚?引起广泛争论的一个案例是ACM的一项调查,该调查禁止某些犯罪当事人在数年内参加ACM的场馆,而不公开所有犯罪当事人的姓名。此外,一些会议只对发现作者沉溺于不诚实行为(包括公然剽窃)的论文施加拒绝的惩罚。这引发了对缺乏透明度的担忧,有过错的一方可能仍会参加其他会议,并可能在其他会议上继续不诚实的行为或批准审查。

回到顶部

刻度错误

审稿人经常被要求根据评分对论文进行评估,这些评分是最终决定的一个组成部分。然而,这是众所周知的1230.39同样的评分对不同的人可能有不同的含义:“在没有任何其他信息的情况下,只给出7分(满分10分)的原始评分可能是无用的。”30.在同行评议的背景下,一些评议者比较宽松,一般会给出较高的评分,而另一些评议者比较严格,很少给出较高的评分;有些评审员比较温和,倾向于给出边缘评分,而另一些评审员则给出极端评分,等等。

校准偏差导致同行评议过程的随意性和不公平性:39“不同类别的审稿人的存在可能会造成对作者的不公平对待。那些论文偶然被刺客/降职者送去的人处于不公平的劣势,而狂热者/轻易屈服者则给了作者不公平的优势。”

如果会议的总体期望和审稿人的个人期望不匹配,也可能发生校准错误。作为一个具体的例子,NeurIPS 2016会议要求评审人员在1到5(5是最好的)的范围内对论文进行评分,并指定了对每个值的期望。然而,期望和审稿人给出的评分之间存在显著差异。38例如,项目负责人要求审稿人给3分或更高的评分,如果审稿人认为这篇论文在所有提交的论文中处于前30%,但实际评分为3分或更高的评论数量接近60%。

有两种常用的方法来解决个别审稿人的错误校准问题。第一种方法1137就是对误差的性质做简化的假设,例如,假设误差是线性的或仿射的。大多数采用这种方法的研究都假设每一篇论文p是否有一些“真实的”潜在评级ϑp,每个审查员r有两个“误校参数”一个r> 0,br以及任何评论者给出的评分r任何纸p是由一个rϑp+br+噪音。然后,这些算法使用评级来估计“真实的”论文评级ϑ,也可能是审核参数

这里描述的简单假设在现实世界中经常被违背。5基于这些假设的算法在一些会议上被尝试过,但基于程序主席的人工检查,被发现表现不佳。

第二种流行的方法1230.处理错误的方法是通过排名:要么让审稿人对他们所评论的论文进行排名(而不是提供评分),要么通过将审稿人的评分转换为他们所评论论文的排名来获得排名。使用排名而不是评级“当我们将许多观众的排名结合起来时,这就变得非常重要,因为他们经常使用完全不同的评分范围来表达相同的偏好。”12

评级甚至可以提供一些孤立的信息。这是最近播出的47即使错误校准是任意的或有针对性的选择,非量化的评级也能比单独的排名产生更好的结果。排名也有其好处。在NeurIPS 2016中,在同一名审稿人审阅的所有论文对中,有40%的论文对两篇论文给出了相同的评价。38在这种情况下,排名可以帮助打破这些论文之间的联系,这种方法在2021年国际机器学习会议(ICML)上得到了遵循。排名的第二个好处是检查可能的不一致。例如,NeurIPS 2016大会在实验的基础上获得了评审员的排名。然后,他们将这些排名与评论者给出的评分进行比较。他们发现,96名(2425名)审稿人在所有四个标准上都对某篇论文给出了严格优于另一篇的评价,但在整体排名上却与之相反。38

解决同行评议中的错误校准问题是一个完全开放的问题。每个审稿人的样本量很小,因为每个审稿人只能获得少量的评论,这是一个关键的障碍:例如,如果一个审稿人只审查了三篇论文,并给出了较低的评分,很难从这些数据推断该审稿人是否普遍严格。这种障碍需要设计协议或隐私保护算法,允许会议之间共享一些审稿人特定的校准数据,以便更好地校准。

回到顶部

主体性

我们讨论了同行评审中的两个挑战,即评审员的主观偏好阻碍了同行评审的客观性。

同量的偏见。会议项目主席通常为评审人员提供评判论文的标准。然而,不同的审稿人对于各种评判标准在论文评判中的相对重要性有着不同的主观看法。一篇论文的整体评价取决于个别审稿人对如何根据个别标准聚合评价的偏好。这种对论文内容外生因素的依赖导致了审查过程的随意性。另一方面,为了保证公平,所有(可比的)论文都应该用同样的标准来评判。这个问题被称为“公度偏差”。21

例如,假设有三个审查员认为任何提出的算法的经验性能是最重要的,而其他大多数人高度重视新颖性。然后,一篇新论文,其提出的算法具有适度的经验性能,如果被这三个审查员审查,就会被拒绝,但会被任何其他审查员接受。因此,论文的命运取决于指定审稿人的主观偏好。

AAAI 2013年会议的项目主席认识到这个公度偏差的问题。他们有一个令人钦佩的目标,那就是确保对所有论文和审稿人的个人标准如何汇总成一个整体推荐的统一政策,他们宣布了具体的规则,规定审稿人应该如何将他们对八个标准的评分汇总成一个整体评分。这一目标值得称赞,但不幸的是,拟议的规则存在缺陷。例如,33在1到6的范围内(6是最好的),有一条规则要求,如果一篇论文在某些标准上得到了5或6的评分,但在任何标准上都没有得到1,则需要给出“强烈接受”的总体评级。乍一看,这似乎是合理的,但仔细看,它意味着强烈接受任何在清晰度标准上得到5分,但在其他标准上得到2分的低评级的论文。更一般地说,为8个标准的聚合指定一组规则相当于指定一个8维函数,这可能是手工制作的挑战。

由于对衡量偏差的担忧,NeurIPS 2016大会没有要求评审人员提供任何总体评级。NeurIPS 2016转而要求审稿人只根据特定标准对论文进行评分,并将聚合留给meta审稿人。然而,由于不同的元审阅者采用不同的聚合方法,这种方法可能导致随意性。

Noothigattu et al。33针对这个问题提出一个算法解决方案。他们考虑了一个经常建议的界面,即要求审稿人根据预先指定的一套标准和他们的总体评分来给论文打分。约数偏差意味着,每个审稿人都有自己的主观映射标准的总体评分。提出的方法背后的关键思想是使用机器学习和社会选择理论来了解在总体水平上,评价者是如何将标准映射到总体评分的。然后,该算法将这种学习到的映射应用到每个评论中的标准评级,以获得第二组总体评级。然后,会议管理系统将用使用学习到的映射计算出的评分来增加审稿人提供的总体评分,其主要好处是后一个评分是通过所有论文的相同映射计算出来的。该方法在AAAI 2022年会议上被用于识别具有显著公度偏差的评论。

确认偏误。马奥尼的对照研究25要求每位审稿人评估一份虚构的手稿。发送给不同审稿人的稿件内容在他们报告的实验过程中是相同的,但他们报告的结果是不同的。研究发现,审稿人对那些与自己先前观点相悖的论文有强烈的偏见。结果部分的差异还表现在其他方面:结果与审稿人观点一致的稿件更有可能被评为方法上更好,有更好的数据展示,审稿人更不可能发现论文中的错误,即使这些组成部分在整个稿件中是相同的。

回到顶部

关于作者身份的偏见

2015年,两位女性研究人员梅根·海德和菲奥娜·英格比向《公共科学图书馆·综合》杂志提交了一篇论文。他们收到的评论是这样的:找到一两个男性研究人员一起工作(或者至少获得内部同行评审,但最好是与活跃的合著者合作)可能是有益的。”这是一个例子,说明即使我们希望评论只关注科学贡献,也可以考虑作者的身份。

这种关于作者身份的偏见在计算机科学和其他领域被广泛讨论。这些争论导致了两种类型的同行评审过程:单盲评审,即向审稿人展示作者身份,和双盲评审,作者身份对审稿人隐藏。在这两种情况下,审稿人的身份都不会透露给作者。

反对单盲评审的一个主要论点是,它可能导致评审在作者身份方面存在偏见。另一方面,反对双盲审查的论点包括:使一篇稿件双盲的努力,双盲的有效性(因为许多稿件在预印本服务器和社交媒体上以作者身份发布),阻碍检查(自我)剽窃和利益冲突,以及使用作者身份作为对审稿人无法仔细检查的细节的信任保证。此外,关于单盲与双盲评审的争论还取决于一个经常被问到的问题:“在我的研究领域,单盲评审存在偏见的证据在哪里?”

在Web搜索和数据挖掘(WSDM) 2017年会议上进行了一项了不起的实验,45有500篇论文和1987名审稿人。审查员被随机分为两组:单盲组和双盲组。每篇论文都从两组中分配两名审稿人。这种实验设计允许对每篇论文进行单盲和双盲评审的直接比较,而不需要对实验进行任何额外的评审。研究发现,人们对著名作家、顶尖大学和顶尖公司的青睐明显存在偏见。此外,研究发现,对于至少有一位女性作者的论文,影响大小不可忽略,但在统计上没有显著的偏见;该研究还包括一项结合其他研究的元分析,该元分析发现这种性别偏见在统计上具有显著性。该研究没有发现来自美国的论文存在偏见的证据,也没有发现来自同一国家的审稿人和作者,也没有发现来自学术(与工业)机构的偏见。WSDM会议在第二年转向双盲评审。

另一项研究26没有涉及对照实验,但利用了ICLR会议在2018年从单盲评审转变为双盲评审的事实。通过对评分和评论文本的分析,该研究发现了作者归属方面存在偏见的证据,但在性别方面没有。

这类研究还促使人们关注精心设计实验方法和测量算法,以评估同行评议中的偏差,同时减少由于同行评议过程的复杂性可能产生的混杂因素。

双盲审查可以减轻这些偏见,但可能不能完全消除它们。在三次双盲会议上,评审员被要求猜测他们正在评审的论文的作者。20.70%-86%的评论都没有提供作者的猜测(不提供猜测是否意味着评论者没有猜测,还是他们不想回答这个问题还不清楚)。然而,在那些包含作者猜测的评论中,72%-85%的人至少猜对了一个作者。

在许多研究社区中,将论文上传到预打印服务器(如arXiv)是很常见的。arxiv.org),然后再进行审阅。例如,NeurIPS 2019大会54%的提交作品发布在arXiv上,其中21%的提交作品至少有一名审稿人看过。这些预印本包含关于作者的信息,因此有可能向审稿人透露作者的身份。基于这些观察,人们可能会倾向于禁止作者在他们的手稿被接受之前将其发布到预印本服务器或其他地方。然而,我们必须小心地走这条路。首先,这种封锁会阻碍研究的进展。其次,此类禁令的有效性尚不明确。研究表明,提交论文的内容可以提供关于作者身份的线索。20.第三,由于这些因素,著名作者的论文仍然可能以较高的比率被接受,而弱势作者的论文既不能被接受,也不能放在预印本服务器上。

这些研究为盲法评价的政策选择和权衡提供了有价值的量化信息。这就引出了我们下一个关于规范和政策的讨论。

回到顶部

规范和政策

任何社区或会议中的规范和政策都可能影响同行评审的效率和实现其目标的能力。

作者激励。确保同行评议参与者获得适当的激励是一个关键的开放问题:激励审稿人提供高质量的评论,并激励作者只在论文质量适当高的情况下提交论文。2我们讨论了一些有关作者激励的政策和相关影响,这是由许多会议上提交数量的迅速增加所推动的。


目前关于改进同行评议的研究,尤其是使用计算方法的研究,只触及了表面。


开放的审查。据说,作者提交一篇低于标准的论文不会有什么损失,但会得到很多:如果被拒绝,几乎没有人会看到低于标准的版本,而同行评议过程中的随意性给了它一些被接受的机会。

一些会议采用“公开评审”的方法进行同行评审,公开所有提交的论文及其评审(但不包括评审人员身份)。一个突出的例子是OpenReview.net计算机科学中的会议管理系统。一项调查显示41ICLR 2013年会议是最早采用开放评审格式的会议之一,其中的一位与会者指出,在这种开放格式中,作者和审稿人的责任增加了。一个开放的评审方法也增加了评审过程的透明度,并向公众提供更多关于论文的优点/缺点的信息,而不仅仅是一个二元的接受/拒绝决定。2

开放审查的形式也会导致一些缺点;这里有一个与被拒论文的公众可见度有关的问题。

重新提交的政策。许多会议采用的政策是,论文的作者必须在提交论文的同时提供过去被拒的信息。例如,2020年国际人工智能联席会议(IJCAI)要求作者在提交论文之前提供之前任何拒绝的详细信息,包括之前的审查和作者所做的修改。虽然这些政策是为了确保作者不会简单地忽略审稿人的反馈,但之前的拒绝信息可能会使审稿人产生偏见。

控制实验43对这种偏见的测试。每个审稿人都被随机展示了一篇论文的两个版本中的一个供其审阅:一个版本表明这篇论文之前在另一个会议上被拒绝了,而另一个版本则没有这样的信息。当被告知一篇论文是重新提交时,审稿人在10分制的论文总体评价中给出了几乎低1分的评分。

最后期限。在有固定截止日期的会议中,很大一部分提交的文件是在截止日期前或非常接近截止日期时提交的。这一观察结果表明,取消截止日期(或者换句话说,设置一个“滚动截止日期”),即每当论文提交时都要进行审查,可能会让作者有足够的时间在提交前尽可能地写好论文,而不是在固定的截止日期前死记硬背。滚动截止日期提供的灵活性可能有额外的好处,如帮助研究人员更好地处理个人限制,并允许更平衡地共享资源,如计算。

美国国家科学基金会在某些项目中试验了这一想法。15提交的建议书数量从有两个固定截止日期的一年内的804份急剧减少到有滚动截止日期的随后11个月里的327份。因此,除了为作者提供灵活性之外,滚动截止日期也有助于减轻同行评审过程的压力。

审查的介绍。虽然研究人员接受过做研究的培训,但同行评审方面的培训却很少。一些倡议和试验试图应对这一挑战。最近,ICML 2020会议采用了一种方法,选择并指导初级审稿人,否则他们不会被要求进行审稿,目的是扩大审稿人池,以解决大量提交的问题。43对他们评论的分析显示,与传统的评论者相比,初级评论者在过程的各个阶段都更投入。此外,会议要求元审稿人对所有评论进行评分,初级审稿人所写的评论中有30%得到了元审稿人的最高评分,而主审稿人只有14%。

在审查员的职业生涯初期培训他们是一个好的开始,但可能还不够。有一些证据表明8随着时间的推移,个人评价的质量会以缓慢但稳定的速度下降,这可能是因为时间越来越紧,也可能是对他们自己收到的低质量评价的反应。


虽然研究人员接受了做研究的培训,但对同行评审的培训却很少……在审稿人职业生涯的初期对他们进行培训是一个良好的开端,但可能还不够。


讨论和团队动力。在提交了最初的评论之后,论文的审稿人通常可以看到彼此的评论。审查员和元审查员然后进行讨论,以达成最终决定。

几项研究34在拨款提案的同行评审中进行对照实验,以量化该过程的可靠性。这里研究的同行评审过程包括评审员之间的小组讨论。在每个小组中,审查员首先提交独立的评审,然后小组就提案进行讨论,审查员可以更新他们的意见。这些研究揭示了以下三个发现。首先,在独立的评论中,评论者之间的意见分歧很大。其次,在讨论之后,审稿人之间的分歧会显著减少(可能是由于审稿人在达成共识方面的隐性或显性压力)。这一观察似乎表明,为了做出更“准确”的决定,所有审查员的智慧都被聚合起来了。为了量化这一方面,这些研究组成多个小组来评估每个提案,每个小组独立地进行整个审查过程,包括讨论。然后,这些研究衡量了不同小组对同一提案的结果的分歧程度。他们的第三个发现是,令人惊讶的是,小组之间的分歧程度确实如此讨论后减少,相反通常增加。

这些观察表明,需要仔细审查讨论进程的效力和其中所使用的议定书。我们讨论了两个实验,研究了小组间协议在讨论后惊人减少的潜在原因。

Teplitskiy et al。44进行对照研究以了解其他审稿人的影响。他们让评论者看到来自其他(虚构的)评论的人为评分。他们发现,47%的情况下,评论者会更新他们的评分。女性审查员更新评分的频率比男性高13%,当她们在男性主导的领域工作时更是如此。最初较高的评级有64%的时间向下更新,而最初较低的评级只有24%的时间向上更新。

Stelmakh et al。43研究“羊群效应”:同行评审中的讨论是否会导致决策偏向于发起讨论的评审者的观点?他们没有发现这种偏见的证据。

回到顶部

结论

目前关于改进同行评审的研究,特别是使用计算方法的研究,只触及了这一重要应用领域的表面。还有更多的工作要做,有许多令人兴奋和具有挑战性的开放问题,解决后将产生影响,并允许理论、应用和概念研究的整个光谱。

同行评审研究至少面临两大挑战。首先,没有关于哪些论文应该被会议接受的“基本事实”。正如本文中所讨论的,可以评估同行评审的单个模块和特定偏差,但对于某个解决方案如何影响整个过程,没有定义良好的度量方法。

第二个挑战是无法获得数据。改进同行评议的研究可以显著受益于更多与同行评议相关的数据的可用性。然而,很大一部分同行评审数据是敏感的,因为每篇论文的审稿人身份和其他相关数据通常是保密的。设计政策和保护隐私的计算工具来对这些数据进行研究是一个重要的开放问题。

然而,研究团体和会议对以科学的方式改进同行评审越来越感兴趣。研究人员正在进行一些实验,以了解同行评审中的问题和影响,设计方法和政策来应对各种挑战,并将这一主题的研究转化为实践。这对作为科学研究基石的同行评议来说是个好兆头。

回到顶部

参考文献

1.阿隆,N.,菲舍尔,F.,普罗卡西亚,A.和Tennenholtz, M.我们的总和:从选择器中选择策略证明。在理性与知识的理论问题研讨会论文集,(2011)。

2.会议审查被认为是有害的。ACM SIGOPS操作系统Rev。,(2009)。

3.巴列蒂,戈德斯通,R和赫尔宾,D.艺术展览游戏中的同行评审和竞争。在美国国家科学院院刊,(2016)。

4.Benos, D,等人。同行评议的起起落落。生理学教育进展,(2007)。

5.Brenner, L., Griffin, D.和Koehler, D.用随机支持理论建模概率校准模式:诊断基于案例的判断。组织行为与人类决策过程,(2005)。

6.同行评议和接受新的科学思想:2002年11月- 2004年5月,一个工作组关于使公众了解同行评议的讨论文件。科学的意义,(2004)。

7.Cabanac, G.和Preuss, T.在同行评审会议的投标中利用顺序效应,以确保专家评审的评审。j . Assoc。信息科学与技术。(2013)。

8.Callaham, M.和McCulloch, C.科学同行评议者表现的纵向趋势。急诊医学年鉴,(2011)。

9.查林,L.和泽梅尔,R.多伦多论文匹配系统:一个自动的论文评审分配系统。在ICML同行评审与出版模式研讨会论文集,(2013)。

10.Fiez, T., Shah, N.和Ratliff, L.一个优化同行评审论文竞价的SUPER*算法。在人工智能中的不确定性,(2020)。

11.Flach, P., Spiegler, S., Golénia, B., Price, S., Guiver, J., Herbrich, R., Graepel, T.和Zaki, M.简化会议评审过程的新工具:来自SIGKDD'09的经验。SIGKDD空洞。Newsl,(2010)。

12.Freund, Y., Iyer, R., Schapire, R.和Singer, Y.一种结合偏好的有效提升算法。J.机器学习研究,(2003)。

13.加格,N.,卡维塔,T.,库马尔,A.,梅尔霍恩,K.和梅斯特,J.将论文分配给推荐人。Algorithmica,(2010)。

14.郭亮,吴军,常伟,吴军,李军。会议评审系统中的K-loop自由分配。在ICNC学报》,(2013)。

15.没有压力:国家科学基金会的测试发现,取消截止日期会使拨款申请的数量减半。科学,(2016)。

16.Jecmen, S., Zhang, H., Liu, R., Shah, N., Conitzer, V.和Fang, F.通过随机审稿人分配减少同行评审中的操纵。NeurIPS,(2020)。

17.杰弗逊,T.,奥尔德森,P.,韦杰,E.和大卫多夫,F.编辑同行评审的影响:一个系统的评审。《美国医学会杂志》,(2002)。

18.Kobren, A., Saha, B.和McCallum, A.与局部公平约束匹配的论文。在ACM KDD会议记录,(2019)。

19.评论完整性的案例研究:要求优惠待遇。NIH校际比赛的关系,(2020)。

20.Le Goues, C., Brun, Y., Apel, S., Berger, E., Khurshid, S.和Smaragdakis, Y.匿名化在双盲评审中的有效性。Commun。ACM,(2013)。

21.同行评审中的约约性偏差。科学哲学,(2015)。

22.Lee, C, Sugimoto, C, Zhang, G, Cronin, B.同行评审的偏见。j . Assoc。信息科学与技术,(2013)。

23.莱顿-布朗,K.和摩萨姆。AAAI 2021 -介绍;https://bit.ly/3r2L3Rr;(最低3起)。

24.串通环威胁着计算机科学研究的完整性。Commun。ACM,(2021)。

25.发表偏见:同行评议体系中验证性偏见的实验研究。认知疗法与研究(1977)。

26.Manzoor, E.和Shah, N.揭示文本中的潜在偏见:方法和在同行评审中的应用。在AAAI学报》,(2021)。

27.马克伍德、沈东、刘勇、陆铮。幻影:针对基于信息的在线服务的内容掩蔽攻击。在USENIX安全研讨会论文集。,(2017)。

28.Mattei, N.和Walsh, T. Preflib:一个偏好库。在实习生学报》上。算法决策理论。施普林格,2013;http://www.preflib.org

29.Mimno, D.和McCallum, A.论文与审稿人匹配的专家建模。在知识发现(KDD)学报》,(2007)。

30.Mitliagkas, I., Gopalan, A., Caramanis, C.和Vishwanath, S.比较中的用户排名:学习高维排列。在阿勒顿会议记录。,(2011)。

31.Murphy, J., Hofacker, C.和Mizerski, R.点击行为的首因性和近因效应。j .电脑仲介Commun。,(2006)。

32.Neubig, G., Wieting, J., McCarthy, A., Stent, A., Schluter, N.和Cohn, T. ACL审阅者匹配代码;https://github.com/acl-org/reviewerpaper-matching

33.nothigattu, R., Shah, N.和Procaccia, A.损失函数,公理,和同行评审。J.人工智能研究,(2021)。

34.Pier, E, Raclaw, J., Kaatz, A., Brauer, M., Carnes, M., Nathan, M.和Ford, C.你的评论比你的分数更刻薄:在科学拨款同行评审期间,分数校准谈话影响小组内部和小组间的变化。研究评价(2017)。

35.雷尼,d,让同行评议更科学。自然,(2016)。

36.罗德里格斯,M., Bollen, J.和Van de Sompel, H.绘制会议裁判员的出价行为。j .情报计量学(2007)。

37.Roos, M., Rothe, J., Scheuermann, B.如何用二次规划校准有偏见审稿人的分数。在AAAI学报》,(2011)。

38.Shah, N, Tabibian, B, Muandet, K, Guyon, I.和Von Luxburg, U. NIPS 2016评审过程的设计和分析。JMLR,(2018)。

39.刺客和狂热者:同行评审的变化。放射学,(1991)。

40.同行评议:改革还是革命?是时候打开同行评议的黑匣子了。(1997)。

41.Soergel, D., Saunders, A.和McCallum, A.开放奖学金和同行评审:实验的时刻(2013)。

42.Stelmakh, I., Shah, N.和Singh, A. PeerReview4All:在同行评审中公平和准确的评审员分配。JMLR,(2021)。

43.Stelmakh, I., Shah, N., Singh, A., Daumé III, H.和Rastogi, C. ICML 2020同行评审过程的实验,(2020);https://blog.ml.cmu.edu/2020/12/01/icml2020exp/

44.Teplitskiy, M, Ranub, H, Grayb, G, Meniettid, M, Guinan, E,和Lakhani, K.专家之间的社会影响:来自同行评议的现场实验证据,(2019)。

45.Tomkins, A, Zhang, M,和Heavlin, W.单盲与双盲同行评审的评审偏差。在美国国家科学院院刊,(2017)。

46.ACM/IEEE计算机体系结构会议中潜在的有组织的欺诈,(2020);https://bit.ly/3o2Zjb3

47.Wang J.和Shah N.你们的2是我的1,你们的3是我的9:处理评级中的任意错误校准。在AAMAS学报》,(2019)。

48.出版研究联盟2015年同行评审调查。出版研究联盟,(2016)。

49.Wing, J.和Chi, E.评审同行评审。ACM通信(2011)。

50.Wu, R., Guo, C., Wu, F., Kidambi, R., van der Maaten, L.和Weinberger, K.使论文审查对出价操纵攻击的鲁棒性,(2021);arXiv: 2102.06020。

51.许玉玉,赵海华,石晓霞,沙n。战略证明会议综述。在IJCAI学报》,(2019)。

回到顶部

作者

Nihar b·沙阿是美国宾夕法尼亚州匹兹堡市卡内基梅隆大学机器学习和计算机科学系的助理教授。

回到顶部

脚注

本文的扩展版本讨论了更多的挑战、实验和解决方案,请访问以下网站http://bit.ly/PeerReviewOverview


cacm_ccbysa.gif这部作品是根据法律授权的https://creativecommons.org/licenses/by-sa/4.0/

数字图书馆是由计算机协会出版的。版权所有©2022 ACM, Inc.


没有发现记录

Baidu
map