acm-header
登录

ACM通信

BLOG@CACM

同行评议有多客观?


第一部分:从NIPS实验到ESA实验

2014年,神经信息处理系统会议(NeurIPS,当时还叫NIPS)的组织者做了一个有趣的实验。1他们把程序委员会(PC)分成两部分,让每一部分独立审查一半以上的提交。这样,所有提交的论文(166篇)的10%由两个独立的pc审核。目标是每台PC的录取率为23%。实验的结果是,在这166篇论文中,来自两台pc的论文集合只重叠了43%。也就是说,有一半以上的论文被一台电脑接受,但被另一台电脑拒绝。这引发了关于同行评议到底有多有效或随机,以及我们应该如何应对的老争论的激烈爆发。

这个实验留下了一些有趣的问题:

  1. 有多少在一台PC上看起来“清楚”的论文被另一台PC拒绝了,如果有的话?
  2. 有多少在一台电脑上看起来“明显”被拒绝的论文被另一台电脑接受了,如果有的话?
  3. 两台pc的排名相关度如何?是否有一个自然的界限来决定被接受的论文集?
  4. 政协委员之间对文件的讨论是否有助于减少决策的随机性?
  5. 这一切对同行评审的未来意味着什么?

为了回答这些问题,我在2018年做了一个类似于NIPS实验的实验,但数据更丰富,分析更深入。目标是第26届“欧洲算法研讨会”(ESA),一个古老的算法会议。ESA每年收到约300份意见书,有两个轨道:更理论化的轨道A和更实用的轨道B。在实验中,我选择了轨道B,那年它收到了51份意见书。设立了两个独立的pc,每个pc有12名成员,任务是录取率为24%。总共产生了313篇评论。这些数据比NIPS实验的数据要小,但仍足以产生有意义的结果。重要的是,它们足够小,可以进行耗时密集的深入分析。

两个个人电脑都遵循相同的标准审查程序,并事先尽可能清楚地商定:

  • 阶段1:PC成员在没有看到任何其他评审的情况下输入他们的评审。
  • 第二阶段:PC成员相互讨论,大多数是每篇论文,论文被提议接受/拒绝。
  • 第三阶段:将剩下的(“灰色地带”)论文相互比较,最后所有没有明确决定的论文都通过投票决定。

PC成员被明确要求并反复提醒更新分数当他们在他们的评论中改变了什么。这样就可以对审查过程的各个阶段进行定量分析。有关设置、结果、数据以及以各种方式计算和可视化数据的脚本的更多细节,请参见该实验的网站。2

第二部分:欧空局实验的主要结果

让我们首先快速概述一下这些结果,然后在第3部分中讨论它们的含义。

被接受的论文有哪些重叠之处?在NIPS实验中,重叠为43%。在欧空局的实验中,重叠是58%。录取率几乎一样。把这些数字放在一个角度:如果审查算法是确定的,重叠将是100%。如果每台计算机都随机接受一部分论文,那么预期的重叠将是24%。如果10% / 20% / 20% / 50%的论文被接受,概率为0.8 / 0.6 / 0.1 / 0.0,那么预期重叠率将在60%左右。重叠不是最好的数字,因为它很大程度上取决于被接受的论文数量;见下文。

有多少人明确接受?每个评论的得分范围是+2,+1,0,-1,-2。我们不鼓励使用0分,并且事先告知,只有来自至少一位审稿人的+2分的论文才会被考虑接受。对于一篇只有+2分的论文,没有讨论的动机,这些论文立即被接受。在这类“明确接受”的问题上,两位pc几乎没有达成一致。在一台PC机上明确接受的九篇论文中,有四篇被另一台PC机拒绝,只有两篇在另一台PC机上明确接受(也就是所有提交的4%)。即使“明确接受”的论文存在,它们也非常少。

有多少明显被拒绝的人?如果一篇论文有一个审稿人给了-2分,没有一个审稿人给+1或+2分,那么这篇论文就会被视为明显的不合格。PC1中有20例,PC2中有17例。这些论文都没有被其他PC考虑过。因此,至少有三分之一的提交被明显拒绝,因为其他PC不太可能接受其中任何一个。只有一篇论文的分数在两台电脑之间相差3分或更多;它在一台PC上得到了明确的认可(所有评论者都给了+2的评价,赞扬了强大的结果),而另一台PC则对它的意义持非常挑剔的态度。

是否有一个自然的界限来决定被接受的论文的集合?如果两台计算机都只录取他们最好的10%,那么被录取论文的重叠部分将是40%(对应于4%的“明确录取”)。对于14%到40%的录取率,重叠部分在54%到70%之间波动不定。如果论文被接受的比例超过这个数字,重叠部分就会稳步增加(因为底部有“明确的拒绝”)。除了“明确的拒绝”之外,没有自然的界限。

各个审查阶段的效果如何?我们已经看到,固定接受率的重叠是一个相当不可靠的度量。因此,我也比较了两个pc在那些至少被考虑接受的论文中的排名。通过Kendall tau相关计算排名相似度(相同排名为1,随机排名为0,相反排名为-1)。详情请参见网站。2该相似性在第一阶段后为46%,第二阶段后为63%,第三阶段后为58%,第一阶段后的增加具有统计学意义(p = 0.02)。这表明,每篇论文的讨论在客观化论文分数方面发挥了重要作用,而任何进一步的讨论在这方面几乎没有或没有增加。这与PC成员愿意在阅读其他PC成员的评论后调整他们的初始分数的经验密切相关。在那之后,他们的观点或多或少是固定的。

总之,pc在去芜存柳方面做得很好。小麦似乎至少有一个部分的秩序,但没有自然的切断。被录取的论文越少,选择就越随机。最初的单篇讨论有助于使评审分数更客观。任何进一步的讨论都没有产生可衡量的效果。

以上结果可能是错误的一个上界为了保证计算机科学会议评审过程的客观性,原因如下:

  1. ESA是一个中等规模的会议,具有相对紧密的社区和单层PC。
  2. 在在线讨论中,线程经常停滞,因为PC成员忘记或懒得回复,因为其他义务。对于这个实验,我们非常小心地提醒PC成员给出反馈,这样讨论线程就不会停滞。
  3. 审查过程事先有详细的规定,两台电脑的审查过程完全相同。
  4. pc的选择是为了使其多样性(在资历、性别、话题、大洲方面)尽可能相似。

更大的会议、两层PC、响应不及时的PC成员、不明确的指导方针以及多样性的差异都很可能进一步增加了审查过程的随机性。

第3部分:现在怎么办?

我从这个实验中得出了四个主要结论:

首先,我们需要更多这样的实验。我们有NIPS实验现在是ESA实验。3.他们给人留下了第一印象,但重要的问题仍然悬而未决。例如,为一个更大、更多样化的会议重做上面的实验将非常有价值。我经常听到的一个论点是,这是太多的努力,特别是在需要额外的审查员数量方面。我不相信这种说法。计算机科学领域有很多会议,其中很多都非常大。如果我们不时地选择这些会议中的一个来进行实验,那么从大局来看,额外的负载是可以忽略不计的。我经常听到的另一个观点是,改善同行评审是一个无法解决的问题。这总是让我困惑。在各自的领域中,研究人员都喜欢解决难题,有时他们的一生都在努力取得一些进展。但当涉及到审查过程时,目前的现状是最好的吗?

第二,我们需要完全接受这些实验的结果。迄今为止的实验提供了强烈的暗示,即评论中存在着重要的信号,但也存在着大量的噪音和随机性。然而,直到今天,决定被录取论文的自然界限的神话仍然盛行。人们通常承认存在灰色地带,但这一“灰色地带”并不包括几乎所有没有被明确拒绝的论文。电脑可以花很多时间来讨论论文,却没有意识到平行宇宙中的另一台电脑并没有过多关注这些论文,因为它们在过程的早期就被接受了,或者更有可能被拒绝了。从我个人的个人电脑经验来看,我猜想至少有两种偏见在起作用。一是人类往往意识不到自己的偏见,觉得自己比实际情况要客观得多。另一种感觉是,如果你作为一个团队做出了巨大的努力,那么结果是有意义和公平的。另一个极端是宿命论:认为整个过程都是随机的,所以为什么要费心提供一个适当的审查。这两个极端都是错误的,而且这一点仍然没有被广泛理解或采取行动。

第三,我们如何结合这些结果来改进评审过程?让我们假设NIPS和ESA实验的结果不是异常的;然后,有一些非常直接的方法,我们可以将它们纳入当前的审查过程。例如,在所谓的“灰色地带”的论文讨论可以被取消。相反,这种能量可以用于事先尽可能清楚地交流和实现可用分数的语义。然后,平均分数可以被转换为至少一部分论文的概率分布,即那些至少有一位(而不是所有)审稿人发表了意见的论文。来自这一“扩展灰色地带”的论文可以以与分数成比例的概率被接受。这不会让整个过程更加随机,但肯定会减少偏见。为了减少偏倚和随机性,一个简单而有效的措施是接受更多的论文。数字出版不再限制被接受论文的数量,许多会议已经摆脱了“一篇论文一篇完整演讲”的原则。

第四,所有这些知识必须从一台电脑保存到另一台电脑。现在,我们已经拥有了大量关于同行评审过程的知识。但在任何特定的会议上,只有一小部分会被考虑或实施。我认为主要原因是学术界行政工作的典型执行方式。工作是轮换的(通常是相当快的),几乎没有超越的动力,几乎没有质量控制(谁来评审评审人员),参与同行评审过程是一份已经超过全职的工作之外的另一项义务。你确实会因为一些行政工作而获得地位点,但不是因为你做得特别好或投入了大量的时间或精力。当涉及到我们的科学研究时,我们大多数人都天生具有上进心和难以置信的毅力。事实上,这就是我们大多数人最初成为科学家的原因。行政任务不是我们报名的目的,不是我们受训的目的,也不是我们被选中的目的。我们在理智上知道它们有多重要,但我们并不真的那样对待它们。

我的底线是:同行评议程序的声誉受到了玷污。让我们用对我们最喜欢的研究问题同样的爱和关注来解决这个问题。让我们做更多的实验,以获得见解,帮助我们使这一过程更加公平,重新获得一些信任。让我们创造强大的激励机制,这样我们已经知道的好的东西就会被实际执行,并从一台电脑转移到下一台。

1//www.eqigeno.com/blogs/blog-cacm/181996-the-nips-experiment提供了NIPS实验的简短描述和进一步分析和讨论的各种链接。

2https://github.com/ad-freiburg/esa2018-experiment

3.还有其他的实验,比如WSDM’17上的单盲vs双盲实验,它调查了审查过程的一个特定方面:https://arxiv.org/abs/1702.00502

汉娜•巴斯特是德国弗莱堡大学的计算机科学教授。在那之前,她在谷歌工作,开发公共交通路径算法谷歌地图。就在欧空局的实验之后,她成为了弗莱堡工程学院的院长和恩奎人工智能委员会德国议会(联邦议院)的主席。这就是她花了两年时间写这篇博客的原因。


评论


艾伦·麦克莱恩

这里有很多伟大的见解。感谢您花时间让这篇文章更广泛地传播。

鉴于明确拒绝的阈值定义得如此明确,这表明你或许可以放松明确拒绝的定义,以减少灰色区域的论文数量。例如,如果你取消了至少一份-2分的要求,并简单地定义为没有正面分数,那么有多少篇论文会被明确拒绝,协议会是怎样的?


汉娜•巴斯特

亲爱的艾伦,谢谢你的问题。你描述的那种论文有13篇(没有强烈的拒绝,但也没有评论者为它说话):一台电脑上有8篇,另一台电脑上有5篇。这些论文的一致性并不好:其中一篇论文在另一台PC上是“明确接受”的,而另外三篇论文在另一台PC上被考虑接受。这13篇论文在另一台电脑里都不是同一类型的。这很有趣,因为这表明-2分(强烈的拒绝)不是轻易给出的,加上没有其他审查员站出来,这是一个非常强烈的拒绝信号。如果没有-2分,情况就不那么清楚了。

你可以在https://github.com/ad-freiburg/esa2018-experiment上随意使用这些数据。还有一个Python脚本可以进行各种分析和可视化,README列出了一些示例调用。


杰克詹森

非常有趣和有见解!我马上就想:现在你有了2台pc机的数据,是否有必要看看5年后被接受的论文,看看收到的引用数量和独立pc机对论文的评价之间是否有任何关联……


查尔斯堰

这些结果令人着迷。乍一看,它们很可怕,但仔细一想,它们或许还挺让人安心的:审查员确实相当一致地拒绝差论文;会议从可接受的会议中随机选择。

我还想知道这种分析是否遗漏了评论的一个主要目的:帮助作者改进他们的论文。我的经验是,阶段2和3通常是讨论如何最好地向作者表示审稿人的结论;省略这些阶段可能会失去审查过程的一些价值。

根据这项研究,目前的评审系统的结果是,一篇被接受的论文的作者,多少有些随机地,要么获得被接受的荣誉,要么获得几小时专家反馈的奖金,以改进论文。在这里的数据中,论文平均会被拒绝几次,所以一旦论文最终被接受,它们通常会有来自许多其他行业专家的匿名投稿。

因此,如果我们希望评审是一个客观质量度量的过程(如果这样的事情可能的话),我们将会失望;如果我们想把它们作为质量改进的一个过程,也许这个系统是有效的?


汉娜•巴斯特

亲爱的杰克,这将是非常值得的,而正如它发生的那样,Corinna Cortes和Neil Lawrence现在已经为NeurIPS 2014实验做了这样的工作:https://arxiv.org/pdf/2109.09774v1.pdf。他们的主要结果是:“对于被接受的论文,质量分数和论文的影响之间没有相关性,以引用计数的函数来衡量。”


汉娜•巴斯特

亲爱的查尔斯,我同意,我甚至会更同意,如果评审分数没有偏见。但我不这么认为。我认为人们对某些类型的论文、某些主题等存在系统性的偏见。这就是为什么我个人倾向于在选择过程中加入一些有意的随机性元素。正如我在上面所写的,这“不会让过程变得更加随机,但肯定会减少偏见。”有趣的是,大多数同事对这个建议的第一反应是强烈拒绝。我认为这是由于对评论分数的客观性过于自信,以及对自己投入在评论上的努力感到轻视。是的,在复习分数中有一个重要的和有价值的信号,但它不是那么强烈。


显示所有6评论

登录为完全访问
»忘记密码? »创建ACM Web帐号
Baidu
map