原载于ML@CMU
有相当数量的研究关于同行评议。在机器学习社区中,已经有实验在审稿人和审稿人小组之间建立了重大分歧包括NeurIPS 2021以及积极讨论同行评审的现状。但是,作者对他们提交的论文的看法如何与同行评审过程的结果和其他作者的看法相匹配?我们通过向向NeurIPS 2021提交论文的作者提出三个问题来调查这个问题:
(第一季度)[递交论文时]您对本次提交被接受的概率(以百分比计算)的最佳估计是多少?
(Q2)[在提交论文时;提交两篇或以上论文的作者如果以目前的形式发表,请根据您自己对NeurIPS社区的科学贡献的看法对您的提交进行排名。
(第三季)[在作者获得初步审稿后]在您阅读了这篇论文的评论之后,您对其对NeurIPS社区的科学贡献的价值的看法发生了怎样的变化(假设它是以最初提交的形式发表的)?
以下是五个主要发现。
1.作者如何估计他们的论文被接受的概率?
作者明显高估了他们论文被接受的几率。在回答Q1时,作者被告知过去4年NeurIPS的录取率约为21%。NeurIPS 2021的录取率为25.8%。作者的回答高估了近三倍,预测中值为70%。
2.是否有些子组比其他子组校准得更好?
我们检查了各亚组的校准误差,根据Brier评分(损失的平方)测量该误差,并控制其他混杂因素。我们发现女性作者的校准误差略高于男性作者(但具有统计学意义)。我们也看到了错误校准的趋势,随着资历的增加而减少,被邀请担任(元)审稿人的作者比其他人校准得更好。我们调查的所有小组都过度预测了他们的论文被接受的几率。
3.在拥有多篇论文的作者中,他们对被接受概率的预测与他们自己感知的科学价值有多少一致?
这两组回答在很大程度上是一致的:由作者提供的关于他们感知的科学价值的严格排名(Q2)和由他们预测的接受概率(Q1)引起的严格排名(93%)一致。然而,值得注意的是,有7%的作者认为同行评审更有可能拒绝他们两篇论文中较好的那篇。
4.共同作者对他们的联合论文的相对质量有多少一致意见?
引人注目的是,合著者之间在他们论文的相对科学贡献方面的分歧数量(Q2)与作者和审稿人之间的分歧数量相似!在作者的一篇论文最终被录用而另一篇论文被拒的情况下,在大约三分之一的时间里,作者对被拒论文的评分更高。但如果研究的是作者重叠的论文,其中两位作者都提供了排名,共同作者之间也有大约三分之一的时间存在分歧。虽然文献中有关于审稿人之间分歧的讨论,但这一结果表明,共同作者对他们论文的观点也存在类似的分歧。
5.同行评议会改变作者对自己论文的看法吗?
Q3是一个选择题,有五个选项:更积极的(“++”),更积极的(“+”),没有变化的(“0”),更消极的(“-”),更消极的(“- -”)。
我们发现,在被接受和被拒绝的论文中,约50%的作者报告说,在看到初审后,他们对自己论文的看法发生了变化(Q3)。此外,在被接受和被拒绝的论文中,超过30%的作者报告说他们的看法变得更加积极。
接受的论文 | 拒绝文件 |
讨论
作者极大地高估了他们的论文被接受的可能性,这一事实表明,会议组织者和研究导师在每次会议之前尝试重新校准期望是有用的。我们记录的关于论文质量的分歧-合著者之间以及作者和审稿人之间-与补充中观察到的审稿人委员会之间的分歧一起考虑NeurIPS 2021一致性实验的研究表明,评估论文质量不仅是一个非常嘈杂的过程,而且可能是一个根本具有挑战性的任务,没有客观的正确答案。因此,对论文提交的结果应持保留态度。更广泛地说,作为一个社区,我们在决定与同行评审过程及其结果有关的政策和看法时,可能会考虑这些发现。我们希望我们的实验结果能鼓励社区的讨论和反思。
更多的细节:可以在这里
我们要感谢所有参与者花时间提供调查答复。我们非常感谢OpenReview团队,尤其是Melisa Bok,感谢他们在OpenReview.net平台上进行调查的支持。
尼哈尔·b·沙阿他是卡内基梅隆大学的助理教授。他的研究重点是通过设计计算解决方案和为基于证据的政策设计进行实验来改进同行评审。
没有找到条目