ACM
BLOG@CACM

拒绝好论文的坏理由,反之亦然


最初发表于ACM SIGPLAN计划的观点

同行评议是学术研究的一个重要方面:当它运作良好时,它提供了一个反馈循环,刺激和奖励高质量的研究,帮助学科发展。但是,我们都知道,它并不总是很有效。当然,它从来没有黄金时代,但随着主题的发展,随着提交的数量越来越多,程序委员会(pc)越来越大,以及向纯在线讨论的转变,对什么是好的评论保持一个共同的观点变得越来越困难。所有这些都削弱了促进高质量评审的反馈循环,因为PC成员不再需要在同行面前解释他们的评估,经常看不到他们没有评审的论文的讨论,甚至可能没有阅读所有提交的标题和摘要。相反,我们把所有保持评论质量和通用标准的责任都放在我们的PC椅上——这是一项几乎不可能完成的任务,需要数百个在线讨论。

这篇笔记试图阐明什么是好的评论,刷新并为提高我们的共识提供一点推动。它主要关注与pl相关的研究(编程语言、语义和验证),但更多的是普遍适用的。2014年,我以POPL PC主席的身份开始了这些列表,并将其扩展推特;我将更新版本github不时地。欢迎评论,非常感谢所有对以前版本发表评论的人。

作为审稿人,我们必须做出什么决定?从根本上说,发表这篇论文是否会以某种实质性的方式推进这一主题。详情如下:

  • 动机是真实的吗?论文是否解决了一个重要的问题?(有时候,简单地识别出一个重要的问题就是一个重要的贡献)
  • 它提出的主张是否构成实质性进展?
  • 这些说法有根据吗?技术上可靠吗?
  • 它是否写得很好——足以让读者(有适当的背景)理解?

然后,由于我们的场地通常竞争激烈,我们必须权衡论文与其他提交的论文(它们的竞争程度如何?应该Be是一个问题,但我们不会在这里讨论这个问题)——所以审稿人需要对适合该场所的贡献水平有所了解,这样他们的分数才具有广泛的可比性。

拒绝好论文的坏理由

回顾本质上是一种判断。多年来,我们已经详细讨论了我们的评审流程,这些流程确实很重要——我们已经对它们进行了调整,我认为在许多方面都改进了它们——但从根本上说,同行评审依赖于一群适当的专家和明智的人的知情判断。所以这个笔记不是关于过程的。相反,它指出了人们一次又一次看到的一些糟糕的论证形式。如果有人看到其中的一个,或者(尤其是!)如果有人发现自己正在写一个,警钟应该响起……

  1. 我本可以做得更好,如果我有时间的话。
  2. 我可以想象一些我更喜欢的完全不同的研究。
  3. 我可以想象一些我更喜欢的完全不同的阐述(当然,建议可行的改进是有用的)。
  4. 它对我来说不是独立的/可访问的,因为我不知道它所基于的工作(即使它尽可能地概括了)(在这种情况下,审稿人必须给出一个非专家的观点,而人们应该寻找更多具有正确背景的专家审稿人)。
  5. 它不是自包含的,因为这个项目太大了,所有的细节都无法在页面限制内容纳。
  6. 我想要更多的例子/讨论(神奇地符合页面限制)。
  7. 我想要额外的评估(即使它在支持索赔方面做得很好)。
  8. 我只是对它不感兴趣(尽管这在一个重要问题上是一个明显的进步)(我们的ABCD识别冠军评分在许多方面都很好,但对于达到这一点的论文来说,它就失败了)。
  9. 我把它看成是关于X的,尽管它实际上是关于Y的。
  10. 我评估这篇论文就好像它是一篇X类型的论文,即使它实际上是Y类型的论文(PL涵盖了许多不同类型的论文,具有不同的价值和标准)。
  11. 它是关于语言设计的(如果是PLDI则是加分项)。
  12. 这太数学化了(如果是POPL会加分)(这通常是4的实例)。
  13. 它是关于实际语言的语义的,这使得它变得复杂(如果是POPL则是加分项)。
  14. 他们没有机械化所有的证明(尽管他们没有声称他们这样做了)。
  15. 之前的一篇论文声称可以做到这一点(尽管它并没有真正包含这一点,或者在本文提交之前没有出现)。
  16. 它可以再通过一遍(作者会感谢我们拒绝它)(偶尔这种情况最终会发生,但代价很大,尤其是对初级作者的职业生涯而言)。
  17. 它呈现的是一个大项目,而不是一个可以在几页纸中完全解释清楚的聪明/可爱的想法(这些是不同类型的论文;两者都很好)。
  18. 这里的想法太简单了(尽管它非常有用,而且之前没有人将其充实并发表)。
  19. 它是增量的w.r.t.以前的工作(即使它是一个增量——大多数研究必然是在推进先前的工作)。
  20. 这感觉更像是一篇针对X场所的论文(尽管它完全可以放在这里)(通常PC椅必须在办公桌上拒绝几篇真正超出范围的论文)。
  21. 这应该是一篇期刊论文(不管是好是坏,PL都是基于会议出版物)。
  22. 作者在他们的网页/ arxiv /上放了一个版本作为技术报告(这是我们正常的轻量级双盲(LDB)政策明确允许的,否则正常的科学交流将被抑制;LDB的重点只是让审稿人正常地进行审查,而不存在第一印象偏见)。
  23. 我正在做一个与之竞争的项目(研究不是零和游戏:如果形成了一个新的领域,有多个团队做出贡献,每个人都是赢家,所以包容性要好得多)。
  24. (最后是经典篇)它没有引用我的论文。

其中很多都可以归结为对作者和他们所付出的工作的应有的尊重——他们通常在提交的作品上花费1到10个人年,而审稿人可能只花了一天。审稿人必须形成判断,尽管投资不匹配,但有时会比作者更能理解事情,但应该谨慎地假设自己的第一反应一定是正确的。人们还应该谨慎地认为,需要进行完全不同的研究或阐述。作者可能已经在那里尝试过了,在任何情况下,人们都必须回顾手边的论文,而不是某个假设的其他人。人们应该小心混淆建议(或突发奇想!)和要求;在写一篇评论时,重要的是要将证明你的观点的要点与随意的想法和建议区分开来。

他们还强调,审稿人需要保持冷静,并意识到自己的偏见:尽可能地评估接受论文是否对研究对象最有利,而不是他们个人有多喜欢这篇论文。

当然,没有一个是绝对的——即使上面的最后一个原因在特定情况下也可以成为合理的抱怨,例如,如果那篇未被引用的论文使提交的工作失去意义。

另一个糟糕的原因出现在讨论中,在第一个评论写完之后。在这个过程的最后,一个人必须做出接受/拒绝的决定,但在这个过程中,我们很容易将当前的分数视为客观的评估,例如说这是一篇B级的论文。”讨论和作者回应的全部重点是考虑评论是否错误或错误校准——否则我们只是根据原始分数来排序论文。

拒绝劣质PL论文的好理由

另一方面,不幸的是,并不是所有的论文都是好的,我们不应该回避拒绝质量差的工作,以免这个主题被虚假污染。回到上面的列表,按重要性递减的顺序:

  • 动机是真实的吗?论文是否解决了一个重要的问题?(有时候,仅仅是发现了一个重要的问题就是一个重要的贡献。)
  • 如果这些说法属实,会构成重大进展吗?
  • 这些说法有根据吗?技术上可靠吗?
  • 它是否写得很好——足以让读者(有适当的背景)理解?

对这些问题中的任何一个明确的“不”,都应该将该报纸排除在任何严肃的场合之外。详情如下:

  1. 它没有解释动机——它没有清楚地解释为什么人们应该关心。
  2. 动机论是虚假的。
  3. 这项工作在技术上是正确的,但毫无意义(基本上是上述的重新措辞)。
  4. 这些声明(假设它们被证实)不会显著地推进主题(它实际上是对先前工作的微小增加)。
  5. 这项工作很有前途,但就目前情况来看,这笔钱不够这个场地用。
  6. 以前确实有人这样做过。
  7. 这些说法具有误导性:作品被过度推销,作者不清楚其局限性,也不清楚与之前作品的关系。
  8. 这些说法是未经证实的:它没有给出实际的证据或数据,也没有一个很好的理由。
  9. 这些声明是未经证实的:评估太有限或缺陷太大,无法支持这些声明。
  10. 与该领域的正常实践相比,它在理论上或实验上基本上不那么严格。
  11. 这在技术上是错误的(并且不能直接修复)。
  12. 文章的阐述太糟糕了,以至于(即使是见多识广的读者)都很难理解作者到底做了什么。

当争论一篇论文应该被拒绝,或者为作者总结计算机委员会的决定时,准确地确定这些(或其他)原因中的哪一个可以证明这一点可能是有用的。

关于评论者选择的题外话

以上是关于我们如何作为个人进行审查,但在此之前是审查人员的选择,这通常取决于PC主席和他们和周围组织设置的过程,以及PC成员的仔细竞标。为每篇论文找到足够多的具有适当专业知识和良好判断力的审稿人,例如,每篇论文的目标是两名专家,这是我们可以做的最重要的事情,以改善我们的决策。

这篇笔记不是关于过程,但我也想指出,我们通常实现轻量级双盲提交的方式,虽然这是为了避免第一印象偏见,但也使得做到这一点变得更加困难。现在,大多数评审员都是从一个相对较小的PC或ERC库中挑选出来的,而且可能是自动分配的,而不是利用整个PC的知识和联系来找到最好的专家。

结论

那么接下来呢?审查过程总是不完美的,但我们可以将这些指导方针社会化,讨论并改进它们,以鼓励更深思熟虑的审查。PC椅(或整个SIGPLAN)可能会选择将其中的某些版本纳入我们提供给审稿人的指南中——Amal Ahmed和Jan Vitek最近使用了一个编辑过的版本,作为OOPSLA 2022审查指南的一部分。作为个人审稿人,在审稿讨论中,我们可能会更清楚地关注接受和拒绝论文的合法和有用的理由。

彼得·休厄尔他是剑桥大学计算机科学教授。他审阅了几篇论文,自己的一些论文被接受了,也被拒绝了。


没有找到条目

登录全面存取
忘记密码? »创建ACM Web帐户
Baidu
map