计算机科学家吹毛求疵吗?我们是否比其他学科的科学家和工程师更挑剔?贝特朗·迈耶2011年8月22日计算机科学中的肮脏问题博客文章部分引用了来自美国国家科学基金会(NSF)的二手信息。下面是一些NSF的数据来支持我们过于吹毛求疵的说法。
该图表描绘了2005年至2010年提交给NSF的所有提案的平均审稿人评分(红线),仅计算机与信息科学与工程(CISE)(绿线),NSF减去CISE(蓝线)。建议的评分基于1(差)到5(优)的范围。例如,2010年,CISE所有项目的平均审稿人评分为2.96;所有NSF董事,包括CISE, 3.24;所有NSF董事,不包括CISE, 3.30。
以下是公正奖(已资助的提案)的数字
只是拒绝(提案没有得到资助):
底线很清楚:CISE评审员给CISE提案的评分平均比其他董事提案的评分低0.41分。差别稍微好一点。29分)和稍差的(。42点)。
我们的吹毛求疵是如何伤害我们的?在基金会范围和多理事会计划中,CISE计划与非CISE计划竞争。当CISE提案得到“优秀、非常好、非常好”的评价时,它无法与非CISE提案的“优秀、非常好、非常好”相竞争,尽管CISE评审员给出的“非常好”可能等同于非CISE评审员给出的“优秀”。在哪些基金会范围内的项目中,这会伤害到我们?一些长期成立的机构包括:科学和技术中心(STC),主要研究仪器(MRI),研究生研究奖学金(GRF),综合研究生教育和研究培训(IGERT),国际研究和教育伙伴关系(PIRE),产学研合作研究中心(I/UCRC)。最近一些跨基础的举措包括:网络支持的发现和创新(CDI);可持续科学、工程和教育(SEES);以及持续创新的软件基础设施(SI2)。最近的一些多部门计划包括:国家机器人计划(NRI)和网络学习转型教育(CTE)。当我还是CISE AD的时候,最让我痛苦的一件事是每年从NSF的职业奖获得者中选出那些由NSF主任提名的科学家和工程师总统早期职业奖(PECASE)的人。 To the foundation-level selection committee, I remember having to make forceful arguments for CISE's top CAREER awardees because they had "very good”s among their ratings, whereas all other directorates' reviewer scores for their nominees were "excellent”s across the board. What is the Director of NSF to do when deciding the slate of nominees to forward to the President?
幸运的是——或者不幸的是——消息在NSF内部已经充分传开了:众所周知,CISE社区对提案的评价低于NSF的平均水平。所以我的工作就是不断地提醒基金会的其他成员和主任注意这个现象。这仅仅是我们吹毛求疵的反映,而不是我们所做研究质量的反映。
为什么我们如此吹毛求疵?我有三个假设。其一,这是我们的天性。计算机科学家喜欢调试系统。我们被训练去考虑极端情况,为失败而设计,发现并修复缺陷。当我们的程序中出现最小的语法错误时,计算机是不会原谅的;我们从事研究工作,致力于设计编程语言和构建软件工具,以确保我们不会犯可能导致灾难性后果的愚蠢错误。甚至可能是这个领域的本质吸引了某种个性。第二个假设是,我们是一个年轻的领域。与数学和其他科学和工程学科相比,我们仍然在坚持自己。 Maybe as we gain more self-confidence we will be more supportive of each other and realize that "a rising tide lifts all boats." The third hypothesis is obvious: limited and finite resources. When there is only so much money to go around or only so many slots in a conference, competition is keen. When the number of researchers in the community grows faster than the budget—as it has over the past decade or so—competition is even keener.
我们该怎么办呢?首先,我们的社区应该意识到这个话题并进行公开讨论。我绝对反对分数膨胀,但我确实认为我们可能对我们的提案质量、我们社区研究人员的质量和我们研究的质量产生了错误的印象。对于国家科学基金会,我有一个具体的建议。当人们看到提交给NSF董事会而不是CISE的提案的审查时,虽然评级可能是“优秀”,但审查本身可能包含详细的,通常是建设性的批评。当项目经理做出资助决定时,他们会阅读评论,而不仅仅是评级。因此,我们应该意识到,我们仍然可以在书面评论中持批评态度,但在评分时要更加慷慨。我特别担心不必要的低评分或不足的评论会让优秀的人甚至不愿提交建议,更不用说追求好想法了。
现在是我们社区讨论这个话题的时候了。数据支持“我们吹毛求疵”的说法,但如何应对则取决于我们自己。
请注意这些数字的注意事项:(1)我从电子表格中获取这些数字,其中有一个条目是“NSF整体”和每个董事会。我没有使用“NSF整体”的数字来计算NSF-CISE的数字,而是从所有董事的总数中减去CISE的数字。这导致了“NSF-CISE”数字中一些数字的微小差异,但不影响底线结论。(2)在这些数字中有许多平均数的平均数。例如,CISE的“获奖”数字代表了所有CISE项目的平均分数的平均值,“下降”的数字也是如此。纵观所有NSF(以及类似的CISE)项目,在评级和提交的提案数量(以及类似的授予或拒绝)方面有很大的差异。(3)由于我不再能够访问原始数据,而且我的电子表格缺少注释,我无法立即解释(1)中指出的差异或电子表格中的一些数字是如何计算的。在2010年5月的会议上,我向CISE咨询委员会展示了2010年的数据,并指出2005-2009年的数据是相似的。
解决这个问题的另一种方法是改变制度,使审查人员不提供建议书的绝对评级,而是提供建议书的比较排名。这消除了每个审稿人普遍倾向于低度或高度批判性的影响
几年前,我就这个问题写了一篇论文:
http://research.microsoft.com/apps/pubs/default.aspx?id=80226
约翰赏钱
微软研究院
我不敢相信这些粗制滥造的统计分析竟然被当成“科学研究”。在当今这个时代,令人震惊的是,有人只显示CISE和非CISE的平均值,而不做学生t检验或曼-惠特尼-威尔考克森检验,以查看结果是否具有统计学意义。工作的结论有效性几乎为零。也许如果我们拒绝这篇博客文章,作者会得到信息,并在她的下一篇文章中做得更好。
——杰米·安德鲁斯
西安大略大学
(是的,我在开玩笑)
其他非cise学科的分布/曲线是什么?CISE真的是一个异常值吗,还是一个相当大的范围?
关于CISE提案确实值得这些评级的假设呢?我们不能仅仅因为它对我们不方便就取消它。
这难道不表明,比较跨学科的审查员的数字分数,甚至在程序委员会会议中是没有意义的吗?
我还想知道另一项研究的得分。CISE是一个异类吗?
造成这种情况的一个主要原因是CS对高选择性会议的重视。在计算机科学中,你所做的一切都要经过激烈竞争的过滤。一切都是零和游戏,每个人的好论文最终都被拒。因为作者也是审稿人,所以接受门槛也在不断提高。最后,只有杰出的贡献才足够好,甚至这些贡献的重要性也会在计划委员会会议上激烈辩论。显然,这涉及到提案评估。消除这一问题的唯一办法是取消这些高度选择性的会议。500年来,科学在没有它们的情况下仍然很伟大,但它们弊大于利。让会议就是会议(即只是讨论东西的地方),依靠期刊的高选择性。期刊审稿过程不存在会议审稿的问题。
我的假设是,10-20年前,计算机科学研究人员只需要与其他CS研究人员竞争,通常是为了有针对性的资金。对其他研究“吹毛求疵”意味着你的研究(或你的子学科,或你的合作者/朋友)更有可能获得资助。如今,CS不再有针对性的资助,它只是一般科学和工程资助组合中的另一个学科。
显然,当我们与更广泛的群体竞争时,我们的习得行为不再适合这种情况。
消除这个问题的唯一办法是取消这些高选择性的会议。期刊审稿过程不存在会议审稿的问题。
哦,来吧。既然“问题”在于选择性,那么高选择性的期刊就和高选择性的会议一样糟糕。与物理学家谈论《写给自然的信》(简称prl),谈论在一周的期限内审稿的困难,谈论如何将参考文献压缩到两到四页纸上,引用只包括第一作者、期刊和页码——结果是,活跃的研究人员更多地关注非正式的网络“档案”,而不是图书管理员认为的任何“档案”。
我不认为研究人员在物理或生物(或英语英语)方面的竞争力有所下降。不同之处在于,其他学科在“为自己的地盘而战”方面有着几十年的经验,而我们计算机科学家却不知道出于什么原因,认为这是不值得的。
不管是好是坏,计算机科学是在747之后成熟的——我们以会议为基础的出版物结构反映了这一点。
我很高兴看到报告的数据是“吹毛求疵”而不是肮脏的。我们确实吹毛求疵,这是完全可以解释的。
猜想:不存在肮脏的问题,只是两个内在因素的交汇。首先,我们是一个(比其他领域)更关注概念新颖性的领域。其次,计算机科学中很少有概念上的新东西,特别是在应用方向上,特别是在提案(而不是论文)层面。
为了支持猜想:
-我看过很多物理评论。(我妻子是物理学家。)他们绝不比CS更“专业”。别的不说,他们更可恶。
-我们所在的领域训练我们分析一切事物,专注于概念上的新颖性。我们的思维过程让我们提炼一切,然后以复杂的方式组合。“软件是提炼出来的复杂性”等等。
-在计算机科学的大多数领域,概念上的新颖性真的很难。即使是最著名的想法在高层上也与以前做过的事情相似。有趣的“转折”总是低级的。对于提案来说,这是致命的,因为没有证据(例如,实验或新的算法)证明某人所做的确实是新的。人们必须依靠高层次的直觉。这不是其他科学的情况。当一个人说“我将用这种生物机制来解释/影响这种现实生活中的现象”时,毫无疑问,这是一种概念上的新奇。这可能是以前做过的,也可能不是。唯一的问题是它是否可信,是否可行以及PI是否是做这件事的最佳人选。