ChatGPT能给出有价值的同行评审意见吗？

自2022年底ChatGPT发布以来，有人注意到了一个趋势：ChatGPT越来越多地被用于论文的同行评审中。

有几个明显的迹象。AI工具撰写的审稿意见往往语气正式、文字冗长，这通常与大语言模型（LLMs）的写作风格有关。例如，现在同行评审中诸如“commendable [值得称赞]”和“meticulous [一丝不苟]”之类的词比2022年之前多出十倍。AI生成的审稿意见往往也是肤浅而笼统的，通常没有针对该论文的特定意见，且缺乏参考文献。

来自美国斯坦福大学的研究者检查了2023-2024年约5万篇计算机领域会议论文的同行评审。根据写作风格和某些单词出现的频率，估计7-17%的句子是由LLMs撰写。

原文链接：https://proceedings.mlr.press/v235/liang24b.html

时间不够可能是审稿人使用LLMs撰写审稿意见的原因之一。在截止日期前提交的评审意见中，LLMs撰写的比例更高。这种趋势估计还会加剧。

LLMs的使用应该限于某些任务，如纠正语法、回答与论文相关的简单问题、识别某些信息。如果不负责任地随意使用，LLMs可能会破坏科学的完整性。因此，学术界亟需制定规范，以指导如何在同行评审过程中合理使用这些模型。

首先，必须认识到，目前的LLMs无法取代审稿人。尽管LLMs具有一定的能力，但它们无法进行深入的科学推理，有时还会进行无意义的回复。《NEJM AI》的一项研究显示，研究者普遍抱怨LLMs的审稿意见缺乏深度，尤其是在评审论文的研究方法时。此外，LLMs也很容易忽视论文中的错误。

原文链接：https://ai.nejm.org/doi/10.1056/AIoa2400196

LLMs可能适合某些场景。对于审稿人，AI聊天机器人可以帮助在提交审稿意见前提供建议，使得模糊的建议更具操作性；或者对论文中可能被审稿人遗漏的部分进行强调。对于编辑，LLMs可以检索和总结相关论文，以帮助他们了解研究背景，并验证论文的提交是否遵循了清单（例如，确保正确报告统计数据）。这些环节使用AI的风险相对较低，如果实施得当，可以节省编辑和审稿人的时间。

不过，即使在执行低风险的信息检索和任务总结时，LLMs也可能会犯错。因此，LLMs输出的内容应被视为起点，而不是最终答案。用户仍应对LLMs输出的内容进行检查。

期刊和会议可能会尝试使用AI算法来检测同行评审和论文中LLMs的使用情况，但其效果有限。此类检测可以突出显示AI生成的文本，但很容易产生误报。例如，将非英语母语研究者撰写的文本标记为“AI生成”。检测器通常很难区分LLMs的合理使用（如论文润色）和不恰当使用（如使用聊天机器人撰写整篇报告）。

归根结底，防止AI主导同行评审的最佳方法可能是在此过程中促进更多的互动。OpenReview（网址：https://openreview.net/）等平台鼓励审稿人和作者进行匿名互动，通过多轮讨论解决问题，目前已被一些会议和期刊采用。

在学术写作和同行评审中使用LLMs是无法阻止的。为应对这一转变，期刊和会议应制定明确的指南。期刊至少应要求审稿人披露在审稿过程中是否以及如何使用LLMs。还需要适应AI时代的创新型交互式同行评审平台，从而能够限制LLMs的任务范围。与此同时，还需开展更多研究，以探索AI如何更精准地协助完成同行评审任务。建立规范将有助于确保LLMs既有利于编辑、审稿人和作者，又不损害科学完整性。

本文整理自：https://www.nature.com/articles/d41586-024-03588-8