假论文越来越多，ChatGPT等工具或让“论文工厂”更加泛滥

有了新的文本和图像生成工具，假论文将越来越多，防止它们进入学术文献库也越来越难。

人工智能（AI）的进步使出版机构更难应付论文工厂了——论文工厂特指那些根据要求生成虚假论文的公司。生成式AI工具，包括ChatGPT和图像生成软件一类的对话机器人，为论文工厂的内容生产提供了新渠道，而这些工具生成的内容可能很难被发现。科研诚信专家们在5月24日举行的聚焦论文工厂问题的峰会上探讨了以上挑战。

“有了AI之后，论文工厂对原始数据的造假能力将再上一个台阶。”澳大利亚新南威尔士健康病理学和悉尼大学的分子生物学家、出版诚信研究员Jennifer Byrne说。

图｜能生成真实感图像和文本的人工智能工具正在成为打击论文造假的绊脚石。

“我见过AI生成的假的显微镜图像，”欧洲生物学会联合会出版社的图像数据诚信分析师Jana Christopher说，但要绝对证明图像是AI生成的并不容易。

ChatGPT这类语言生成式AI工具带来了类似的问题。“一旦你有办法证明这是ChatGPT生成的，肯定就会有别的工具来掩盖它。”

流水线论文

柏林自由大学社会科学家、独立的科研诚信分析师Anna Abalkina认为，AI工具进入学术文献库可能会有一个滞后效应，因为同行评审流程需要时间。她说，可能在接下来几个月里，“我们会看到第一批流水线论文。”

Byrne、Christopher和Abalkina都出席了不久前举办的UNITED2ACT峰会，该峰会由英国关注学术出版道德的非营利机构国际出版伦理委员会（COPE）与国际科学技术与医学出版商协会（STM）共同举办。这次峰会召集了全球科研人员，包括独立的科研诚信分析师，以及各资助机构和出版社的代表。

COPE受托人、科研诚信咨询师Deborah Kahn说：“这是大家首次聚在一起，共同为解决这一问题出谋划策。”这个团队计划很快发布共同行动计划。

要识别论文工厂的假论文，“还有识别合成图像、合成文本等等的额外问题，”STM解决方案项目主管Joris van Rossum说，“大家普遍意识到，筛查这些内容将变得越来越难。

AI助手

Kahn说，虽然AI在支持科研人员写作方面肯定会有帮助，仍有必要区分AI协助写出的合规论文和完全伪造的论文。她说：“我们必须看看如何才能发现这些假论文，并确保研究是作者自己做的。这里其实有很多方法。”

峰会上探讨的一个策略是要求作者提供实验的原始数据，可以是有数字水印的数据，好让出版机构证实这些数据的真实性。

Christopher说，当前，不同出版机构对提交原始数据的要求不一样。她说，各个出版机构可以统一对原始数据的提交要求，并考虑到不同研究领域的差异，这么做可能会有帮助。

英国泰勒-弗朗西斯出版社（Taylor & Francis）的出版道德与诚信主管Sabina Alam表示同意，但指出这类标准不可能立即执行。“我无法想象一夜之间就转变过来，因为现实是，许多研究机构并没有能提供数据管理基础工具的资源，”她说，“我们不想让真正的研究受到不公正的对待。”

信息共享

这次峰会还探讨了应对论文工厂的其他一般策略，包括组织面向科研工作者的宣传日或宣传周，以及让出版机构能在不违反数据保护条例的前提下，相互之间分享相关讯息或是可疑的论文工厂，比如当不同出版机构同时收到相同的投稿时。

STM仍在开发识别论文工厂的软件，同时通过其诚信中心汇总其他地方的类似工具。论文工厂肉眼可见的增加提出了对这类技术的需求——出版机构不仅要在作者投稿时识别虚假论文，还要能发现那些已经出版过的论文。

泰勒-弗朗西斯出版社和其他出版社已经在使用这些工具了，Alam表示，她的团队看到了越来越多的科研道德案例——需进一步调查的潜在学术不端行为。Alam说，这些案例中近一半都与论文工厂有关。她的团队发现，从2019年到2022年，科研道德案例的数量增加了10倍多，而今年到目前为止，道德案例的数量已经与2022年全年持平。她说：“整体上似乎有商业化和升级的趋势。”

原文以“AI intensifies fight against ‘paper mills’ that churn out fake research”标题发表在2023年5月31日《自然》的新闻版块上

doi: 10.1038/d41586-023-01780-w

本文由施普林格·自然上海办公室负责翻译。中文内容仅供参考，一切内容以英文原版为准。欢迎转发至朋友圈，如需转载，请邮件China@nature.com。未经授权的翻译是侵权行为，版权方将保留追究法律责任的权利。

｜点击关注我 👇 记得标星｜