PNAS：ChatGPT作为科研学家的能力

本期推荐一篇最新发表在PNAS上的论文《ChatGPT作为科研学家：探讨GPT作为研究图书管理员、研究伦理学家、数据生成器和数据预测者的能力》。随着人工智能技术的迅猛发展，大型语言模型（如ChatGPT）在各个领域的应用前景广泛，其中，科研领域的潜在应用尤为引人关注。然而，尽管这些技术已经被广泛采用，ChatGPT是否能够有效促进科学发现和科研流程的改进，仍然缺乏系统性的实证研究。因此，该研究旨在探讨ChatGPT在科学研究中的多重角色，评估其作为研究图书管理员、研究伦理审查员、数据生成器和新数据预测者的能力。

研究通过四个实验系统性地探讨了ChatGPT的能力。首先，研究人员评估了ChatGPT在文献管理中的表现，要求其为特定心理学主题生成文献引用，并检测其引用的真实性和完整性。接着，研究设计了包含明显或隐蔽统计问题的虚构研究场景，以测试ChatGPT在识别和纠正研究不当行为（如p值操控）上的表现。第三个实验则评估了ChatGPT在数据生成中的能力，特别是其模拟已知社会偏见（如性别刻板印象）的能力。最后，研究测试了ChatGPT在训练数据之外预测新数据模式的能力，要求其预测跨国隐性与显性态度，并将结果与真实数据进行对比。

研究发现，ChatGPT在不同任务中的表现参差不齐。GPT-4在文献管理上比GPT-3.5有显著改进，生成虚假引用的比例较低，且能够承认部分虚假信息。然而，在处理较狭窄的主题时，GPT-4依然容易出现引用错误。在研究伦理审查方面，GPT-4表现出色，能够有效识别并纠正研究中的伦理问题，尤其是在面对复杂和隐蔽的统计问题时。数据生成实验显示，ChatGPT能够模拟已知的社会偏见模式，但有时结果偏离已有研究，表明其在处理社会敏感内容时可能存在潜在的偏差。最后，在新数据预测实验中，无论是GPT-3.5还是GPT-4，都未能成功预测训练数据之外的隐性态度，显示其在生成新科学发现方面的局限性。

总体而言，研究表明ChatGPT在科研流程中具有一定的应用潜力，尤其是在研究伦理审查和已知数据生成方面。然而，它在新数据预测和文献管理中的局限性也表明，人工智能目前尚无法完全取代科研人员在创新和发现中的角色。

论文原文:

PNAS，Vol. 121 No. 35，August 2024

ChatGPT as Research Scientist: Probing GPT’s capabilities as a Research Librarian, Research Ethicist, Data Generator, and Data Predictor

Steven A. Lehr, Aylin Caliskan, Suneragiri Liyanage，et al

唧唧堂学院推荐订阅

以下专栏及课程，安卓手机用户可通过下方小程序链接订阅，苹果手机用户请通过文末“阅读原文”链接访问唧唧堂学院H5页面订阅。

论文导读