本期推荐一篇最新发表在PNAS上的论文《ChatGPT作为科研学家:探讨GPT作为研究图书管理员、研究伦理学家、数据生成器和数据预测者的能力》。随着人工智能技术的迅猛发展,大型语言模型(如ChatGPT)在各个领域的应用前景广泛,其中,科研领域的潜在应用尤为引人关注。然而,尽管这些技术已经被广泛采用,ChatGPT是否能够有效促进科学发现和科研流程的改进,仍然缺乏系统性的实证研究。因此,该研究旨在探讨ChatGPT在科学研究中的多重角色,评估其作为研究图书管理员、研究伦理审查员、数据生成器和新数据预测者的能力。
研究通过四个实验系统性地探讨了ChatGPT的能力。首先,研究人员评估了ChatGPT在文献管理中的表现,要求其为特定心理学主题生成文献引用,并检测其引用的真实性和完整性。接着,研究设计了包含明显或隐蔽统计问题的虚构研究场景,以测试ChatGPT在识别和纠正研究不当行为(如p值操控)上的表现。第三个实验则评估了ChatGPT在数据生成中的能力,特别是其模拟已知社会偏见(如性别刻板印象)的能力。最后,研究测试了ChatGPT在训练数据之外预测新数据模式的能力,要求其预测跨国隐性与显性态度,并将结果与真实数据进行对比。
研究发现,ChatGPT在不同任务中的表现参差不齐。GPT-4在文献管理上比GPT-3.5有显著改进,生成虚假引用的比例较低,且能够承认部分虚假信息。然而,在处理较狭窄的主题时,GPT-4依然容易出现引用错误。在研究伦理审查方面,GPT-4表现出色,能够有效识别并纠正研究中的伦理问题,尤其是在面对复杂和隐蔽的统计问题时。数据生成实验显示,ChatGPT能够模拟已知的社会偏见模式,但有时结果偏离已有研究,表明其在处理社会敏感内容时可能存在潜在的偏差。最后,在新数据预测实验中,无论是GPT-3.5还是GPT-4,都未能成功预测训练数据之外的隐性态度,显示其在生成新科学发现方面的局限性。
总体而言,研究表明ChatGPT在科研流程中具有一定的应用潜力,尤其是在研究伦理审查和已知数据生成方面。然而,它在新数据预测和文献管理中的局限性也表明,人工智能目前尚无法完全取代科研人员在创新和发现中的角色。
PNAS,Vol. 121 No. 35,August 2024ChatGPT as Research Scientist: Probing GPT’s capabilities as a Research Librarian, Research Ethicist, Data Generator, and Data PredictorSteven A. Lehr, Aylin Caliskan, Suneragiri Liyanage,et al