德国BG诊所：ChatGPT在同理心方面，比专家更好

专注AIGC领域的专业社区，关注微软&OpenAI、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！

自ChatGPT问世以来，在医学领域一直发挥非常出色。例如，在德国医学国家考试中的得分超过了人类学生，平均得分74.6%，正确回答了630个问题中的88.1%。

在实际医疗应用中，ChatGPT对284个跨17个专科的医疗查询生成了比较准确的信息，且随着时间推移通过强化学习不断改进；在骨科运动医学领域，其对样本问题的回答准确率高达65%。

为了进一步挖掘ChatGPT的应用潜力，德国路德维希港BG诊所的研究人员通过分析100个来自创伤外科、普通外科、耳鼻喉科、儿科和内科5大类的健康相关问题，比较了ChatGPT与经验丰富的专家（EP）的回答。结果显示，ChatGPT在同情心和实用性方面比专家更好。

为了全面评估患者对AI助手的感知，研究人员使用了多步骤的方法。首先，从一个面向患者的网络平台中收集了100个公开的健康相关问题，这些问题涵盖了5大不同的医学专业领域：创伤外科、普通外科、耳鼻喉科、儿科和内科。每个专业领域各选取了20个问题，以确保样本的多样性和代表性。

然后，研究人员使用ChatGPT-4.0生成了针对这100个问题的回答，并将这些回答与来自同一网络平台的专家的回答进行了对比。

为了保证评估的客观性，所有问题和回答都被匿名化处理，并打包成10个每组包含10个问题的数据集。这些数据集随后被分发给患者和医生进行评估。

患者和医生分别对ChatGPT和专家的回答进行了评价。患者主要关注的是回答的同理心和实用性，具体通过一个问题：“这个回答对你有帮助吗？”来进行评分，评分范围从1到5。

医生则除了评估同理心和实用性外，还需要评价回答的正确性和潜在危害。所有评分均采用5分制，其中1表示非常不满意或不正确，5表示非常满意或完全正确。

为了确保评估的公正性，所有参与者在评估过程中均不知道回答是由ChatGPT还是专家提供的。此外，研究团队还要求患者提供年龄、性别等基本信息，以便进一步分析这些因素对评估结果的影响。医生则需要提供他们的从业年限，以评估经验对评估结果的影响。

患者对ChatGPT的回答普遍给予了较高的评价。在同理心方面，ChatGPT的平均评分为4.2（标准误0.15），而专家的平均评分为3.8（标准误0.18）。在实用性方面，ChatGPT的平均评分为4.1，而专家的平均评分为3.7。这些结果表明，患者认为ChatGPT的回答比专家的回答更具同理心和实用性。

进一步的分析显示，患者的年龄和性别对评估结果没有显著影响。然而，患者的教育水平和社会经济地位可能会影响他们对ChatGPT的接受程度，但由于本研究未收集这些数据，因此无法进行详细的分析。

医生对ChatGPT的回答也给予了较高的评价。在同理心方面，ChatGPT的平均评分为4.3，而专家的平均评分为3.9（。在实用性方面，ChatGPT的平均评分为4.2（标准误0.15），而专家的平均评分为3.8（标准误0.17）。

在正确性方面，ChatGPT的平均评分为4.5（标准误0.13），而专家的平均评分为4.1（标准误0.15）。这些结果进一步证实了患者对ChatGPT的积极评价。

值得一提的是，医生对ChatGPT的回答在潜在危害方面的评分也较低。ChatGPT的平均潜在危害评分为1.2（标准误0.08），而专家的平均潜在危害评分为1.5（标准误0.10）。这表明，ChatGPT的回答不仅在同理心、实用性和正确性方面表现优异，而且在避免潜在危害方面同样出色。

本文素材来源德国BG论文，如有侵权请联系删除

END