社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

把 ChatGPT 诊断成「老年痴呆」后,这群医生怒发一篇 93 分顶刊

丁香园肿瘤时间 • 2 周前 • 7 次点击  

本文作者:缇娜、z_popeye

一觉醒来天塌了,ChatGPT 得老年痴呆了?


最近,BMJ 2024 圣诞特刊发布,一则关于大语言模型(LLM)的研究瞬间吸引了所有关注。

BMJ 论文截图

这则题为 Age against the machine—susceptibility of large language models to cognitive impairment: cross sectional analysis 的研究突发奇想地给 3 款(5 个版本)公开可用的「聊天机器人」看了个病,分别测试了它们的认知障碍程度。

结果发现,这不是很妙啊……


ChatGPT,可能没你想得好用

自从大语言模型诞生以来,「聊天机器人」能否取代临床医生的讨论就一直甚嚣尘上。

这还真不是大话。

比如,复旦就有研究显示,让 ChatGPT 考执医,成绩居能碾压 70% 医生。

更有甚者,还有 17 位医生都治不了的病,最后竟然被 ChatGPT 确诊了!

当然,情况并非一边倒,也有一些研究发现,ChatGPT 可能并不如想象般可靠。

今年 4 月,发表于 NEJM 旗下研究人工智能的期刊 NEJM AI 的一篇文章[1]就指出,大语言模型在一些看似简单的临床工作中,表现得有点一言难尽。

论文截图

研究人员找了个真的蛮简单的活儿:根据病历,将患者诊断归入国际疾病分类(ICD)。

说实话,这点小事,科室里随便抓两个研究生也能干。

数据来源西奈山医院病历系统的患者资料,经脱敏后「喂给」大语言模型,然而,结果却让研究人员大跌眼镜:

在匹配过程中,多个知名大语言模型的匹配契合度从未超过 50%,其中成绩最好的 GPT-4 对 ICD-9-CM 和 ICD-10-CM 的匹配契合度仅为 45.9% 和 33.9%,而成绩最差的 Llama2-70b Chat 在这两项疾病编码上的匹配契合度仅为 1.2% 和 1.5%。

老天!抓两个研究生来也不可能这么低!

面对这样的结果,研究人员着重提醒,应注意大语言模型在某些方面存在的天然缺陷:

由于大语言模型「学习」ICD 等编码系统时需要将疾病编码这种非语言文字进行标记化(tokenization,指将原始文本表示为更小单元(token)的处理过程),而非语言文字的标记化是大语言模型的天生弱点,所以其表现才会如此糟糕。

如此来看,ChatGPT 想要取代临床医生,确实还早得很。


你让 ChatGPT 画个表,ChatGPT 还你一堆乱码

屋漏偏逢连夜雨,船破又遇顶头风。

BMJ 最新这篇研究,严肃中带着幽默地呈现了一个事实:

ChatGPT,好像真的有「病」。

研究人员在论文中首先进行了一个「欲抑先扬」,肯定了 ChatGPT 目前的成绩,在一些列医学考试中都曾力压专业的人类医生。

「令我们非常痛心的是,它们在神经病学委员会考试中,比我们考得还好!」3 位作者中的 2 名神经病学家如是写道。

于是,2 位神经病学家+ 1 位数据科学家一拍即合,决定给 ChatGPT 看个病:

「人工智能已经被用于评估痴呆症的发病率,那怎么没人问问,人工智能自己会不会也有痴呆呢?

为了评估大语言模型是否真的存在认知障碍,研究人员引入了多种临床上通用的认知能力评估工具,其中以蒙特利尔认知评估量表(MoCA)最为著名。

神经科的同行们想必不会陌生,MoCA 已被广泛用于轻度认知障碍、阿尔茨海默症和其他一些痴呆疾病的病情评估,其中,英国阿尔茨海默症协会认可 MoCA 用于诊断,而美国国立卫生研究院则推荐 MoCA 用于筛查血管性痴呆[4~7]

由此可得,由 MoCA 当裁判——

《让子弹飞》电影截图

MoCA 包括了短期记忆、视觉空间能力、执行功能、注意力与工作记忆、语言、抽象推理和定位共 7 个部分的评估。在测试过程中,MoCA 除了包含大量的医患一对一对话,还设计了很多强互动性质的测试项目。

比如画画。

MoCA 的视觉空间能力评估模块,要求受试者画出一个显示特定时间的时钟,这样的互动性测试,不仅有助于排除患者身上的一些干扰因素,也在一定程度上避免评估人员的主观想法影响评估。 

当然,对于普通人来说,画个表显然不成问题(图 A)。

但随着认知障碍带来的视觉空间能力下降,晚期阿尔茨海默病患者(图 B)则完全无法正常完成这个任务。

BMJ 论文截图

那么,下面这些离谱中透着一丝机械感的……

BMJ 论文截图

没错,都是大语言模型画的

相比正常人画的时钟,部分参赛选手所画的时钟看上去非常混乱,而另一些选手则在细节上(如规定的时间)执行失误。

于是,在画时钟这个部分,ChatGPT-4o(图 H)、ChatGPT-4(图 G)Claude 3.5(图 F)在满分 3 分的情况下拿了 2 分,属于还行;而 Gemini(图 C 和 D)的 2 个版本,水灵灵地各拿了 1 分,属于大哥莫说二哥

但谁能想到,画时钟都还算好的。

在 MoCA 的连线测验部分(Trail making B test),所有的选手都亮起红灯,满朝文武竟无一位能得分!

而在立方体临摹试验(Cube copy)中,ChatGPT-4、Claude 3.5 和 Gemini 1 也齐刷刷得了 0 分,朋友一生一起走,谁不挂科谁是狗。

BMJ 论文截图(灰色为满分,红色为零分,浅粉色为得分还不错,深粉色为有得分但不多)

不过有意思的是,这些大语言模型,竟然「偏科」!比如在 MoCA 的动物辨识、数字广度、语句重复和一般分类这四项测验中,均无「人」丢分。


取代医生?算了,还是先给 AI 看病吧

最终结果惨淡出炉。

本次被测试的大语言模型,包括 ChatGPT-4o、ChatGPT-4、Claude 3.5、Gemini 版本 1/1.5 共五种被广泛使用的大语言模型,结果发现,ChatGPT-4o 的 MoCA 评分最高(26 分),它也是唯一一个被诊断为「认知正常」的。

不过,ChatGPT-4o 你也别高兴的太早,英文版 MoCA 诊断认知正常需要在满分 30 分中至少拿到 26 分[8],属于是擦线及格,幸免于难。


另外其他 4 位可就没这么好运了,MoCA 评分均提示「轻度认知障碍」。

其中,ChatGPT-4 和 Claude 3.5 都拿到了 25 分,Gemini 1.5 拿到了 22 分,而 Gemini 1 的分数仅有 16 分——如果参考之前一些人类研究的分数标准,这已经纯纯属于「痴呆」的范畴了![9][10]

好家伙这谁看了不说一句「禁止虐待老人」!

除此之外,研究人员还发现,大语言模型和人类一样,在认知方面存在着「衰老」的现象。

比如版本较新的 ChatGPT-4o 相比旧版本 ChatGPT-4,各个方面表现都有一定的提高。

程序员们:我的班也不是白加的!

而在论文最后,研究人员总结道,这个结果其实并不意外。

文章第一作者、以色列哈达萨医疗中心的神经内科医生 Roy Dayan 向媒体表示[11],大语言模型在部分认知测试项目上的低得分,可能是因为大语言模型和大脑不同,缺乏处理复杂的视觉抽象等功能的能力。

研究者在文章中强调,应审慎看待大语言模型以及其他人工智能技术在医学上的应用,并且警惕这些应用的过度扩张。

在文章最后,作者表示,临床医学中仍有许多的环节依赖视觉抽象能力,大语言模型在这方面存在固有缺陷,因此,神经内科医生们不太可能在短期内被大语言模型取代。

「不仅不会取代,说不准很快,神经内科还得治疗这些得了认知障碍的 AI 患者!」

当然,ChatGPT 也在进步。不过,直接用它之前,还是先学会怎么调试好它吧~


关于 ChatGPT,还有这些值得看

(点击文字链接可跳转至丁香园往期文章)


▶ 我们直接请了 6 名医生和 ChatGPT PK 看病
▶ 让 ChatGPT 考执医,成绩居然这么好:碾压 70% 医生!复旦最新研究
▶ 看了 17 位医生都治不了的病,最后被 ChatGPT 确诊了
▶ ChatGPT 能让医生失业?他们直接请了 70 多个病人来 PK
▶ ChatGPT 取代医生?主任微微一笑:若碰到这些情况,阁下如何应对

策划:z_popeye|监制:islay
题图来源:BMJ 截图 + 网络|GIF 插图来源:soogif
参考文献:
[1]Soroush A, Glicksberg BS, Zimlichman E, et al. Large language models are poor medical coders — benchmarking of medical code querying. NEJM AI. 2024;1(5):AIdbp2300040.
[2]Dayan R, Uliel B, Koplewitz G. Age against the machine-susceptibility of large language models to cognitive impairment: cross sectional analysis. BMJ. 2024;387:e081948. doi: 10.1136/bmj-2024-081948
[3]Mattson MP. Superior pattern processing is the essence of the evolved human brain. Front Neurosci. 2014;8:265. doi: 10.3389/fnins.2014.00265
[4]Dong Y, Sharma VK, Chan BP, et al. The Montreal Cognitive Assessment (MoCA) is superior to the Mini-Mental State Examination (MMSE) for the detection of vascular cognitive impairment after acute stroke. J Neurol Sci. 2010;299(1-2):15-8. doi: 10.1016/j.jns.2010.08.051
[5]Pinto TCC, Machado L, Bulgacov TM, et al. Is the Montreal Cognitive Assessment (MoCA) screening superior to the Mini-Mental State Examination (MMSE) in the detection of mild cognitive impairment (MCI) and Alzheimer's Disease (AD) in the elderly? Int Psychogeriatr. 2019;31(4):491-504. doi: 10.1017/S1041610218001370
[6]Ballard C, Burns A, Corbett A, et al. Helping you assess cognition: a practical toolkit for clinicians. Alzheimer's Society, 2013.
[7]Hachinski V, Iadecola C, Petersen RC, et al. National Institute of Neurological Disorders and Stroke-Canadian Stroke Network vascular cognitive impairment harmonization standards. Stroke. 2006;37(9):2220-41. doi: 10.1161/01.STR.0000237236.88823.47
[8]Davis DH, Creavin ST, Yip JL, et al. Montreal Cognitive Assessment for the diagnosis of Alzheimer's disease and other dementias. Cochrane Database Syst Rev. 2015;2015(10):CD010775. doi: 10.1002/14651858.CD010775.pub2
[9]Tan JP, Li N, Gao J, et al. Optimal cutoff scores for dementia and mild cognitive impairment of the Montreal Cognitive Assessment among elderly and oldest-old Chinese population. J Alzheimers Dis. 2015;43(4):1403-12. doi: 10.3233/JAD-141278
[10]Dautzenberg G, Lijmer J, Beekman A. Clinical value of the Montreal Cognitive Assessment (MoCA) in patients suspected of cognitive impairment in old age psychiatry. Using the MoCA for triaging to a memory clinic. Cogn Neuropsychiatry. 2021;26(1):1-17. doi: 10.1080/13546805.2020.1850434
[11]https://www.medpagetoday.com/neurology/generalneurology/113464


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/177885
 
7 次点击