ChatGPT通过医师资格考试

ChatGPT面世2个月来,新闻不断。

有人拿它测试沃顿商学院的考试,发现,ChatGPT通过了。

最近,看到发表在 PLOS Digital Health上的一篇研究报告,报道了ChatGPT挑战被视为艰难的美国执业医生资格考试(USMLE),结果ChatGPT在这3部分考试中的分数及格或接近及格。

USMLE(英文:United States Medical Licensing Examination)成立于1990年代初,是一个高度标准化和规范化的系列考试,是美国执业医生必须拥有的医学执照,所有拥有医学博士 (MD) 学位的医师必须通过USMLE才能获得医学执照,这是获取美国医疗执照必要条件。

由医科学生和在职医生参加的这个USMLE评估知识横跨大多数医学学科,从生物化学、诊断推理到生物伦理学。

USMLE所包含的三门考试是: 

评估通常在医学院头两年获得的基础医学科学;

评估申请人的临床医学知识;

评估临床知识在患者管理中的应用;

www.usmle.org

这项考试是由美国联邦医药协会(Federation of State Medical Boards,FSMB)和美国国家家医学考试部(National Board of Medical Examiners® ,NBME®)所主办的。

SUMLE考试自1992年起以笔纸测验方试实施,1999年起改为电脑测验(Computer-Based Testing,CBT)。

SMLE以其难度而闻名,通常需要大约300到400个小时才能完成准备时间。

USMLE的最终成绩只有及格和不及格。

来自美国AnsibleHealth、麻省总医院、沃伦-阿尔伯特医学院等机构的11位研究人员,2月9日发表在美国一家重要的医学期刊《PLOS数码医疗》(PLOS Digital Health) 上的一项研究表明,ChatGPT这个最近很火的聊天机器人,参加了美国医学执照考试 (USMLE),而最终的成绩是:非常接近通过!

这项研究的目的是试图通过测试ChatGPT(一种非特定领域的LLM)在美国医学执照 考试(USMLE)问题上的表现,评估其进行临床推理的能力。

11位研究人员从2022年6月发布的样本考试(称之为USMLE-2022)中选取了376道公开的试题,所有这些实体是从USMLE官方网站上获得的。

因此,所有的输入都在GPT3模型的真实训练样本之外。这一点通过对输入内容的抽查得到进一步确认,以确保没有任何答案、解释或相关内容是在2022年1 月1日之前被谷歌收录,这也是ChatGPT训练数据集的最后访问日期。

所有样本试题都经过了筛选,包含视觉材料的试题,如临床图片、医学摄影和图表都被删除了。经过过滤,350个USMLE题目(其中步骤1:119,步骤2CK:102,步骤3:122)被推进到编码阶段。

在编码阶段,问题被格式化为三种变体,并按以下顺序输入ChatGPT。

1. 开放式(OE)提示语

通过删除所有的答案选择,添加一个可变的引导性问句来创建。

这种格式模拟了自由输入和自然的用户查询方式。

例子包括,“根据所提供的信息,对病人的诊断结果是什么?”;或 “在您看来,病人瞳孔不对称的原因具体可能什么?”

2.多项选择单项答案,无强制理由(MC-NJ)提示语

通过逐字逐句地复制USMLE原题创建。例子包括,“以下哪项最能代表最合适的下一步管理?”;或 “ 病人的情况主要由以下哪种病原体引起?”

3. 多项选择单项答案与强制说明(MC-J)的提示语

通过添加一个可变的引导性命令或问句,要求ChatGPT为每个答案选择提供理由。例子包括。“以下哪一个病人夜间症状的最可能原因?解释你每个选择的理由”;或者 “对这个病人来说,最合适的药物治疗很可能✁通过以下哪种机制进行的?为什么其他的选择✁不正确的? 

编码员在引导性提示语中采用了故意的变化,以避免僵硬的措辞带来的系统性错误。为了减少记忆的偏差,每个条目都在ChatGPT中开始一个新的聊天会话。

ChatGPT的输出结果由两位医生评审员进行评判,独立进行评判的这两名医师相互并不认识,评判的标准是使用S2数据中列举的标准,在准确性、一致性和洞察力(ACI)的评分。

研究结果发现:

1、ChatGPT产生了适度的准确性,接近USMLE的合格成绩。

在删除不确定的回答后,ChatGPT 在三门 USMLE 考试中的得分在 52.4% 到 75.0% 之间。每年的及格门槛约为 60%。

2、ChatGPT显示出高度的内部一致性

两个医生审查员通过检查解释的内容来独立判断一致性。

总的来说,ChatGPT输出的答案和解释在所有问题上的一致性为94.6%,表现出非常高的答案与解释的一致性,研究人员认为,这可能反映了其概率语言模型的高度内部一致性。

3、由ChatGPT生成的解释包含了非显而易见的见解

ChatGPT 还为其 88.9% 的响应产生了至少一个重要的见解(一些新的、非显而易见的和临床有效的见解)。

在这项研究中,研究人员提供了新的和令人惊讶的证据,最大的惊喜是 ChatGPT 可以在没有接受过医学数据集训练的情况下表现得如此出色。表明ChatGPT能够执行与处理复杂的医疗和临床信息有关的几个复杂的任务。

值得注意的是,ChatGPT 超过了 PubMedGPT 的性能,PubMedGPT 是专门针对生物医学领域文献进行训练的对应模型,在较旧的 USMLE 式问题数据集上得分为 50.8%。

研究人员总结道:“这些结果表明,大型语言模型可能有助于医学教育,并可能有助于临床决策。”

Ansible Health是一家早期风险投资支持的创业公司,为美国的慢性阻塞性肺病患者提供基于家庭的医疗保健服务。

Ansible Health通过利用技术以及我们自己的呼吸治疗师和医学博士的临床团队,对这些病人进行远程监测、教育、指导和提供康复服务。

据报道,在经过训练有素的专业人员审查后,Ansible Health 正在使用 ChatGPT 协助来向患者解释某些概念。

从伦理上讲,来自ChatGPT 之类的大型语言模型生成的文字内容只能作为医学临床诊断的参考,无论它多么准确,都不能作为临床诊断和治疗的主体,最终的诊断结果和医学方案还是应该也必须由人类医生做出。

这一点,是毫无疑问的。但是,随着时间的推移,也许它可以应用于辅助健康检查和越来越多地辅助医生工作。

该图片由Tumisu在Pixabay上发布

自留地君不会参与有关 ChatGPT和人工智能的争论。

因为,我们始终相信:

1、技术进步是大势所趋,锐不可当;

2、技术不会夺去你的工作,夺去你的工作的不是人工智能,是善于使用人工智能的人;

3、ChatGPT到底是生产力工具和创造性的利器,还是抄袭和学术不端的秘匙,逃避学习的法宝,不在于它本身,而在于人,在于人如何以及以什么目的和以什么方式使用它。

4、联系这个研究报告,我们可以肯定,ChatGPT之类的生成性人工智能尚处于其发展初期,因此,它将会大幅度增强,而不是取代医疗工作。

医者仁心,机器人不会有这个。

这是医生这个职业的基础和前提。

您说,是这个理不?!

Kung TH, Cheatham M, Medenilla A, Sillos C, De Leon L, Elepaño C, et al. (2023) Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models. PLOS Digit Health 2(2): e0000198. https://doi.org/10.1371/journal.pdig.0000198