谷歌AI医疗大模型登上《自然》评分92.6%

文章正文

发布时间：2023-07-18 04:28

“AI医生”，离我们越来越近了。

7月12日，谷歌和DeepMind的科研人员在《自然》杂志上发表了一项研究，不仅提出了MultiMedQA（美国医师执照试题）评估基准，用于评估大语言模型在编码临床知识方面的表现，还详解了谷歌医疗大模型Med-PaLM的进化过程。

最终的研究结果显示，一组临床医生对谷歌和DeepMind团队的医疗大模型Med-PaLM回答的评分高达92.6%，与现实中人类临床医生的水平（92.9%）相当。此外，Med- PaLM仅5.9%的答案被评为可能导致“有害”结果，与临床医生生成的答案（5.7%）的结果相似。

视觉中国图

《每日经济新闻》记者了解到，尽管如此，该研究团队承认，鉴于现实医学领域的复杂性，在Med-PaLM实现大规模应用前，仍需克服不少限制。

模型可媲美人类医生

在这篇最新的《自然》论文中，谷歌和DeepMind科学家团队介绍了全新的MultiMedQA评估基准，专门用于评估大语言模型在编码临床知识方面的表现。

该基准结合了六个现有医疗问答数据集（MedQA、MedMCQA、PubMedQA、LiveQA 、MedicationQA和MMLU），涵盖专业医学、研究和消费者查询等多个方面，以及一个全新的在线搜索医疗问题库数据集HealthSearchQA，力图从多方面把AI培养成一名合格的医生。

此外，该团队提出了一个基于人类评估的框架模型，该模型包括多个维度，例如事实、理解、推理，以及可能的偏见。

该团队在MultiMedQA上对拥有5400亿参数的谷歌大型语言模型PaLM（Pathways Language Model）及其变体Flan-PaLM进行了评估。

在实验中，研究人员采用了提示策略组合，Flan-PaLM在每个MultiMedQA多选题数据集上都达到了极高的准确率，其中在MedQA（美国医学执照考试类型问题）上的准确率为67.6%，比之前的技术水平高出17%以上。

论文指出，虽然Flan- PaLM在MedQA的多项选择题上表现出色，但它对病人医疗问题的回答却暴露出关键的差距。为了解决这个问题，谷歌科学家团队提出了指令提示调整，让Flan-PaLM进一步与医学接轨，产生了Med-PaLM。

在评估中，Med-PaLM表现令人鼓舞，一组临床医生对其回答的评分为92.6%，与现实中临床医生的水平（92.9%）相当。

除了专家评估，研究团队还邀请了五名非医学领域专家（印度的非医学背景普通人）来评估答案。

结果显示，Flan-PaLM给出的答案在60.6%的案例中被认为是有用的，而Med-PaLM给出的答案准确度则增加到80.3%。

同样，在90.8%的情况下，FlanPaLM的答案被判断为直接解决了病人提出的问题，而Med-PaLM将这一比例提高到了94.4%，人类临床医生这一比列则在95.9%。换句话说，在直接解决病人问题方面，Med-PaLM几乎可以和人类临床医生的能力相媲美。

论文称，虽然这些结果非常令人鼓舞，但现实中医学领域相当复杂。因此，还有必要对该大语言模型进行进一步评估，特别是在安全性、公平性和偏见方面。在将这些模型运用到临床应用之前，还有许多限制需要克服。研究人员预计最新的这项研究将激发患者、消费者、AI研究人员、临床医生、社会科学家、伦理学家、政策制定者和其他利益相关方之间进一步对话和合作，从而负责任地将这些早期研究成果转换为真正的现实应用。

但不可否认的是，谷歌科学家团队的研究表明，随着模型规模的扩大和提示词的调整，其理解能力、知识回忆和推理能力均有所提高，这表明大语言模型在医学领域具有潜在的实用性。此外，研究团队的人类评估也揭示了当今大语言模型的局限性，也强调了评估框架和方法在为临床应用创建安全、有用的大语言模型方面的重要性。

科技巨头纷纷布局

基础模型和大语言模型的出现为医学AI的发展提供了助力。《每日经济新闻》记者注意到，其实除了谷歌和其旗下的DeepMind外，微软、IBM等科技大厂一直在持续关注AI医疗方面的应用落地。在这轮大模型浪潮之前，AI检测心电图、X光片已在一些医院中投入应用。

据《每日经济新闻》记者了解，过去数年来，AI在医疗领域的发展迅猛，为医疗行业带来了革命性的变革和巨大的潜力。

根据麦肯锡咨询的数据，AI每年可以创造3.5万亿至5.8万亿美元的商业价值。预计到2025年，全球AI应用市场总值将达到1270亿美元，其中AI医疗占据1/5的份额，处于高速成长阶段。

知名市场调研公司ReportLinker此前针对全球医疗保健AI市场的年度报告曾预测，全球医疗保健AI市场规模将从2023年的146亿美元增长到2028年的1027亿美元，期间复合年增长率47.6%。

中国AI产业发展迅速，自2019年以来，AI医疗以40%~60%的增速快速发展，中国的AI医疗核心软件市场规模已接近30亿元，并且还有重资产性质的AI医疗机器人，总体规模接近60亿元。

中泰证券在一份研报中指出，AI+医疗/医药未来空间广阔，当下值得重点关注。该研报指出，AI病理、AI影像和AI制药均是未来可能的应用领域。

中泰证券认为，传统病理诊断方法主要依靠人工阅片分析提供依据，自动化程度低，耗时长效率低，且诊断正确与否比较依赖医生阅片经验以及主观判断；另一方面病理医生培养周期长，从业门槛高，地域资源分布不均匀，供需极度不平衡，影响了行业整体的发展节奏。相比于传统的病理诊断，AI辅助有望提升阅片速度、提高诊断精准度，加速市场扩容，是未来的行业趋势。

“近年来，AI病理领域的监管条例、审核标准逐渐规范，技术应用越发成熟，我们预计 2023年首批AI病理诊断三类证有望获批，行业有望率先在细胞病理领域迎来商业化拐点，当前正是布局的最佳时点，技术积累深厚，入院能力强的头部玩家占据明显优势，有望带动产品加速商业化放量。”中泰证券分析师在上述研报中写道。

谷歌AI医疗大模型登上《自然》 评分92.6%

谷歌AI医疗大模型登上《自然》评分92.6%