谷歌medgemma-27b-text-it医疗大模型论文速读:对专家级别的医学推理和理解进行基准测试MedXpertQA

MedXpertQA: Benchmarking Expert-Level Medical Reasoning and Understanding

一、研究背景

论文指出目前的医学文本和多模态基准测试存在诸多局限性。现有的医学文本基准测试未能全面覆盖细致且多样化的现实诊断场景,包括一些高度专业化的领域,如家庭医学和成瘾医学等,这限制了医学人工智能在现实医疗场景中的应用。此外,这些基准测试的难度对于当前先进的AI来说已经明显不足,阻碍了可靠医学AI的进步。传统多模态医学基准测试与现实临床场景严重不符,存在范围有限和难度不足的问题,仅评估基本视觉感知和医学知识,忽视了诊断过程不同阶段的复杂性,未能评估诊断决策和治疗规划所需的专家级知识和推理能力。

二、研究方法

(一)数据收集

研究者从专业的考试和教科书中收集了大规模的题库,涵盖了美国医学执照考试(USMLE)、美国骨科医学执照考试(COMLEX-USA)等17个美国专科委员会考试,以及3个医学图像丰富的来源,如《新英格兰医学杂志》(NEJM)图像挑战等,确保了问题的难度和多样性。

(二)数据过滤

研究者采用了多层次的过滤方法,包括AI专家过滤、人类专家过滤和相似性过滤。AI专家过滤通过8个模型对问题进行投票筛选,去除过于简单或所有AI专家都无法正确回答的问题;人类专家过滤则通过计算问题的Brier分数和归一化难度等级,对问题难度进行评估;相似性过滤利用医学嵌入模型和四分位距(IQR)方法识别并去除语义和编辑距离相似度过高的问题对,以确保问题的多样性和避免重复评估。

(三)问题和选项增强

针对MedXpertQA中问题来自公开资源的情况,研究者对问题和选项进行了增强处理,以降低数据泄露风险并提高基准的难度和鲁棒性。问题增强通过大型语言模型(LLM)对问题进行改写,保留原始信息的同时改变表达方式或结构调整;选项增强则先去除低质量干扰项,再生成新的干扰项,确保选项在语言和内容上与原始选项保持一致,同时具有合理性并能挑战医学专家。

(四)专家审查

具有执业医师资格的医学专家对MedXpertQA中的每个问题进行审查,评估原始问题和增强后问题及选项的质量,包括检查信息是否缺失、是否存在事实性错误等。

三、实验

(一)实验设置

研究者对所有模型采用零样本链式思考(zero-shot CoT)提示进行评估,除非另有说明。在输出生成方面,若可用,则采用贪婪解码以确保结果的稳定性。对于有特定评估要求的推理模型,则遵循其各自的说明。

(二)模型评估

研究者评估了17个领先的大型多模态模型(LMM)和大型语言模型(LLM),包括专有模型和开源模型,以及最新的推理时扩展模型。这些模型涵盖了从基础到先进的不同层次,以全面评估它们在MedXpertQA上的表现。

(三)评估结果

评估结果显示,MedXpertQA对当前领先的模型构成了挑战,所有模型的准确率都相对较低。在多模态模型中,GPT-4o在所有子集上的表现最为一致,而Gemini-2.0-Flash在推理时扩展模型中得分最高。在大型语言模型中,DeepSeek-R1在推理子集上的表现最为突出。此外,推理时扩展模型相较于其对应的骨干模型,在推理子集上的准确率提升更为明显,表明即使没有额外的医学训练数据,推理时扩展也能够提高复杂的医学推理能力。

四、分析

(一)数据泄露分析

研究者通过困惑度(Perplexity)、ROUGE-L和编辑距离相似度等指标,评估了问题和选项增强处理前后的数据泄露风险。结果显示,增强处理后数据泄露风险进一步降低,MedXpertQA具有较低的数据泄露风险,能够客观地评估模型能力。

(二)推理时扩展的影响

通过对比不同Qwen系列模型以及其他模型(如DeepSeek-R1和DeepSeek-V3),研究发现推理时扩展对模型在挑战性医学任务上的性能有显著影响,尤其在推理子集上,准确率呈现出明显的上升趋势,而理解子集的性能波动较大,有时甚至出现下降,这进一步证明了医学推理的复杂性和MedXpertQA推理子集的高质量。

(三)医学见解

基于系统标签的分析,研究者发现GPT-4o在皮肤系统相关问题上的准确率较高,而在心血管系统相关问题上的准确率较低,表明不同系统在模型性能上存在差异。

五、结论

论文提出了MedXpertQA,这是一个极具挑战性且全面的医学多项选择基准,用于评估现实临床场景中的专家级知识和推理能力。MedXpertQA涵盖了广泛的医学专业、人体系统和临床任务,弥补了现有基准在医学专业覆盖不足、难度不够和临床相关性缺乏等方面的不足。通过数据增强和专家审查,研究者降低了数据泄露风险并确保了基准的准确性和有效性。对17个领先模型的评估表明,当前AI系统在处理复杂的医学推理任务时仍面临挑战。

六、核心技术总结表

谷歌medgemma-27b-text-it医疗大模型论文速读:对专家级别的医学推理和理解进行基准测试MedXpertQA_第1张图片

你可能感兴趣的:(前沿,语言模型,人工智能,自然语言处理,大模型,开源)