专注于医疗领域的多模态开源大型语言模型:Lingshu-32B

Lingshu:medical domain multimodal large language models

一、研究背景与概述

Lingshu 是一款专注于医疗领域的多模态大型语言模型,它在医学视觉问答(VQA)任务和报告生成方面达到了前所未有的性能高度。该模型的问世旨在为医疗行业提供更精准、更高效的多模态文本理解与推理服务,其相关研究以论文《Lingshu:A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning》的形式发表,并配有一个综合性的医疗评估工具包 MedEvalKit,方便对主流多模态及文本医疗任务进行快速评估。

二、模型性能亮点

Lingshu 模型在不同规模尺寸下均展现出卓越性能,尤其 Lingshu - 32B 在大部分多模态问答以及报告生成任务中超越了 GPT - 4.1 和 Claude Sonnet 4 等模型。其优势不仅体现在文本问答,还支持包括 X 射线、CT 扫描、MRI、显微镜、超声波、组织病理学、皮肤镜、眼底、OCT、数字摄影、内窥镜和 PET 在内的 12 种以上医疗影像模态,能够综合视觉与文本信息进行医疗理解与推理。

三、技术细节与风险提示

尽管 Lingshu 的模型权重、代码和演示以开放形式发布,但如同其他预训练语言模型一样,可能存在生成不准确、误导性甚至潜在有害内容的风险。因此,开发者和相关利益者在部署前需自行进行红队演练并提供相应安全措施,同时必须遵守当地法律法规,作者方不承担因使用发布的权重、代码或演示而引发的任何责任。

四、模型评估表现

(一)医学多模态 VQA 评估

在多模态 VQA 任务中,Lingshu - 7B 和 Lingshu - 32B 均有出色表现。以 Lingshu - 32B 为例,在 MMMU - Med、VQA - RAD、SLAKE、PathVQA、PMC - VQA、OmniMedVQA、MedXpertQA 等多个评估指标上,分别取得 62.3、76.5、89.2、65.9、57.9、83.4、30.9 的成绩,平均分达到 66.6,全面优于众多开源及专有模型。

(二)医学文本问答评估

在医学文本问答领域,Lingshu - 32B 同样表现出众。如在 MMLU - Med、PubMedQA、MedMCQA、MedQA、Medbullets、MedXpertQA 等指标上,分别获得 84.7、77.8、66.1、74.7、65.4、22.7 的成绩,SuperGMe 得分为 41.1,在与 GPT - 4.1、Claude 等模型对比中不落下风。

(三)医疗报告生成评估

对于医疗报告生成任务,Lingshu - 32B 在 ROUGE - L、CIDEr、RaTE、SembScore 等指标上分别取得 28.8、96.4、50.8、30.1 的成绩,在 RadCliQ - v1 - 1 相关指标上表现也较为优异,如 ROUGE - L 为 67.1,CIDEr 为 75.9,RaTE 为 43.4,SembScore 为 24.2,展现出了强大的文本生成能力。

五、模型使用方法

论文提供了两种使用 Lingshu 模型的方式,一种是基于 transformers 库,另一种是基于 vLLM 库。两种方法都需要先加载预训练模型和处理器,然后对输入的图像和文本信息进行处理,最后通过模型生成输出结果。以 transformers 库为例,需先通过 Qwen2_5_VLForConditionalGeneration 和 AutoProcessor 加载模型与处理器,再将图像和文本按照规定格式输入,经过模型推理生成结果并进行解码输出。

六、总结

Lingshu 模型凭借其在医疗多模态领域的优异性能,为医疗理解和推理提供了一种全新的强大工具。然而,在实际应用中仍需警惕潜在风险,并采取相应措施确保安全合规使用。

论文核心技术汇总表格

专注于医疗领域的多模态开源大型语言模型:Lingshu-32B_第1张图片

你可能感兴趣的:(前沿,语言模型,人工智能,自然语言处理,算法,开源)