當前位置：首頁 > 科技 > 資訊

探索醫療科技的未來：達摩院在多模態大模型領域的創新嘗試

來源：責編：時間：2025-06-25 09:38:13 37觀看

導讀在人工智能飛速發展的今天，多模態大語言模型（MLLMs）已在通用視覺理解領域展現出驚人潛力。然而。當AI走進醫院、面對復雜的醫學影像和專業任務時，真正的挑戰才剛剛開始。1.知識

在人工智能飛速發展的今天，多模態大語言模型（MLLMs）已在通用視覺理解領域展現出驚人潛力。然而。當AI走進醫院、面對復雜的醫學影像和專業任務時，真正的挑戰才剛剛開始。

1.知識局限：醫學知識覆蓋不全，僅靠影像遠遠不夠；

2.幻覺頻現：回答看似有理，實則漏洞百出，容易“一本正經地胡說八道”；

3.推理匱乏：面對復雜病情，AI常常缺乏像醫生那樣的推理能力。

為了解決這些難題，阿里巴巴達摩院團隊在醫療領域進行初步嘗試，打造了醫療領域的多模態大模型！

數據底子扎實，懂醫學也懂“常識”：該模型背后是一套覆蓋廣泛的高質量數據處理和合成流程，吸收了海量醫學文本和通用知識內容，通過自動合成技術，構建了高質量的圖文描述、醫學問答和推理樣本。

像醫生一樣進階式學習：模型采用“多階段訓練”策略，從基礎醫學認知，到復雜病例分析，逐步注入專業知識與臨床經驗，模型能力層層躍升。經過訓練，我們希望其更具備基礎的醫學邏輯與推理能力，初步展現出處理真實世界醫療任務的潛力。

考試標準嚴苛，評估體系權威：為確保模型不是“閉門造車”，團隊特別開發了MedEvalKit評估體系，涵蓋多模態問答、文本問答和醫學報告生成等關鍵任務，對接真實醫療場景，全面衡量模型能力與安全性。

成績領先，全面超越主流大模型：在多個權威多模態醫療測試中，32B模型以平均高出第二名7.2個百分點的成績刷新記錄，超越GPT-4.1與Claude Sonnet 4等商用領先模型，展現出強大的專業應用潛力。

當前多模態大模型在醫療領域面臨的挑戰

1. 醫學知識覆蓋不全，深度不足

過于依賴影像-文本對：許多現有工作主要通過對齊醫學影像和相關的文本描述（如放射報告）來學習。這種方式雖然能建立基本的視覺-語言聯系，但對于影像之外的廣闊醫學知識，如藥理學、病理生理學、臨床指南、公共衛生知識等的覆蓋非常有限。

對多模態整合的深度和廣度不足：可能過于偏重某一模態（如X光片），對其他重要醫學影像模態（如病理、內鏡、超聲等）的覆蓋和理解不足。

2. 數據質量參差不齊，易產生“幻覺”

開源數據噪聲大：許多公開的醫學多模態數據集來源于科研論文自動抽取或網絡抓取，不可避免地含有噪聲、不準確信息或冗余內容。

數據合成質量難控：一些工作嘗試通過模型蒸餾等方式合成數據，但如果缺乏有效的監督和質量控制，合成數據可能繼承甚至放大基礎模型的偏見或錯誤，導致模型更容易產生“幻覺”（即生成不符合事實或無意義的內容）。

缺乏細粒度標注：醫學影像的解讀需要精確到細節，但很多數據集的標注較為粗糙，難以支撐模型學習細致的病灶特征和微妙的診斷線索。

3. 缺乏針對復雜醫療場景的推理能力?

簡單問答為主：現有模型在處理簡單的圖像描述或直接問答（如“圖片中是什么器官？”）方面可能表現尚可，但面對需要多步推理、整合多源信息、進行鑒別診斷等復雜醫療場景時，其推理能力往往不足。

“黑箱”特性：許多模型的決策過程不透明，難以解釋其診斷或建議的依據，這在對可靠性和可解釋性要求極高的醫療領域是嚴重缺陷。

4. 評測標準不統一，難以橫向比較

各自為政的評估：不同研究往往在不同的數據集子集、不同的評估指標上進行評測，導致模型之間的性能難以進行公平、直接的比較。

復現困難：許多模型的代碼和數據不完全公開，或者環境配置復雜，使得其他研究者難以復現其結果，阻礙了領域的發展。

為了解決上述問題，我們從數據構造，模型訓練以及評測框架三個層面進行探索。

數據構造?

要讓AI真正“懂醫學”，離不開高質量的數據，但醫學領域的數據不僅少，而且復雜、難獲取。為此，我們構造了一套全流程的醫療多模態數據收集和合成流程。

1. 高質量的數據合成和增強：面對一些簡短、模糊的醫學描述，我們用大模型能力“補全細節”，生成更豐富、更專業的圖文解釋。同時從專業醫學教材和題庫提取圖文信息生成指令數據，提高對嵌入文本的識別能力。此外還合成了大量的醫學視覺問答數據，幫助模型回答診斷和醫學相關的問題。最后我們還設計了CoT醫療推理數據合成流程，生成醫療的推理思維鏈路數據，幫助模型更好理解復雜醫學問題。?

2. 嚴格質量控制：所有數據經過嚴格篩選和清洗，比如圖像和文本去重、答案準確性檢查等，以確保數據的高質量和相關性。

通過以上流程，我們一共得到2.55M條高質量醫療描述數據和2.5M醫療指令數據，同時引入了大量通用域的數據，作為模型訓練基礎。

模型訓練

多模態醫學大模型基于Qwen2.5-VL（7B和32B的Instruct版本）進行持續訓練，為了更好的讓模型深入理解多模態醫療知識，我們設計了以下多階段訓練范式：

1. 醫療淺層對齊：我們先讓模型對醫學影像（如X光、CT、MRI）與對應的醫學描述的理解能力。初步建立醫學影像特征與語言模型表征空間的連接。通過快速適應醫學影像的基本特征，為后續深層融合奠定基礎。

2. 醫療深層對齊：我們使用更復雜、更長的圖文數據，還加入了通用世界知識數據，進行端到端微調。讓模型能深度融合多模態醫學信息，從而有可能處理更細致的醫學內容，比如腫瘤特征、病變位置等，朝著“通用醫生”進行努力。

3. 醫療指令微調：我們使用大規模、多樣化的醫療指令數據（包括VQA、報告生成、OCR、CoT推理等）以及通用的多模態/文本指令數據和醫學文本數據進行端到端微調，增強模型的任務泛化能力和復雜場景的應答能力，使其更貼近實際醫療應用。

4. 面向醫療的強化學習：我們還初步探索了強化學習訓練在對醫療多模態任務提升的潛力。我們構建了約10萬條的醫療可驗證數據集，采用可驗證獎勵強化學習（RLVR）范式，利用GRPO算法進行訓練。期望探索通過獎勵信號引導模型生成更準確、更具邏輯性的醫療推理路徑。

統一的評測框架：MedEvalKit

為解決現有醫療MLLMs 評測標準不一、復現困難的問題，我們開發了一個涵蓋面廣，易于使用，高效評測的醫療評測框架MedEvalKit。

1. MedEvalKit匯集了主流的醫療多模態和文本評測基準，包括：

a. 多模態QA：VQA-RAD, SLAKE, PathVQA, PMC-VQA (v2), OmniMedVQA, MMMU (Health & Medical), MedXpertQA (multimodal)。

b. 文本QA：MMLU (medical subset), PubMedQA, MedMCQA, MedQA-USMLE, MedBullets, MedXpertQA (text), SuperGPQA。

c. 報告生成：MIMIC-CXR, IU-Xray, CheXpert Plus。共計覆蓋16個基準數據集，15.2萬評估樣本和12.1萬張不同的醫學影像。

2. 標準化流程：統一了數據預處理、模型推理接口和后處理協議，支持一鍵式評估。

3. 多維度評估：針對不同任務類型采用特定評估指標（如QA任務的準確率，報告生成任務的ROUGE-L, CIDEr, SembScore, RaTEScore, RadCliQ-v1）。并支持“LLM-as-a-Judge”策略輔助評估，兼顧客觀與主觀評價。

4. 高效與可擴展：支持vLLM進行推理加速；支持多種模型評測；支持多種輸出模式評測（如直接輸出答案評測，先推理后解析答案進行評測等）。

模型結果?

我們使用MedEvalKit上對我們的醫療多模態大模型和當前主流多模態醫療模型進行了全面評估：

1. 醫療多模態問答測試：

a. 32B模型在所有7個多模態基準測試中取得了平均66.6%的準確率，超越了包括GPT-4.1 (63.4%)、Claude Sonnet 4 (61.5%) 和?Gemini-2.5-Flash (65.1%)?在內的所有專有模型和開源模型，并在VQA-RAD, SLAKE, PathVQA, OmniMedVQA, MedXpertQA-Multimodal?等多個數據集上取得最佳成績。

b. 7B模型在<10B參數規模的開源模型中表現最佳，平均準確率達到61.8%，顯著優于其他同類模型。

2. 在醫療文本基準測試和醫學報告生成：我們的模型也表現優異，超越了所有對比的開源模型。

3.??除了標準數據評測外，我們也展示了在醫學影像問答、醫學診斷、醫學知識解釋、公共衛生問題分析以及醫學報告生成等真實場景中的應用潛力。

未來方向

雖然我們的模型在多個權威多模態醫療測試取得領先，然而在使用過程中仍會出現幻象，無法準確識別病種等問題。因此在推動醫療多模態大模型發展的過程中，我們總結出五個值得關注的核心方向，以突破當前技術瓶頸，提升模型在真實臨床中的應用價值：

1. 高質量醫療數據的構建：當前醫學圖文數據稀缺且獲取成本高，未來需投入更多資源構建多樣化、高可信度的數據集，并引入“人在環路”（human-in-the-loop）的自動化評估與優化機制，提升數據質量與產出效率。

2. 更全面的醫療多模態基準：現有醫療基準未能充分反映復雜的真實場景。未來需借鑒HealthBench等框架，打造更具代表性、更實用的醫學多模態評估體系，更準確地衡量模型在臨床中的表現。

3. 擴展模型能力邊界：當前模型對3D影像、超高分辨率病理圖（WSI）、組學數據等的支持仍依賴預處理。未來將發展原生支持新模態的能力，使模型更好地理解CT、MRI、病理、基因組等復雜醫學信息。

4. 面向醫療場景的訓練策略優化：醫學領域推理高度依賴臨床經驗與知識。后續訓練需要更加聚焦醫療語境，開發定制化獎勵函數&過程監督方法，探索針對醫療MLLMs的強化學習方法。讓模型的輸出更契合醫療任務需求，滿足專業醫療場景下復雜的醫療推理需求。

5. 醫療相關專業評估指標引入：雖然MedEvalKit已初步引入醫學任務指標，但當前仍以通用評估標準為主。未來應進一步引入如C-index、臨床療效評分、決策曲線分析等醫學專用指標，同時結合專家人工評審，全面提升模型評估的可信度、實用性與安全保障。

本文鏈接：http://www.www897cc.com/showinfo-16-163686-0.html探索醫療科技的未來：達摩院在多模態大模型領域的創新嘗試

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：直播間假老酒亂象被曝光，成本幾塊錢標價899，有老酒商建議引入第三方鑒定機構

下一篇：全系標配最新華為全家桶嵐圖FREE+正式預售22.99萬元起

標簽：

熱門焦點

影音體驗是真的強簡單聊聊iQOO Pad

大公司的好處就是產品線豐富，非常細分化的東西也能給你做出來，例如早先我們看到了新的vivo Pad2，之后我們又在iQOO Neo8 Pro的發布會上看到了iQOO的首款平板產品iQOO Pad。雖
5月iOS設備性能榜：M1 M2依舊是榜單前五

和上個月一樣，沒有新品發布的iOS設備性能榜的上榜設備并沒有什么更替，僅僅只有跑分變化而產生的排名變動，剛剛開始的蘋果WWDC2023，推出的產品也依舊是新款Mac Pro、新款Mac Stu
線程通訊的三種方法！通俗易懂

線程通信是指多個線程之間通過某種機制進行協調和交互，例如，線程等待和通知機制就是線程通訊的主要手段之一。在 Java 中，線程等待和通知的實現手段有以下幾種方式：Object 類下
Automa-通過連接塊來自動化你的瀏覽器

1、前言通過瀏覽器插件可實現自動化腳本的錄制與編寫，具有代表性的工具就是：Selenium IDE、Katalon Recorder，對于簡單的業務來說可快速實現自動化的上手工作。Selenium IDEKat
讓我們一起聊聊文件的操作

文件【1】文件是什么？文件是保存數據的地方，是數據源的一種，比如大家經常使用的word文檔、txt文件、excel文件、jpg文件...都是文件。文件最主要的作用就是保存數據，它既可以保
Python異步IO編程的進程/線程通信實現

這篇文章再講3種方式，同時講4中進程間通信的方式一、 Python 中線程間通信的實現方式共享變量共享變量是多個線程可以共同訪問的變量。在Python中，可以使用threading模塊中的L
拼多多APP上線本地生活入口，群雄逐鹿萬億市場

Tech星球（微信ID：tech618）文 | 陳橋輝 Tech星球獨家獲悉，拼多多在其APP內上線了“本地生活”入口，位置較深，位于首頁的“充值中心”內，目前主要售賣美食相關的
網紅炒股不為了賺錢，那就是耍流氓！

來源：首席商業評論6月26日高調宣布入市，網絡名嘴大v胡錫進居然進軍了股市。在一次財經媒體峰會上，幾個財經圈媒體大佬就“胡錫進炒股是否知道認真報道”展開討論。有
東方甄選單飛：有些鳥注定是關不住的

作者：彭寬鴻來源：華爾街科技眼&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;&zwj;東方甄選創始人俞敏洪帶隊的“7天甘肅行”直播活動已在近日順利收官。成立后一

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

探索醫療科技的未來：達摩院在多模態大模型領域的創新嘗試

影音體驗是真的強簡單聊聊iQOO Pad

5月iOS設備性能榜：M1 M2依舊是榜單前五

線程通訊的三種方法！通俗易懂

Automa-通過連接塊來自動化你的瀏覽器

讓我們一起聊聊文件的操作

Python異步IO編程的進程/線程通信實現

拼多多APP上線本地生活入口，群雄逐鹿萬億市場

網紅炒股不為了賺錢，那就是耍流氓！

東方甄選單飛：有些鳥注定是關不住的

最新推薦

猜你喜歡

熱門推薦

相關資訊