日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

微軟僅憑「提示工程」讓 GPT-4 成醫學專家!超過一眾高度微調模型,專業測試準確率首次超 90%

來源: 責編: 時間:2023-12-08 09:12:19 328觀看
導讀 微軟最新研究再次證明了提示工程的威力 ——無需額外微調,無需專家策劃,僅憑提示,GPT-4 就能化身“專家”。使用他們提出的最新提示策略 Medprompt,在醫療專業領域,GPT-4 在 MultiMed QA 九個測試集中取得最優結果

微軟最新研究再次證明了提示工程的威力 ——WRR28資訊網——每日最新資訊28at.com

無需額外微調,無需專家策劃,僅憑提示,GPT-4 就能化身“專家”。WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

使用他們提出的最新提示策略 Medprompt,在醫療專業領域,GPT-4 在 MultiMed QA 九個測試集中取得最優結果。WRR28資訊網——每日最新資訊28at.com

在 MedQA 數據集 (美國醫師執照考試題) 上,Medprompt 讓 GPT-4 的準確率首次超過 90%,超越 BioGPT 和 Med-PaLM 等一眾微調方法。WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

研究人員還表示 Medprompt 方法是通用的,不僅適用于醫學,還可以推廣到電氣工程、機器學習、法律等專業中。WRR28資訊網——每日最新資訊28at.com

這項研究在 X(原 Twitter)一經分享,就引發眾多網友關注。WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

沃頓商學院教授 Ethan Mollick、Artificial Intuition 作者 Carlos E. Perez 等都有轉發分享。WRR28資訊網——每日最新資訊28at.com

Carlos E. Perez 直呼“出色的提示策略可以甩微調一大截”:WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

有網友表示早就有這種預感,現在能看到結果出來,真的是“so cool”:WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

還有網友表示這真的很“激進”:WRR28資訊網——每日最新資訊28at.com

GPT-4 是一項能改變行業的技術,而我們還遠沒有觸及提示的極限,也未達到微調極限。WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

組合提示策略,“變身”專家

Medprompt 是多種提示策略的組合體,包含三大法寶:WRR28資訊網——每日最新資訊28at.com

動態少樣本選擇(Dynamic few-shot selection)WRR28資訊網——每日最新資訊28at.com

自生成思維鏈(Self-generated chain of thought)WRR28資訊網——每日最新資訊28at.com

選項洗牌集成(Choice shuffling ensemble)WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

下面我們來一一介紹。WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

動態少樣本選擇

少樣本學習是讓模型快速學習上下文的一種有效的方法。簡單來說,就是輸入一些示例,讓模型快速適應特定領域,并學習遵循任務的格式。WRR28資訊網——每日最新資訊28at.com

這種用于特定任務提示的少樣本示例通常是固定的,所以對示例的代表性和廣泛性有較高的要求。WRR28資訊網——每日最新資訊28at.com

之前一種方法是讓領域專家手動制作范例,但即便如此,也不能保證專家策劃的固定的少樣本示例在每個任務中都有代表性。WRR28資訊網——每日最新資訊28at.com

因此,微軟研究人員提出了動態少樣本示例的方法。WRR28資訊網——每日最新資訊28at.com

想法是,任務訓練集可以作為少樣本示例的來源,如果訓練集足夠大,那就可以為不同的任務輸入選擇不同的少樣本示例。WRR28資訊網——每日最新資訊28at.com

具體來說,研究人員先利用 text-embedding-ada-002 模型為每個訓練樣本和測試樣本生成向量表示。然后,對于每個測試樣本,基于向量相似度,從訓練樣本中挑選出最相似的 k 個樣本。WRR28資訊網——每日最新資訊28at.com

與微調方法相比,動態少樣本選擇利用了訓練數據,但不需要對模型參數進行大量更新。WRR28資訊網——每日最新資訊28at.com

自生成思維鏈

思維鏈(CoT)方法就是讓模型一步一步思考,生成一系列中間推理步驟。WRR28資訊網——每日最新資訊28at.com

之前一種方法也是依賴專家手動編寫少量的帶有提示思維鏈的示例。WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

在這里,研究人員發現,可以簡單地要求 GPT-4 使用以下提示為訓練示例生成思維鏈:WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

但研究人員也指出這種自動生成的思維鏈可能包含錯誤的推理步驟,于是設置了一個驗證標簽作為過濾器,可以有效減少錯誤。WRR28資訊網——每日最新資訊28at.com

與在 Med-PaLM 2 模型中專家手工制作的思維鏈示例相比,GPT-4 生成的思維鏈基本原理更長,而且分步推理邏輯更細粒度。WRR28資訊網——每日最新資訊28at.com

選項洗牌集成

除此之外,GPT-4 在做選擇題時,可能會存在一種偏見,就是不管選項內容是什么,它會偏向總是選擇 A,或者總是選擇 B,這就是位置偏差。WRR28資訊網——每日最新資訊28at.com

為了減少這個問題,研究人員選擇將原來的選項順序打亂重排。比如原先選項是 ABCD,可以變成 BCDA、CDAB。WRR28資訊網——每日最新資訊28at.com

然后讓 GPT-4 做多輪預測,每輪使用選項的一個不同排列順序。如此一來“迫使”GPT-4 考慮選項的內容。WRR28資訊網——每日最新資訊28at.com

最后對多輪預測結果做個投票,選擇最一致、正確的選項。WRR28資訊網——每日最新資訊28at.com

將以上幾種提示策略組合在一起就是 Medprompt,下面來看測試結果。WRR28資訊網——每日最新資訊28at.com

多項測試最優

在測試中,研究人員采用了 MultiMed QA 評估基準。WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

使用 Medprompt 提示策略的 GPT-4,在 MultiMedQA 的九個基準數據集中均取得最高分,優于 Flan-PaLM 540B、Med-PaLM 2。WRR28資訊網——每日最新資訊28at.com

此外研究人員還討論了 Medprompt 策略在“Eyes-Off”數據上的表現,也就是在訓練或優化過程中模型未曾見過的數據中的表現,用于檢驗模型是否過擬合訓練數據。WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

結果 GPT-4 結合 Medprompt 策略在多個醫學基準數據集上表現出色,平均準確率達到了 91.3%。WRR28資訊網——每日最新資訊28at.com

研究人員還在 MedQA 數據集上進行了消融實驗,探索了三個組件對于整體性能的相對貢獻。WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

其中自動生成思維鏈步驟對性能提升的貢獻最大。WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

而且 GPT-4 自動生成的思維鏈比 Med-PaLM 2 中專家策劃的得分更高:WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

最后,研究人員還探索了 Medprompt 的跨域泛化能力,取用了 MMLU 基準中的六個不同的數據集,涵蓋了電氣工程、機器學習、哲學、專業會計、專業法律和專業心理學的問題。WRR28資訊網——每日最新資訊28at.com

還添加了另外兩個包含 NCLEX(美國護士執照考試)問題的數據集。WRR28資訊網——每日最新資訊28at.com

結果顯示,Medprompt 在這些數據集上的效果與在 MultiMedQA 醫學數據集上的提升幅度相近,平均準確率提高了 7.3%。WRR28資訊網——每日最新資訊28at.com

WRR28資訊網——每日最新資訊28at.com

論文鏈接:https://arxiv.org/ pdf / 2311.16452.pdfWRR28資訊網——每日最新資訊28at.com

參考鏈接:WRR28資訊網——每日最新資訊28at.com

[1]https://twitter.com/erichorvitz/status/1729854235443884385WRR28資訊網——每日最新資訊28at.com

[2]https://twitter.com/emollick/status/1729733749657473327WRR28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位 (ID:QbitAI),作者:西風WRR28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-2804-0.html微軟僅憑「提示工程」讓 GPT-4 成醫學專家!超過一眾高度微調模型,專業測試準確率首次超 90%

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: Meta 推出 Seamless Communication AI 翻譯套件:支持近百種語言輸入、同聲延遲僅 2 秒

下一篇: Meta 推出 AI 音頻模型 Audiobox:支持語音及文字同時輸入、可生成多層次聲音

標簽:
  • 熱門焦點
  • 汽車元宇宙,是概念還是未來?

    作者|何文 元宇宙是未來趨勢已經無需驗證。 從概念上來看,元宇宙是兩種存在多年的概念的融合:虛擬現實和數字第二人生。這也就意味著,元宇宙所代表的是一種新的數
  • 搶先推出“元宇宙”飲料,可口可樂贏麻了

    試圖傍上元宇宙的品牌千千萬,但像可口可樂玩得這么花的,屬實不多。01 可口可樂盯上元宇宙1886年,可口可樂誕生于美國喬治亞州亞特蘭大市,至今已擁有136年的悠久歷
  • 避坑指南:遠離具有這些特性的NFT

    關于NFT,在我們的文章中一直以來都是常駐嘉賓,不止因為NFT背后隱藏的潛力,更因為在這個NFT世界里冥冥之中仿佛有一雙幕后的手,OpenSea、庫里、ERC115、視覺中國、
  • 元宇宙是數字共識生態的集成邏輯表達

    作者: 李鳴元宇宙是數字共識生態的集成邏輯表達,是以區塊鏈技術為核心的可信數字化價值交互網絡,是基于Web3.0技術體系和運作機制支撐下的數字新生態。本體論是
  • NFT 技術將傳世之作帶入博物館

    意大利四大博物館已與一個項目合作,該項目將展示和銷售達芬奇、卡拉瓦喬、拉斐爾和莫迪利亞尼等人的杰作的 NFT復制品。該計劃采用了 科技公司Cincello的國際專
  • 花旗集團前高管加入Provenance區塊鏈,擔任CEO

    No.1 花旗集團前高管加入Provenance區塊鏈,擔任CEO3月1日消息,Provenance區塊鏈基金會已任命花旗集團前高管摩根·麥肯尼(Morgan McKenney)為新任首席執行官。麥肯
  • NFT高玩必備:NFT分析工具大盤點

    NFT市場的火熱讓越來越多的投資者投身其中,但當前的 NFT 生態系統存在幾個問題卻困擾了大多數人,如難以準確評估 NFT 項目的資產價格、缺乏 NFT 市場動態信息、
  • 元宇宙的應用行業研究:娛樂可能是元宇宙落地最快的場景之一

    近日,畢馬威正式發布其《初探元宇宙》報告,這也是畢馬威在元宇宙領域發布的首份報告。報告指出,元宇宙在以下十個領域的應用場景尤其值得期待,包括娛樂、社交、零
  • 虛擬人行業研究報告

    最早的虛擬人出現于 20 世紀 80 年代,受限于技術,當時的虛擬人制作以手繪為主。21 世紀初,隨著動捕、渲染等技術的逐步發展,虛擬人相關技術開始在影視領域逐漸普及
Top 主站蜘蛛池模板: 广南县| 锦州市| 泽州县| 星子县| 河津市| 莱阳市| 定日县| 防城港市| 米林县| 天峨县| 贞丰县| 上饶县| 连南| 鄢陵县| 宣城市| 尼勒克县| 农安县| 乌拉特前旗| 宿松县| 德令哈市| 扶余县| 辽宁省| 普陀区| 连州市| 沧源| 长治县| 庆安县| 福安市| 临湘市| 会泽县| 海南省| 北票市| 陈巴尔虎旗| 师宗县| 江山市| 大化| 阿坝县| 六盘水市| 成都市| 淮北市| 临清市|