當前位置：首頁 > 元宇宙 > AI

OpenAI 發布并開源醫療測試基準 HealthBench，旨在更好地衡量 AI 系統在醫療健康領域能力

來源：責編：時間：2025-05-15 09:51:35 74觀看

導讀 5 月 13 日消息，OpenAI 今日宣布推出了一個專門面向醫療大模型的測試評估集 ——HealthBench 并開源，旨在更好地衡量 AI 系統在醫療健康領域能力。與以往測試集不同的是，HealthBench的 5000 段核心測試對話，由來

5 月 13 日消息，OpenAI 今日宣布推出了一個專門面向醫療大模型的測試評估集 ——HealthBench 并開源，旨在更好地衡量 AI 系統在醫療健康領域能力。

與以往測試集不同的是，HealthBench的 5000 段核心測試對話，由來自 60 個國家 / 地區的 26 個專業 262 名醫生打造，極大增強了該測試集的難度、真實性以及豐富度。

與以前的狹窄基準不同，HealthBench 通過 48562 個獨特的醫生編寫的評分標準進行有意義的開放式評估，涵蓋多個健康背景（例如，緊急情況、全球健康）和行為維度（例如，準確性、遵循指示、溝通）。

此外，HealthBench采用了多輪對話測試，而不是簡單的答題或選擇題模式。注意到，測試數據顯示大模型在醫療保健領域的表現有了顯著提升。例如，從之前的 GPT-3.5Turbo 的 16% 到 GPT-4o 的 32%，再到 o3 的 60%，整體性能有了顯著進步。尤其是小型模型的進步更為突出，GPT-4.1nano 不僅在性能上超越了 GPT-4o，而且成本降低了 25 倍。

參考資料：

《HealthBench: Evaluating Large Language ModelsTowards Improved Human Health》

本文鏈接：http://www.www897cc.com/showinfo-45-12849-0.htmlOpenAI 發布并開源醫療測試基準 HealthBench，旨在更好地衡量 AI 系統在醫療健康領域能力

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： OpenAI 擴展 ChatGPT AI 深度研究連接器，集成微軟 OneDrive 和 SharePoint

下一篇：昆侖萬維宣布開源 Matrix-Game 大模型：工業界首個開源的 10B+ 空間智能大模型，支持《我的世界》

標簽：

熱門焦點

關于ChatGPT的10點思考

作者：晏濤三壽近日ChatGPT又有大動作。5月19日，OpenAI在官網宣布正式發布App應用，并登錄蘋果應用商店。與網頁版的聊天機器人相比，iOS應用程序的發布有望讓更多人接觸到ChatGPT
這場虛擬人爭奪戰，互聯網巨頭下場先贏一半？

撰文/ 孟會緣近兩年間，要論引得無數互聯網巨頭競折腰的一大熱門產業，莫過于元宇宙領域中的數字人了。作為繼數字藏品之后，開發元宇宙的又一重點落地項目，互聯網
挖來Meta AR高管，難道蘋果也要進軍元宇宙？

“被曝光”的才是最吸引人的產品，相信有關注過蘋果硬件消息的朋友們都明白這樣的道理。往近了說有蘋果“即將發布”的iPhone SE 3和M2芯片，往遠了說有“折疊屏iP
智能人機交互技術的春晚大考

1月初的一個早晨，京東智能客戶服務產品部緊急開會，進行關于尚未對外公布的“X項目”的初討論。1月5日，這個神秘的X項目對外公布，京東成為央視2022年春晚獨家互動合
Meta、谷歌、微軟競相涌入元宇宙，小型企業該如何伺機而動？

目前來看元宇宙不會影響到小型企業的發展，但在接下來的十年內可能會發生很多變化。很多有商業頭腦的企業家都在密切關注著元宇宙的發展。元宇宙這個詞，你一定或
「國產良心」NFT嘲諷了誰？

2月23日，一個名為「國產良心」的NFT項目被許多活躍的加密用戶注意到。該項目的官網風格尤為「不正經」，它絲毫沒有避諱自己的小作坊出身，還將「中國人不騙中國人
Terra鏈上TVL躍升至第二

據DefiLlama數據顯示，當前,Terra鏈上應用鎖倉的加密資產價值（TVL）為172.1億美元，在公鏈板塊中已躍升至第二，超越了幣安智能鏈TVL的118億美元，TVL排名居首的仍為以太
Interface正大光明的“跑路”，社區成員贊格局大

今日凌晨，一個廣泛受社區期待的潛力藍籌項目Interfaces突然發文宣布項目停止運營，后續也不會有鑄造NFT系列的活動。這對社區來說就是一重磅炸彈，大多數人完全不明
Staking 收益翻倍？

以太坊質押可能很快就會有兩倍的利潤。Coinbase 估計，在 1 月份以太坊網絡合并后，持有 ETH 的回報將翻倍。增長預期假設來自加密貨幣交易所 Coinbase 的估計是準

日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI 發布并開源醫療測試基準 HealthBench，旨在更好地衡量 AI 系統在醫療健康領域能力

關于ChatGPT的10點思考

這場虛擬人爭奪戰，互聯網巨頭下場先贏一半？

挖來Meta AR高管，難道蘋果也要進軍元宇宙？

智能人機交互技術的春晚大考

Meta、谷歌、微軟競相涌入元宇宙，小型企業該如何伺機而動？

「國產良心」NFT嘲諷了誰？

Terra鏈上TVL躍升至第二

Interface正大光明的“跑路”，社區成員贊格局大

Staking 收益翻倍？

最新推薦

雷克薩斯高管，“受賄”5000萬？

現在的元宇宙：一款低配版的科幻游戲

費城藝術家使用區塊鏈，在數字藝術中狠狠撈一筆

暴漲100倍的NFT worlds 會是未來元宇宙的雛形嗎？

NFT世界的藝術家名單

NFT領域，我們是否應該遵守版權法

猜你喜歡

熱門推薦

相關資訊