5 月 28 日消息,微軟在 Build 2024 大會上發布了 Phi-3 家族的最新成員--Phi-3-vision,主打“視覺能力”,能夠理解圖文內容,同時據稱可以在移動平臺上流暢高效運行。
Phi-3-vision 是一款多模態小型語言模型(SLM),主要用于本地 AI 場景,該模型參數量為 42 億,上下文長度為 128k token,能夠為常規視覺推理任務和其他任務提供支持。
那么 Phi-3-vision 有多厲害?微軟今天發布了新的論文 [PDF],表示該 SLM 和 Claude 3-haiku、Gemini 1.0 Pro 等其他模型不相上下。
微軟在論文中對比了 ScienceQA、MathVista 和 ChartQA 等模型,Phi-3-vision 的參數雖然不多,但性能非常優秀。
此前報道,微軟提供了 Phi-3-vision 相較于字節跳動 Llama3-Llava-Next(8B)、微軟研究院和威斯康星大學、哥倫比亞大學合作的 LlaVA-1.6(7B)、阿里巴巴通義千問 QWEN-VL-Chat 模型等競品模型的比較圖表,其中顯示 Phi-3-vision 模型在多個項目上表現優異。
目前微軟已經將該模型上傳至 Hugging Face,感興趣的小伙伴們可以訪問項目地址:點此進入。
相關閱讀:
《英特爾力押 SLM 小語言 AI 模型,宣布旗下軟硬件已適配微軟 Phi-3》
《參數量 42 億,微軟公布 SLM 小語言 AI 模型最新成員 Phi-3-vision》
本文鏈接:http://www.www897cc.com/showinfo-45-4472-0.html微軟 Phi-3-vision 基準測試:和 Claude 3-haiku、Gemini 1.0 Pro 相當
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 五糧液濃香酒:勞動節送禮的精致藝術