5 月 1 日消息,微軟昨日(4 月 30 日)發布 Phi-4-reasoning 系列推理模型,通過監督微調 Phi-4,并利用 o3-mini 生成的高質量“可教導”提示數據集訓練,專為復雜推理任務設計。
援引博文介紹,微軟本次共推出 Phi-4-reasoning、Phi-4-reasoning-plus 和 Phi-4-mini-reasoning 三款模型,官方稱該系列模型不僅延續了小型模型的高效特性,還在推理能力上實現重大突破。
該系列模型通過推理時間擴展(inference-time scaling)技術,擅長處理需要多步驟分解和內部反思的復雜任務,尤其在數學推理和代理型應用中表現突出,具備媲美大型前沿模型的潛力。
Phi-4-reasoning 是一款擁有 140 億參數的開源推理模型,通過監督微調(Supervised Fine-Tuning,SFT)Phi-4,結合 OpenAI o3-mini 的高質量推理演示數據,并充分利用額外計算資源,生成詳細的推理鏈條。
Phi-4-reasoning-plus 增強版通過強化學習(Reinforcement Learning,RL)進一步提升性能,tokens 用量比標準版多 1.5 倍,支持更高精度。
兩款模型在數學推理和博士級科學問題測試中,均超越 OpenAI o1-mini 和 DeepSeek-R1-Distill-Llama-70B,甚至在 AIME 2025(美國數學奧林匹克資格賽)中擊敗 6710 億參數的 DeepSeek-R1滿血模型。
Phi-4-mini-reasoning 專為計算資源有限的環境設計,是一款基于 Transformer 的緊湊型語言模型,優化用于數學推理。
該模型通過 DeepSeek-R1 生成的合成數據微調,能在低延遲場景下提供高質量的逐步問題解決方案。這款模型覆蓋從中學到博士級的百萬級多樣化數學問題,非常適合教育應用、嵌入式輔導和邊緣設備部署。
在多項數學基準測試中,其 3.8 億參數的表現超越 OpenThinker-7B 和 Llama-3.2-3B-instruct 等更大模型,甚至在部分測試中接近 OpenAI o1-mini 的水平。
本文鏈接:http://www.www897cc.com/showinfo-45-12692-0.html微軟發布 Phi-4 系列小語言 AI 推理模型,AIME 2025 跑分超滿血版 Deepseek R1
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 2600 tokens s:Meta 發布 Llama API,攜手 Cerebras 打造最快 AI 推理解決方案