日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

通義千問開源數學模型Qwen2-Math,數學能力超越GPT-4o

來源: 責編: 時間:2024-08-10 07:54:51 117觀看
導讀8月9日消息,阿里通義團隊開源新一代數學模型Qwen2-Math,包含1.5B、7B、72B三個參數的基礎模型和指令微調模型。Qwen2-Math基于通義千問開源大語言模型Qwen2研發,旗艦模型Qwen2-Math-72B-Instruct在權威測評集MATH上的得

8月9日消息,阿里通義團隊開源新一代數學模型Qwen2-Math,包含1.5B、7B、72B三個參數的基礎模型和指令微調模型。Qwen2-Math基于通義千問開源大語言模型Qwen2研發,旗艦模型Qwen2-Math-72B-Instruct在權威測評集MATH上的得分超越GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro、Llama-3.1-405B等,以84%的準確率處理了代數、幾何、計數與概率、數論等多種數學問題,成為最先進的數學專項模型。luG28資訊網——每日最新資訊28at.com

注:在MATH基準測評中,通義千問數學模型的旗艦款Qwen2-Math-72B-Instruct取得了84%的準確率,超過GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro和 Llama-3.1-405B等開閉源模型。luG28資訊網——每日最新資訊28at.com

Qwen2-Math 基礎模型使用Qwen2大語言模型進行初始化,并在精心設計的數學專用語料庫上進行預訓練,訓練數據包含大規模高質量的數學網絡文本、書籍、代碼、考試題目,以及由 Qwen2模型合成的數學預訓練數據。所有預訓練和微調數據集都進行了去污染處理。luG28資訊網——每日最新資訊28at.com

隨后,研發團隊訓練了指令微調版本模型:基于Qwen2-Math-72B訓練一個數學專用的獎勵模型;接著,將密集的獎勵信號與指示模型是否正確回答問題的二元信號結合,用作學習標簽,再通過拒絕采樣構建監督微調(SFT)數據;最后在SFT模型基礎上使用GRPO 方法優化模型。luG28資訊網——每日最新資訊28at.com

據悉,Qwen2-Math系列模型目前主要支持英文,通義團隊很快就將推出中英雙語版本,多語言版本也在開發中。luG28資訊網——每日最新資訊28at.com

通義團隊在多個中英文數學基準測評集對指令微調模型作了性能評估,除了 GSM8K 和 MATH等常見的測評基準,還引入了更具挑戰性的考試競賽類測試,如奧林匹克級別的基準測評OlympiadBench、大學數學級別的基準測評CollegeMath、高考(GaoKao)、美國數學邀請賽(AIME)2024賽題、美國數學競賽(AMC)2023賽題,中文測評則有CMATH測評集、2024年中國高考和中考數學題。最終,Qwen2-Math-72B-Instruct表現優異,在十大測評中都獲得了遠超其他開源數學模型的成績。luG28資訊網——每日最新資訊28at.com

注:研發團隊在greedy和RM@8的條件下對模型作了測評,表中為每款Qwen2-Math-72B-Instruct模型列出了三個得分結果,分別是第1次回答得分(無下標數字)、8次回答中出現最多次數的答案的得分,8次回答中rewardmodel所選答案的得分。luG28資訊網——每日最新資訊28at.com

“大模型能不能做數學題”,不僅是社交平臺的熱門話題,也是業界非常關注的研究課題。處理高級數學問題,需要模型具備復雜多步邏輯推理能力。通義團隊在技術博客中表示,希望通過開源“為科學界解決高級數學問題做出貢獻”,未來將持續增強模型數學能力。luG28資訊網——每日最新資訊28at.com

附:Qwen2-Math解題示例luG28資訊網——每日最新資訊28at.com

Qwen2-Math解題示例

本文鏈接:http://www.www897cc.com/showinfo-45-6274-0.html通義千問開源數學模型Qwen2-Math,數學能力超越GPT-4o

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 解鎖新交互時代!字節豆包大模型賦能實時語音通話

下一篇: 螞蟻集團被曝投資 AI 公司秘塔科技,2023年已投至少6家公司

標簽:
  • 熱門焦點
  • 大廠元宇宙,又菜又愛玩

    撰文 | 吳先之 編輯 | 王 潘當下所有大廠推出的元宇宙產品,所能帶來的沉浸式體驗并不多,好在國內外科技巨頭在bug方面都處在同一水平線。以Meta為例,由于VR頭顯設
  • 茅臺的元宇宙App火了,也被罵慘了

    元宇宙從概念走向大眾生活,并不是一件簡單的事情。技術、世界觀、填充內容、載體形式,每一個環節都需要層層疊疊的邏輯。但正如賽博朋克奠基人威廉·吉布
  • 元宇宙步入暗夜

    撰文 | 文燁豪元宇宙的故事,似乎講不通了。 當下,刮起元宇宙熱潮的Roblox股價已跌去大半,帶頭大哥Meta也正因元宇宙虧損深陷泥潭。 再看國內,從字節“派對島&
  • 冰墩墩NFT遇冷,價格跌80%,日成交僅3筆。

    “兩日上漲千倍”并不存在,且冰墩墩NFT的市場熱度遠不及社交媒體所稱的那樣高。2月11日,獲得國際奧委會授權的2022冬奧會吉祥物冰墩墩相關NFT產品在nWayPlay上線
  • 江西將探索成立元宇宙聯盟,韓國將加強對NFT和元宇宙的監管

    《元宇宙新鮮事》有:江西將探索成立元宇宙聯盟,支持南昌規劃建設元宇宙試驗區;韓國金融監督局將加強對NFT和元宇宙的監管;任天堂社長表示暫時不打算加入元宇宙。【
  • 2030年的元宇宙產業將會如何發展?

    對互聯網巨頭傳統業務的反壟斷政策倒逼互聯網企業顛覆創新,尋找新的增長點,移動互聯網流量空間見頂之際,元宇宙時代紅利已然開啟。序章:元宇宙應用場景大猜想元宇
  • 本周NFT領域重要資訊回顧

    NFT在蘇富比拍賣是一波三折的嗎?其實不完全如此,但本周在蘇富比拍賣行發生了一系列有趣的事。與此同時,美聯社因其最新的NFT銷售被推到了風口浪尖,而Opensea正面臨
  • 量子計算在未來能否提高區塊鏈技術的效率

    區塊鏈技術的主要成功之處在于對不透明的金融流程進行了去中心化的訪問量子計算機的內在目標是解決傳統計算機不可能解決的問題隨著區塊鏈技術的使用案例逐漸
  • Ceramic:為Web3.0社交應用打造的中間件

    大家關注老雅痞公眾號這么久,對Web3的概念不陌生吧?讓我們做一個簡短的回顧,Web3主要被描述為去中心化的網絡,旨在實現無服務器、去中心化的互聯網,即用戶掌握自己
Top 主站蜘蛛池模板: 绥棱县| 张家口市| 遂溪县| 福安市| 奉节县| 翼城县| 上饶市| 南陵县| 比如县| 四会市| 高雄市| 鹤山市| 南康市| 达孜县| 海林市| 西林县| 安阳市| 蓬安县| 巴彦淖尔市| 大城县| 吕梁市| 鸡泽县| 衢州市| 丹江口市| 拉孜县| 大城县| 丽江市| 彩票| 达尔| 类乌齐县| 屏东县| 盐池县| 五华县| 勃利县| 麻栗坡县| 郑州市| 鄂伦春自治旗| 宝应县| 石河子市| 柳江县| 定州市|