日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 元宇宙 > AI

字節跳動最新思考模型 Seed-Thinking-v1.5 技術細節公開,4 月 17 日開放接口

來源: 責編: 時間:2025-04-16 07:19:36 46觀看
導讀 4 月 14 日消息,從豆包大模型團隊獲悉,字節跳動最新思考模型 Seed-Thinking-v1.5 技術細節今日公開,該模型將于 4 月 17 日通過火山引擎開放接口供用戶體驗。該模型在數學、編程、科學推理等專業領域及創意寫作

4 月 14 日消息,從豆包大模型團隊獲悉,字節跳動最新思考模型 Seed-Thinking-v1.5 技術細節今日公開,該模型將于 4 月 17 日通過火山引擎開放接口供用戶體驗。wMu28資訊網——每日最新資訊28at.com

該模型在數學、編程、科學推理等專業領域及創意寫作等通用任務中表現突出,同時,模型采用 MoE 架構,總參數 200B,激活參數為 20B,具備顯著的推理成本優勢,單位推理成本相比 DeepSeek R1 降低 50%。wMu28資訊網——每日最新資訊28at.com

技術報告鏈接:https://github.com/ByteDance-Seed/Seed-Thinking-v1.5wMu28資訊網——每日最新資訊28at.com

模型各方面具體表現:

專業領域:數學推理(AIME 2024 得分 86.7,追平 OpenAI o3-mini-high)、編程競賽(Codeforces pass@8 達 55.0%,接近 Gemini 2.5 Pro)、科學推理(GPQA 得分 77.3%,接近 o3-mini-high),均達到或接近業界第一梯隊水平。wMu28資訊網——每日最新資訊28at.com

通用任務:人類評估表現超 DeepSeek R1 8%,覆蓋多場景需求。wMu28資訊網——每日最新資訊28at.com

成本優勢:單位推理成本相比 DeepSeek R1 降低 50%,實現性能與效率的平衡。wMu28資訊網——每日最新資訊28at.com

wMu28資訊網——每日最新資訊28at.com

數據體系:融合可驗證與創意性數據

針對推理與生成任務的不同需求,團隊優化了數據處理策略:wMu28資訊網——每日最新資訊28at.com

可驗證數據(如數學、代碼題):通過百萬級數據三重清洗(人工篩選 → 模型過濾 → 多模型驗證),保留 10 萬道高難度題目;設計答案整數化改造、離線沙箱驗證等機制,確保模型輸出真實推理過程;wMu28資訊網——每日最新資訊28at.com

非可驗證數據(如創意寫作):基于豆包 1.5 Pro 訓練集,剔除低價值樣本,采用兩兩對比獎勵法,優化生成質量;wMu28資訊網——每日最新資訊28at.com

全新評測基準:構建了超難數學數據集 BeyondAIME(100 道無答案題干題目),解決現有測試區分度不足問題。wMu28資訊網——每日最新資訊28at.com

獎勵模型:雙軌體系校準訓練方向

團隊提出雙軌獎勵機制,兼顧“對錯分明”與“見仁見智”任務:wMu28資訊網——每日最新資訊28at.com

可驗證任務:開發了兩代驗證器(Seed-Verifier → Seed-Thinking-Verifier),從字符匹配升級為推理步驟逐行對比(訓練 / 測試集準確率超 99%),杜絕模型“獎勵欺騙”;wMu28資訊網——每日最新資訊28at.com

非可驗證任務:引入 pairwise 對比訓練,通過千萬次“AB 測試”,捕捉人類對創意、情感等的隱性偏好,避免“眾口難調”;wMu28資訊網——每日最新資訊28at.com

雙軌融合:針對混合場景設計協調機制,硬指標(對錯)與軟偏好(優劣)互補,支撐全場景訓練。wMu28資訊網——每日最新資訊28at.com

訓練方法:“監督精調 + 強化學習”雙階段優化

Seed-Thinking-v1.5 采用“打基礎 + 磨能力”的全鏈路訓練:wMu28資訊網——每日最新資訊28at.com

監督精調(SFT):基于 40 萬高質量實例(30 萬可驗證 +10 萬非可驗證數據),結合人工與模型協同篩選,構建長思考鏈數據集,確保模型“像人類一樣思考”;wMu28資訊網——每日最新資訊28at.com

強化學習(RL):通過三重數據引擎(可驗證 / 通用 / 混合數據)、算法創新(價值預訓練、解耦 GAE 等)以及在線數據適配技術,解決訓練不穩定、長鏈推理斷層等問題,動態調整數據分布以保持最佳訓練狀態。wMu28資訊網——每日最新資訊28at.com

訓練框架:支撐 20B MoE 的底層架構

為應對20BMoE(總參數 200B)的復雜訓練需求,團隊優化了底層架構:wMu28資訊網——每日最新資訊28at.com

HybridFlow 編程模型:支持算法快速探索與分布式并行運行;wMu28資訊網——每日最新資訊28at.com

流式推理系統(SRS):通過“流式推理”技術解耦模型演進與異步推理,將訓練速度提升 3 倍,萬億參數下穩定性達 95%;wMu28資訊網——每日最新資訊28at.com

三層并行架構:結合張量 / 專家 / 序列并行,動態均衡負載,基于 KARP 算法優化 GPU 算力利用率。wMu28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-12277-0.html字節跳動最新思考模型 Seed-Thinking-v1.5 技術細節公開,4 月 17 日開放接口

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: OpenAI CEO 奧爾特曼:DeepSeek 并未影響 GPT 的增長,將推更好的開源模型

下一篇: 我國團隊研發,全球首個基因挖掘大模型 SYMPLEX 問世

標簽:
  • 熱門焦點
  • 拯救XR,蘋果力不從心

    來源 | 光子星球撰文 | 文燁豪 編輯 | 吳先之 蘋果終于呈上了它的“答卷”。 北京時間6月6日凌晨,蘋果2023年全球開發者大會(WWDC)如期舉行。作為蘋果CEO庫克口中&ld
  • 從科幻走進現實,元宇宙概念逐漸清晰

    2021年,元宇宙概念如同一顆炸彈投進互聯網行業,掀起了一場數字海嘯,眾多企業紛紛入局,在此新領域展開新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻紅,元宇宙走進資本圈2021年3
  • 字節覓《原神》,騰訊元宇宙,游戲新王戰舊神?

    文 | 陳橋輝陳奕迅的《紅玫瑰》中有一句歌詞,“得不到的永遠在騷動”,這句話用到如今國內頭部游戲平臺再合適不過。隨著《原神》的異軍突起,使得頭部游戲大廠感受
  • 2021年中國元宇宙行業用戶行為分析熱點報告

    元宇宙網絡熱度高漲,中國網民對虛擬生態興趣濃厚。艾媒咨詢數據顯示,超六成的網民對“元宇宙”了解程度較高,在元宇宙較基礎的游戲領域,超九成的人對VR游戲更感興
  • Meta公布AI概念“Builder Bot”;銀保監發布元宇宙相關風險提示

    概述自從Meta在2月初公布財報后,其負責元宇宙的核心部門Reality Labs表現不佳,凈虧損超100億美元,隨后股價斷崖式下跌。如今,Meta開始繼續發力元宇宙,想要挽回頹勢,
  • Terra鏈上TVL躍升至第二

    據DefiLlama數據顯示,當前,Terra鏈上應用鎖倉的加密資產價值(TVL)為172.1億美元,在公鏈板塊中已躍升至第二,超越了幣安智能鏈TVL的118億美元,TVL排名居首的仍為以太
  • GameFi 深度解析,元宇宙內容雛形顯現

    GameFi=Game(游戲)+Defi(去中心化金融),核心特點為“Play to Earn”。通過技術與去中心化價值觀賦能,GameFi 游戲資產化身為NFT 和代幣上鏈,具備了可驗證性和流通性;開
  • 元宇宙+劇本殺:“在異世界里當演員”

    你玩過劇本殺嗎?體驗過“元宇宙+劇本殺”嗎?2月,恒信東方推出了一款次時代劇本殺原創作品——《失落的王朝》。其劇本和線索以數字化資產打造,通過VR技術塑造了與
  • 電影工業巨頭好萊塢計劃進軍元宇宙,將會對行業帶來什么影響?

    元宇宙聽起來像不像是科幻小說中出現的術語?事實確實如此。小說家尼爾·斯蒂芬森在1992年的小說《雪崩》中首次用這個詞來定義了一個多連接的虛擬宇宙,它能夠模
Top 主站蜘蛛池模板: 华宁县| 伊宁县| 吉安市| 南平市| 阿合奇县| 昌吉市| 三穗县| 张家界市| 靖宇县| 措勤县| 蒙山县| 桂东县| 收藏| 奉贤区| 甘肃省| 凤城市| 洞口县| 比如县| 金平| 奉贤区| 容城县| 云霄县| 鄂托克旗| 桦甸市| 外汇| 黔西县| 河源市| 泗洪县| 军事| 商丘市| 铅山县| 奉贤区| 美姑县| 镇坪县| 梁平县| 义乌市| 织金县| 囊谦县| 大冶市| 绥阳县| 乳源|