日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

從GPT-2到gpt-oss:深入解析大模型進(jìn)化的關(guān)鍵細(xì)節(jié)

來源: 責(zé)編: 時(shí)間:2025-08-18 12:09:25 69觀看
導(dǎo)讀在人工智能領(lǐng)域,大語言模型(LLM)的演進(jìn)從未停歇,盡管整體架構(gòu)自GPT-2以來并未發(fā)生根本性變化。近日,Sebastian Raschka博士通過深入分析OpenAI開源的gpt-oss模型(包括120B和20B版本),帶領(lǐng)讀者回顧了從GPT-2到gpt-oss的技術(shù)演

在人工智能領(lǐng)域,大語言模型(LLM)的演進(jìn)從未停歇,盡管整體架構(gòu)自GPT-2以來并未發(fā)生根本性變化。近日,Sebastian Raschka博士通過深入分析OpenAI開源的gpt-oss模型(包括120B和20B版本),帶領(lǐng)讀者回顧了從GPT-2到gpt-oss的技術(shù)演進(jìn)之路,并將gpt-oss與另一開源模型Qwen3進(jìn)行了詳細(xì)對(duì)比。7Uk28資訊網(wǎng)——每日最新資訊28at.com

8月5日,就在GPT-5發(fā)布的前兩天,OpenAI宣布推出兩款開源大語言模型:gpt-oss-120b和gpt-oss-20b。這是自2019年GPT-2發(fā)布以來,OpenAI首次開放模型權(quán)重,且得益于巧妙的優(yōu)化技術(shù),這些模型甚至可以在本地設(shè)備上運(yùn)行。7Uk28資訊網(wǎng)——每日最新資訊28at.com

Raschka博士在其文章《從GPT-2到gpt-oss:架構(gòu)進(jìn)步分析》中,詳細(xì)解析了從GPT-2到gpt-oss的架構(gòu)演進(jìn)。他指出,盡管兩者在整體架構(gòu)上相似,但gpt-oss在多個(gè)細(xì)節(jié)上進(jìn)行了優(yōu)化,如移除Dropout、采用RoPE替代絕對(duì)位置編碼、激活函數(shù)從GELU轉(zhuǎn)向Swish/SwiGLU等。7Uk28資訊網(wǎng)——每日最新資訊28at.com

首先,Dropout技術(shù)雖然在早期Transformer架構(gòu)中被廣泛使用,但現(xiàn)代LLM發(fā)現(xiàn)其并不能顯著提升性能,反而可能因單輪訓(xùn)練模式導(dǎo)致下游任務(wù)表現(xiàn)下降。因此,gpt-oss選擇了移除Dropout。7Uk28資訊網(wǎng)——每日最新資訊28at.com

其次,在位置編碼方面,gpt-oss采用了RoPE(旋轉(zhuǎn)位置嵌入)替代傳統(tǒng)的絕對(duì)位置嵌入。RoPE通過對(duì)query和key向量施加位置相關(guān)的旋轉(zhuǎn)來編碼位置信息,這種方式更加高效且逐漸成為L(zhǎng)LM的標(biāo)配。7Uk28資訊網(wǎng)——每日最新資訊28at.com

在激活函數(shù)的選擇上,gpt-oss從GELU轉(zhuǎn)向了Swish/SwiGLU。Swish的計(jì)算成本略低于GELU,且在實(shí)踐中表現(xiàn)良好,盡管兩者在建模性能上的差異并不顯著。7Uk28資訊網(wǎng)——每日最新資訊28at.com

更重要的是,gpt-oss對(duì)前饋網(wǎng)絡(luò)模塊進(jìn)行了重構(gòu),引入了帶門控的GLU(Gated Linear Unit)變體,如SwiGLU。這種結(jié)構(gòu)不僅性能更好,而且總參數(shù)量更少,通過門控帶來的額外乘法交互增強(qiáng)了模型的表達(dá)能力。7Uk28資訊網(wǎng)——每日最新資訊28at.com

gpt-oss還采用了Mixture-of-Experts(MoE,專家混合)技術(shù),用多個(gè)前饋模塊替代單個(gè)前饋模塊,并在每個(gè)token生成步驟中只啟用其中一個(gè)子集。這種做法顯著增加了模型的總參數(shù)量,但通過稀疏性在推理階段保持了高效率。7Uk28資訊網(wǎng)——每日最新資訊28at.com

在注意力機(jī)制方面,gpt-oss引入了分組查詢注意力(GQA)替代傳統(tǒng)的多頭注意力(MHA),并通過滑動(dòng)窗口注意力進(jìn)一步降低內(nèi)存占用和計(jì)算成本。同時(shí),gpt-oss還用RMSNorm替代了LayerNorm,以提升訓(xùn)練效率。7Uk28資訊網(wǎng)——每日最新資訊28at.com

7Uk28資訊網(wǎng)——每日最新資訊28at.com

在與Qwen3的對(duì)比中,gpt-oss展現(xiàn)出不同的設(shè)計(jì)思路。Qwen3是一個(gè)更深的架構(gòu),而gpt-oss則更寬。在MoE的使用上,gpt-oss采用了少量“大專家”策略,而Qwen3則傾向于更多、更小的專家。gpt-oss在注意力機(jī)制中引入了偏置項(xiàng)和注意力池,以穩(wěn)定注意力機(jī)制。7Uk28資訊網(wǎng)——每日最新資訊28at.com

在性能方面,gpt-oss與OpenAI自研的閉源模型以及Qwen3相當(dāng)。盡管gpt-oss在某些任務(wù)上可能表現(xiàn)出較高的幻覺傾向,但其作為推理型模型的設(shè)計(jì),使其在成本、算力和準(zhǔn)確度之間找到了良好的平衡。7Uk28資訊網(wǎng)——每日最新資訊28at.com

隨著gpt-oss的開源,更多開發(fā)者將能夠利用這一強(qiáng)大工具進(jìn)行本地或私有化部署,推動(dòng)人工智能技術(shù)在各領(lǐng)域的廣泛應(yīng)用。7Uk28資訊網(wǎng)——每日最新資訊28at.com

舉報(bào) 0收藏 0打賞 0評(píng)論 0    更多>同類資訊中歐AI合作:共拓發(fā)展空間,共筑治理新未來] 作為全球人工智能(AI)賽道的兩大勁旅,歐盟目前主要以標(biāo)準(zhǔn)與規(guī)則為導(dǎo)向深化AI的基礎(chǔ)研究與垂直應(yīng)用,而中國(guó)主要以創(chuàng)新與發(fā)展為導(dǎo)向拓展AI的研發(fā)空間與立體場(chǎng)景。同時(shí),中國(guó)可利用AI技術(shù)與應(yīng)用的差異化優(yōu)勢(shì)…08-18石頭科技Q2財(cái)報(bào)高增長(zhǎng),華安證券力挺:智能清潔市場(chǎng)前景廣闊其次,石頭科技在歐亞市場(chǎng)的占有率顯著提高,這不僅是品牌影響力的體現(xiàn),也顯示了消費(fèi)者對(duì)其產(chǎn)品的信任和認(rèn)可。 總的來說,石頭科技的2025年第二季度財(cái)報(bào)展示了其在智能清潔領(lǐng)域的持續(xù)增長(zhǎng)潛力,盡管面臨一些挑戰(zhàn),但憑…08-18人大新研:AI助手實(shí)現(xiàn)本地網(wǎng)絡(luò)雙搜,打造高效智能搜索新方案更重要的是,HierSearch不僅答案質(zhì)量更高,搜索效率也更好,避免了傳統(tǒng)系統(tǒng)經(jīng)常出現(xiàn)的無效搜索問題。 在實(shí)際應(yīng)用效果的分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)HierSearch在多知識(shí)源環(huán)境中的搜索成功率和推理成功率都顯著…08-18AI重塑廣東網(wǎng)絡(luò)視聽:超高清智能化引領(lǐng)文化傳播新時(shí)代張良杰教授預(yù)言,數(shù)據(jù)資產(chǎn)化將是網(wǎng)絡(luò)視聽領(lǐng)域下一步發(fā)展的關(guān)鍵走向。這一變化不僅顯著提升了制作效率,更為眾多中小型內(nèi)容創(chuàng)作者打開了新的發(fā)展空間。他指出,網(wǎng)絡(luò)音視頻數(shù)據(jù)在大數(shù)據(jù)總量中占據(jù)了60%至70%的份額,如何…08-18訊飛醫(yī)療科技股價(jià)大漲15.38%,8月14日成交額達(dá)4256.80萬港元訊飛醫(yī)療科技市盈率 38.45 倍,行業(yè)排名第 25 位;其他同行業(yè)公司如平安好醫(yī)生(BG01.HK/558))為 52.68倍、阿里健康(BG88.HK/499)為 48.35 倍、醫(yī)渡科技(BG033.…08-18華為Pura 80系列霸榜2025中國(guó)電信AI與衛(wèi)星通信評(píng)測(cè)例如在AI社交方面,華為Pura 80系列推出的AI互動(dòng)主題舞林萌主,能夠通過生動(dòng)有趣的動(dòng)作與人交互并呈現(xiàn)不同狀態(tài),還能智能識(shí)別音樂、充電、佩戴耳機(jī)等使用場(chǎng)景,自動(dòng)觸發(fā)相應(yīng)的動(dòng)畫效果,使其成為許多用戶喜愛的…08-17奇安信亮相2025數(shù)博會(huì),以AI驅(qū)動(dòng)數(shù)據(jù)安全,共探數(shù)字經(jīng)濟(jì)安全新路徑隨著人工智能大模型技術(shù)的爆發(fā)式發(fā)展,數(shù)據(jù)作為大模型訓(xùn)練與應(yīng)用的核心“燃料”,其安全防護(hù)已成為行業(yè)不可回避的核心關(guān)切。本屆數(shù)博會(huì),奇安信將以“AI賦能數(shù)據(jù)安全”為主題,全面展示AI時(shí)代數(shù)據(jù)安全防護(hù)最新成果。奇…08-17ChatGPT負(fù)責(zé)人:GPT-5仍存編造信息問題,用戶需核對(duì)答案08-17科大訊飛智能機(jī)器人閃耀世界機(jī)器人大會(huì),展現(xiàn)認(rèn)知智能新高度在這場(chǎng)匯聚全球頂尖機(jī)器人技術(shù)與成果的科技盛宴上,科大訊飛攜其最新研發(fā)的智能機(jī)器人產(chǎn)品驚艷亮相,憑借依托星火大模型打造的強(qiáng)大“大腦”,展現(xiàn)出機(jī)器人在認(rèn)知智能領(lǐng)域的突破性進(jìn)展,成為大會(huì)焦點(diǎn),引發(fā)廣泛關(guān)注。 科大訊…08-17AI賦能廣東網(wǎng)絡(luò)視聽:超高清+智能化開啟文化傳播新篇章2025年是國(guó)家超高清產(chǎn)業(yè)發(fā)展的元年,人工智能(AI)技術(shù)正深刻改變網(wǎng)絡(luò)視聽產(chǎn)業(yè)的生態(tài)。深圳大學(xué)智能服務(wù)計(jì)算研究中心主任張良杰在接受羊城晚報(bào)采訪時(shí)表示,AI技術(shù)的應(yīng)用不僅提升了視聽內(nèi)容的精度和體驗(yàn)感,還推動(dòng)了…08-17華爾街大空頭巴里二季度轉(zhuǎn)向,大手筆買入阿里京東看漲期權(quán)華爾街知名對(duì)沖基金經(jīng)理邁克爾·巴里在今年二季度對(duì)中概股態(tài)度發(fā)生重大轉(zhuǎn)變。這一操作與其一季度做空中概股的策略形成鮮明對(duì)比,顯示出其對(duì)中國(guó)資產(chǎn)前景判斷的顯著調(diào)整。 自2022年四季度起,巴里開始布局中國(guó)資產(chǎn),對(duì)阿…08-17科大訊飛引領(lǐng)人形機(jī)器人新紀(jì)元:大模型技術(shù)加速場(chǎng)景應(yīng)用落地其機(jī)器人超腦平臺(tái)總經(jīng)理劉可為指出,大模型技術(shù)的進(jìn)步極大地推動(dòng)了認(rèn)知智能的發(fā)展,使機(jī)器人具備多輪對(duì)話、指令執(zhí)行等能力。通過技術(shù)共享與合作交流,科大訊飛匯聚各方力量,形成了強(qiáng)大的產(chǎn)業(yè)合力,共同推動(dòng)人形機(jī)器人技術(shù)不…08-17華爾街大空頭巴里二季度調(diào)倉:清空中概股看跌,力挺阿里京東看漲華爾街知名對(duì)沖基金經(jīng)理邁克爾·巴里在今年二季度對(duì)中概股態(tài)度發(fā)生重大轉(zhuǎn)變。這一操作與其一季度做空中概股的策略形成鮮明對(duì)比,顯示出其對(duì)中國(guó)資產(chǎn)前景判斷的顯著調(diào)整。 自2022年四季度起,巴里開始布局中國(guó)資產(chǎn),對(duì)阿…08-17奇安信亮相2025數(shù)博會(huì):AI驅(qū)動(dòng)數(shù)據(jù)安全,共筑數(shù)字經(jīng)濟(jì)安全底座在技術(shù)創(chuàng)新方面,奇安信積極將人工智能、大數(shù)據(jù)等前沿技術(shù)應(yīng)用于數(shù)據(jù)安全和個(gè)人信息保護(hù)解決方案中;在標(biāo)準(zhǔn)制定方面,奇安信參與工信部相關(guān)科技項(xiàng)目及國(guó)家數(shù)據(jù)安全標(biāo)準(zhǔn)制定,為行業(yè)規(guī)范發(fā)展貢獻(xiàn)智慧;在數(shù)據(jù)安全生態(tài)體系建設(shè)…08-17AI熱潮下,GPU成網(wǎng)絡(luò)供應(yīng)商新金礦思科首席執(zhí)行官查克·羅賓斯(Chuck Robbins)周三在公司2025財(cái)年第四季度財(cái)報(bào)電話會(huì)議上與分析師交談時(shí)表示,第四季度來自網(wǎng)絡(luò)規(guī)模客戶的AI基礎(chǔ)設(shè)施訂單超過8億美元,2025財(cái)年則將達(dá)到20億美元…08-16點(diǎn)擊查看更多 +全站最新2026款深藍(lán)L07煥新登場(chǎng),全系標(biāo)配華為智駕,打造新能源轎車新標(biāo)桿2026款深藍(lán)L07煥新登場(chǎng),全系標(biāo)配華為智駕,打造新能源轎車新標(biāo)桿晨光涂料:科技引領(lǐng)轉(zhuǎn)型,成就國(guó)際舞臺(tái)新輝煌晨光涂料:科技引領(lǐng)轉(zhuǎn)型,成就國(guó)際舞臺(tái)新輝煌長(zhǎng)安第三代UNI-V智能運(yùn)動(dòng)轎跑上市,售價(jià)10.29萬-11.99萬長(zhǎng)安第三代UNI-V智能運(yùn)動(dòng)轎跑上市,售價(jià)10.29萬-11.99萬比亞迪天神之眼杭州站智駕盛宴落幕,L4級(jí)泊車“敢賠”引領(lǐng)行業(yè)新風(fēng)尚比亞迪天神之眼杭州站智駕盛宴落幕,L4級(jí)泊車“敢賠”引領(lǐng)行業(yè)新風(fēng)尚歐洲車企裁員潮起,中國(guó)新能源車企海外崛起成新趨勢(shì)歐洲車企裁員潮起,中國(guó)新能源車企海外崛起成新趨勢(shì)全新MG4降價(jià)來襲,7萬級(jí)純電小車新選擇,能否在中國(guó)市場(chǎng)逆襲?全新MG4降價(jià)來襲,7萬級(jí)純電小車新選擇,能否在中國(guó)市場(chǎng)逆襲?熱門內(nèi)容
  • 雷軍抖音賬號(hào)變動(dòng)引熱議:武漢大學(xué)標(biāo)簽悄然消失?
  • 阿里開源480B參數(shù)編程模型Qwen3-Coder,超越Kimi K2,強(qiáng)化學(xué)習(xí)訓(xùn)練細(xì)節(jié)公開
  • 阿里開源Qwen3-Coder,AI編程能力媲美Claude4,新手一天頂資深一周
  • 阿里巴巴1688升級(jí)AI服務(wù):新品App與查詢工具上線,賦能中小企業(yè)高效采購
  • 華為Mate 80系列爆料:全新麒麟9030,eSIM與低軌衛(wèi)星通訊技術(shù)加持
  • 浙大發(fā)布“悟空”類腦計(jì)算機(jī):神經(jīng)元規(guī)模超20億,模擬獼猴大腦
  • 華為鴻蒙5.1系統(tǒng)7月31日升級(jí):Pura80領(lǐng)銜,30余款設(shè)備迎新體驗(yàn)
  • 光伏電站智能化管理:提升效率,降低成本,助力“雙碳”目標(biāo)實(shí)現(xiàn)
  • 雷軍抖音賬號(hào)母校標(biāo)簽“武漢大學(xué)”消失,或涉平臺(tái)隱私調(diào)整
  • 國(guó)家網(wǎng)信辦約談?dòng)ミ_(dá):要求闡釋H20算力芯片安全隱患及后門風(fēng)險(xiǎn)
  • 阿里自研旗艦AI眼鏡WAIC 2025首發(fā),探索智能終端新未來
  • 字節(jié)跳動(dòng)AI底層架構(gòu)領(lǐng)跑2025:技術(shù)、組織與財(cái)務(wù)全面賦能AI時(shí)代
  • 馬斯克將為Grok Heavy用戶帶來AI視頻生成器及虛擬男友“Valentine”測(cè)試版
  • 英偉達(dá)H20芯片安全風(fēng)險(xiǎn)引關(guān)注,網(wǎng)信辦約談要求說明“追蹤定位”等技術(shù)詳情
  • 2025年人工智能發(fā)展藍(lán)圖:趨勢(shì)、格局與行業(yè)應(yīng)用深度剖析
本欄最新人大新研:AI助手實(shí)現(xiàn)本地網(wǎng)絡(luò)雙搜,打造高效智能搜索新方案人大新研:AI助手實(shí)現(xiàn)本地網(wǎng)絡(luò)雙搜,打造高效智能搜索新方案AI重塑廣東網(wǎng)絡(luò)視聽:超高清智能化引領(lǐng)文化傳播新時(shí)代AI重塑廣東網(wǎng)絡(luò)視聽:超高清智能化引領(lǐng)文化傳播新時(shí)代華為Pura 80系列霸榜2025中國(guó)電信AI與衛(wèi)星通信評(píng)測(cè)華為Pura 80系列霸榜2025中國(guó)電信AI與衛(wèi)星通信評(píng)測(cè)奇安信亮相2025數(shù)博會(huì),以AI驅(qū)動(dòng)數(shù)據(jù)安全,共探數(shù)字經(jīng)濟(jì)安全新路徑奇安信亮相2025數(shù)博會(huì),以AI驅(qū)動(dòng)數(shù)據(jù)安全,共探數(shù)字經(jīng)濟(jì)安全新路徑科大訊飛智能機(jī)器人閃耀世界機(jī)器人大會(huì),展現(xiàn)認(rèn)知智能新高度科大訊飛智能機(jī)器人閃耀世界機(jī)器人大會(huì),展現(xiàn)認(rèn)知智能新高度AI賦能廣東網(wǎng)絡(luò)視聽:超高清+智能化開啟文化傳播新篇章AI賦能廣東網(wǎng)絡(luò)視聽:超高清+智能化開啟文化傳播新篇章

本文鏈接:http://www.www897cc.com/showinfo-45-26207-0.html從GPT-2到gpt-oss:深入解析大模型進(jìn)化的關(guān)鍵細(xì)節(jié)

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 訊飛醫(yī)療科技股價(jià)大漲15.38%,8月14日成交額達(dá)4256.80萬港元

下一篇: 返回列表

標(biāo)簽:
  • 熱門焦點(diǎn)
Top 主站蜘蛛池模板: 宁化县| 彭水| 理塘县| 新闻| 托克托县| 达孜县| 乐清市| 凤冈县| 娱乐| 博乐市| 读书| 内丘县| 鲜城| 安仁县| 宜章县| 灵丘县| 民乐县| 安康市| 渑池县| 江城| 钟山县| 四平市| 修武县| 中西区| 资阳市| 泉州市| 临潭县| 霍林郭勒市| 五大连池市| 栖霞市| 赤壁市| 图们市| 黄大仙区| 五大连池市| 大埔区| 青浦区| 珠海市| 桂东县| 鄱阳县| 普兰县| 永春县|