日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當(dāng)前位置:首頁 > 元宇宙 > AI

中科大華為發(fā)布生成式推薦大模型:昇騰 NPU 可部署,背后認知一同公開

來源: 責(zé)編: 時間:2025-04-08 10:04:22 51觀看
導(dǎo)讀 推薦大模型也可生成式,并且首次在國產(chǎn)昇騰 NPU 上成功部署!在信息爆炸時代,推薦系統(tǒng)已成為生活中不可或缺的一部分。Meta 率先提出了生成式推薦范式 HSTU,將推薦參數(shù)擴展至萬億級別,取得顯著成果。近期,中科大與華

推薦大模型也可生成式,并且首次在國產(chǎn)昇騰 NPU 上成功部署!Acv28資訊網(wǎng)——每日最新資訊28at.com

在信息爆炸時代,推薦系統(tǒng)已成為生活中不可或缺的一部分。Meta 率先提出了生成式推薦范式 HSTU,將推薦參數(shù)擴展至萬億級別,取得顯著成果。Acv28資訊網(wǎng)——每日最新資訊28at.com

近期,中科大與華為合作開發(fā)了推薦大模型部署方案,可應(yīng)用于多個場景。探索過程中還有哪些經(jīng)驗與發(fā)現(xiàn)?最新公開分享來了。Acv28資訊網(wǎng)——每日最新資訊28at.com

報告亮點包括:Acv28資訊網(wǎng)——每日最新資訊28at.com

總結(jié)推薦范式發(fā)展歷程,指出具備擴展定律的生成式推薦范式是未來趨勢;Acv28資訊網(wǎng)——每日最新資訊28at.com

復(fù)現(xiàn)并研究不同架構(gòu)的生成式推薦模型及其擴展定律;通過消融實驗和參數(shù)分析,解析 HSTU 的擴展定律來源,并賦予 SASRec 以可擴展性;Acv28資訊網(wǎng)——每日最新資訊28at.com

驗證 HSTU 在復(fù)雜場景和排序任務(wù)中的表現(xiàn)及擴展性;Acv28資訊網(wǎng)——每日最新資訊28at.com

團隊展望并總結(jié)未來研究方向。Acv28資訊網(wǎng)——每日最新資訊28at.com

具備擴展定律的生成式推薦范式正在成為未來趨勢

Acv28資訊網(wǎng)——每日最新資訊28at.com

如圖 1 所示,推薦系統(tǒng)的發(fā)展趨勢是逐漸減少對手工設(shè)計特征工程和模型結(jié)構(gòu)的依賴。在深度學(xué)習(xí)興起之前,受限于計算資源,人們傾向于使用手工設(shè)計的特征和簡單模型(圖 1A)。Acv28資訊網(wǎng)——每日最新資訊28at.com

隨著深度學(xué)習(xí)的發(fā)展,研究者專注于復(fù)雜模型的設(shè)計,以更好地擬合用戶偏好,并提升對 GPU 并行計算的利用率(圖 1B)。Acv28資訊網(wǎng)——每日最新資訊28at.com

然而,隨著深度學(xué)習(xí)能力的瓶頸,特征工程再次受到關(guān)注(圖 1C)。Acv28資訊網(wǎng)——每日最新資訊28at.com

如今,大語言模型擴展定律的成功啟發(fā)了推薦領(lǐng)域的研究者。擴展定律描述了模型性能與關(guān)鍵指標(biāo)(如參數(shù)規(guī)模、數(shù)據(jù)集規(guī)模和訓(xùn)練資源)之間的冪律關(guān)系。通過增加模型深度和寬度,并結(jié)合大量數(shù)據(jù),可以提升推薦效果(圖 1D),這種方法被稱為推薦大模型。Acv28資訊網(wǎng)——每日最新資訊28at.com

近期,HSTU 等生成式推薦框架在此方向取得了顯著成果,驗證了推薦領(lǐng)域的擴展定律,引發(fā)了生成式推薦大模型研究的熱潮。團隊認為,生成式推薦大模型正在成為顛覆當(dāng)前推薦系統(tǒng)的下一個新范式。Acv28資訊網(wǎng)——每日最新資訊28at.com

在此背景下,探索哪些模型真正具備可擴展性,理解其成功應(yīng)用擴展定律的原因,以及如何利用這些規(guī)律提升推薦效果,已成為當(dāng)前推薦系統(tǒng)領(lǐng)域的熱門課題。Acv28資訊網(wǎng)——每日最新資訊28at.com

基于不同架構(gòu)的生成式推薦大模型擴展性分析

為了評估生成式推薦大模型在不同架構(gòu)下的擴展性,團隊對比了 HSTU、Llama、GPT 和 SASRec 四種基于 Transformer 的架構(gòu)。Acv28資訊網(wǎng)——每日最新資訊28at.com

在三個公開數(shù)據(jù)集上,通過不同注意力模塊數(shù)量下的性能表現(xiàn)進行分析(見表 1)。結(jié)果顯示,當(dāng)模型參數(shù)較小時,各架構(gòu)表現(xiàn)相似,且最優(yōu)架構(gòu)因數(shù)據(jù)集而異。Acv28資訊網(wǎng)——每日最新資訊28at.com

然而,隨著參數(shù)擴展,HSTU 和 Llama 的性能顯著提升,而 GPT 和 SASRec 的擴展性不足。盡管 GPT 在其他領(lǐng)域表現(xiàn)良好,但在推薦任務(wù)上未達預(yù)期。團隊認為,這是因為 GPT 和 SASRec 的架構(gòu)缺乏專為推薦任務(wù)設(shè)計的關(guān)鍵組件,無法有效利用擴展定律。Acv28資訊網(wǎng)——每日最新資訊28at.com

Acv28資訊網(wǎng)——每日最新資訊28at.com

生成式推薦模型的可擴展性來源分析

為了探究 HSTU 等生成式推薦模型的可擴展性來源,團隊進行了消融實驗,分別去除了 HSTU 中的關(guān)鍵組件:相對注意力偏移(RAB)、SiLU 激活函數(shù),以及特征交叉機制。Acv28資訊網(wǎng)——每日最新資訊28at.com

實驗結(jié)果(見表 2)顯示,單一模塊的缺失并未顯著影響模型的擴展性,但 RAB 的移除導(dǎo)致性能明顯下降,表明其關(guān)鍵作用。Acv28資訊網(wǎng)——每日最新資訊28at.com

Acv28資訊網(wǎng)——每日最新資訊28at.com

為了進一步分析賦予模型擴展定律的因素,團隊比較了 SASRec 與擴展性良好的 HSTU 和 Llama 的區(qū)別,發(fā)現(xiàn)主要差異在于 RAB 和注意力模塊內(nèi)的殘差連接方式。Acv28資訊網(wǎng)——每日最新資訊28at.com

為驗證這些差異是否為擴展性的關(guān)鍵,團隊為 SASRec 引入了 HSTU 的 RAB,并調(diào)整其注意力模塊的實現(xiàn)方式。Acv28資訊網(wǎng)——每日最新資訊28at.com

實驗結(jié)果(見表 3)顯示,單獨添加 RAB 或修改殘差連接并未顯著改善 SASRec 的擴展性。然而,當(dāng)同時修改兩個組件后,SASRec 展現(xiàn)出良好的擴展性。這表明,殘差連接模式與 RAB 的結(jié)合,為傳統(tǒng)推薦模型賦予了擴展性,為未來推薦系統(tǒng)的擴展性探索提供了重要啟示。Acv28資訊網(wǎng)——每日最新資訊28at.com

Acv28資訊網(wǎng)——每日最新資訊28at.com

生成式推薦模型在復(fù)雜場景和排序任務(wù)中的表現(xiàn)復(fù)雜場景中的表現(xiàn)

HSTU 在多域、多行為和輔助信息等復(fù)雜場景中表現(xiàn)出色。以多域為例,HSTU 在 AMZ-MD 的四個域中始終優(yōu)于基線模型 SASRec 和 C2DSR(見表 4)。Acv28資訊網(wǎng)——每日最新資訊28at.com

與單域獨立訓(xùn)練的 HSTU-single 相比,多域聯(lián)合訓(xùn)練的 HSTU 表現(xiàn)更佳,證明了多域聯(lián)合建模的優(yōu)勢。表 5 顯示,HSTU 在多域行為數(shù)據(jù)上的擴展性顯著,尤其在規(guī)模較小的場景如 Digital Music 和 Video Games 上。這表明 HSTU 在解決冷啟動問題上具有潛力。Acv28資訊網(wǎng)——每日最新資訊28at.com

Acv28資訊網(wǎng)——每日最新資訊28at.com

Acv28資訊網(wǎng)——每日最新資訊28at.com

在排序任務(wù)中的表現(xiàn)

排序是推薦系統(tǒng)中重要的一環(huán),團隊深入探討了生成式推薦模型在排序任務(wù)中的有效性和擴展性。正如表 6 所示,生成式推薦大模型在性能上顯著優(yōu)于 DIN 等傳統(tǒng)推薦模型。盡管在小規(guī)模模型下,Llama 的表現(xiàn)優(yōu)于 HSTU,但 HSTU 在擴展性方面更具優(yōu)勢,而 Llama 在擴展性上顯得不足。Acv28資訊網(wǎng)——每日最新資訊28at.com

Acv28資訊網(wǎng)——每日最新資訊28at.com

團隊還研究了負采樣率和評分網(wǎng)絡(luò)架構(gòu)對排序任務(wù)的影響,并進行了全面分析。此外,還探討了縮減 embedding 維度對性能的影響。縮小 embedding 維度(表 7)提升了小數(shù)據(jù)集 ML-1M 和 AMZ-Books 的性能,但在大數(shù)據(jù)集 ML-20M 上則有所下降。這表明,推薦大模型的擴展定律不僅受垂直擴展(注意力模塊數(shù)量)影響,也受水平規(guī)模(embedding 維度)影響。Acv28資訊網(wǎng)——每日最新資訊28at.com

Acv28資訊網(wǎng)——每日最新資訊28at.com

未來方向和總結(jié)

在技術(shù)報告中,團隊指出了數(shù)據(jù)工程、Tokenizer、訓(xùn)練推理效率等推薦大模型未來研究的潛力方向,這些方向?qū)椭鉀Q當(dāng)前的挑戰(zhàn)并拓寬應(yīng)用場景。Acv28資訊網(wǎng)——每日最新資訊28at.com

論文鏈接:https://arxiv.org/abs/2412.00714Acv28資訊網(wǎng)——每日最新資訊28at.com

主頁鏈接:https://github.com/USTC-StarTeam/Awesome-Large-Recommendation-ModelsAcv28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:認知智能全國重點實驗室 & 華為諾亞方舟,原標(biāo)題《中科大華為發(fā)布生成式推薦大模型,昇騰 NPU 可部署,背后認知一同公開》Acv28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-45-12012-0.html中科大華為發(fā)布生成式推薦大模型:昇騰 NPU 可部署,背后認知一同公開

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: Meta重磅推出Llama 4系列AI模型,性能躍升引關(guān)注

下一篇: Meta LIama 4 重奪開源第一:DeepSeek 同等代碼能力但參數(shù)減半,一張 H100 就能跑,還有兩萬億參數(shù)超大杯

標(biāo)簽:
  • 熱門焦點
Top 主站蜘蛛池模板: 隆回县| 资溪县| 公安县| 陵川县| 荥阳市| 平舆县| 咸丰县| 清涧县| 丰县| 正安县| 南漳县| 丹江口市| 突泉县| 禹州市| 安国市| 绥中县| 陆良县| 永康市| 唐山市| 通州市| 特克斯县| 阿拉善左旗| 冀州市| 阳西县| 定安县| 社旗县| 石门县| 册亨县| 贵定县| 蚌埠市| 克什克腾旗| 吉首市| 辛集市| 库伦旗| 普兰县| 惠东县| 新疆| 北安市| 正安县| 库伦旗| 双鸭山市|