日韩成人免费在线_国产成人一二_精品国产免费人成电影在线观..._日本一区二区三区久久久久久久久不

當前位置:首頁 > 科技  > 軟件

多任務多場景問題解決方案與實踐

來源: 責編: 時間:2023-11-08 09:11:27 302觀看
導讀1 多任務多場景問題概述1.1 背景介紹面向C端用戶提供服務的應用,特別是業務范圍廣、規模大的,普遍存在多任務多場景問題,多任務,也稱多目標,是綜合衡量用戶體驗的多個指標,如搜推算法場景中常見的點擊率、轉化率、收藏率等;

1 多任務多場景問題概述

1.1 背景介紹

面向C端用戶提供服務的應用,特別是業務范圍廣、規模大的,普遍存在多任務多場景問題,多任務,也稱多目標,是綜合衡量用戶體驗的多個指標,如搜推算法場景中常見的點擊率、轉化率、收藏率等;多場景,用戶可以在多個場景內表達不同興趣,產生多種不同的行為模式,如激發興趣的推薦Feed流場景,滿足需求的搜索場景等。多任務多場景給算法系統的優化帶來了諸多挑戰。mMW28資訊網——每日最新資訊28at.com

多場景:不同場景的用戶行為以及物料供給可能存在差異,如果每個場景都訓練一個單獨的模型,成本會比較高,且后續迭代效率堪憂,同時會暴露信息繭房的問題,多個場景的數據信息很難互通;而如果考慮多個場景統一建模,又可能因為多個場景的用戶行為以及流量分布等無法對齊,導致統一模型無法對多個場景數據學習充分,進而造成場景之間的蹺蹺板現象(即某場景因流量或樣本的優勢,主導模型效果,導致其他場景效果受影響),同樣的問題也可能發生在多任務之間。mMW28資訊網——每日最新資訊28at.com

多任務:不同任務/目標之間同樣存在樣本空間的差異,比如CTR和CVR,兩個目標之間存在依賴性,而且通常CVR任務的稀疏性要強于CTR任務。類似的數據不平衡問題,容易導致排序模型在訓練與線上推理階段的樣本空間不一致問題,從而影響模型效果。mMW28資訊網——每日最新資訊28at.com

1.2 多任務問題解決方案

從 Shared-Bottom 到 MMoE[1],再到 PLE[2] 算法,是解決多任務/目標問題的重要演進路徑之一。mMW28資訊網——每日最新資訊28at.com

Shared-Bottom 是多個目標共享底層網絡,每個任務在共享網絡之上構建獨立的網絡結構,其優點是淺層參數共享,能夠起到任務之間的補充學習,對有相關性的多目標學習較友好,當多個目標之間沒有相關性時,可能會影響模型結果。MoE[3] 為解決這個問題,提出了利用一組專家網絡和一個門控網絡對共享網絡的輸出加權組合的思路,一定程度上緩解了不相關任務聯合學習效果不佳的問題,MMoE 則是在 MoE的基礎上,豐富了門控網絡的應用,不同任務對專家網絡的輸出進行不同的權重組合。共享網絡+獨立網絡的研究思路目前已經演進出了 PLE 這樣復雜的網絡結構(如下圖所示),一方面利用共享網絡提取多任務間的共性,另一方面利用獨立網絡捕捉任務間的各向異性,在實踐中取得了不錯的效果。mMW28資訊網——每日最新資訊28at.com

圖片圖片mMW28資訊網——每日最新資訊28at.com

多任務的另外一條支線是以阿里的 ESMM[4] 算法為代表的,適用于存在條件關系的多個目標之間的學習算法,比如電商場景經典的點擊率和轉化率的多目標學習,該算法同時解決了訓練和線上推理階段樣本空間不一致的問題,論文提及在實踐應用中取得了可觀的準確率提升。mMW28資訊網——每日最新資訊28at.com

圖片圖片mMW28資訊網——每日最新資訊28at.com

1.3 多場景問題解決方案

LHUC(Learning Hidden Unit Contributions)[5] 是最初應用在語音識別領域,后又遷移到搜推等算法場景的模型。以推薦系統為例,精排階段的模型多采用深度神經網絡,根據輸入特征,通過隱向量表達個性化,然而在多場景的情況下,尤其是當特征工程刻畫不夠豐富時,不同場景的不同用戶,有可能出現相同/相似的向量表示,從而導致模型的輸出相同/相近,帶來一定程度的模型坍塌。借鑒語音識別領域,為每個 speaker 單獨調整 dense 參數可以帶來效果上的提升,推薦系統可以為不同場景和用戶構建個性化網絡,并以動態權重的形式作用于模型,從而提升模型的表達能力。mMW28資訊網——每日最新資訊28at.com

圖片圖片mMW28資訊網——每日最新資訊28at.com

基于動態權重的思路同樣衍生出了不少經典算法結構,如快手的PEPNet[6],阿里的M2M[7]、AdaSparse[8]、STAR[9] 等。mMW28資訊網——每日最新資訊28at.com

解決多任務多場景問題的算法模型多種多樣,但大多數都可以歸結為不同的 Gating 技術的應用方式,利用門控網絡進行信息的篩選或重組。mMW28資訊網——每日最新資訊28at.com

2 業界解決方案簡述

多任務多場景問題聯合建模的業界案例也有不少,本節節選部分代表算法進行簡述。mMW28資訊網——每日最新資訊28at.com

快手 PEPNET(Parameter and Embedding Personalized Network)mMW28資訊網——每日最新資訊28at.com

圖片圖片mMW28資訊網——每日最新資訊28at.com

PEPNet 借助 GateNU 的門控網絡,表達個性化信息,并分別作用于 EPNet 和 PPNet,EPNet 和 PPNet 分別為表征個性化網絡和參數個性化網絡,分別利用門控網絡處理后的場景信息調整底層 embedding ,得到結合場景/任務的 embedding 向量,從而解決多場景特征對齊/多任務間相互依賴的問題。mMW28資訊網——每日最新資訊28at.com

百度MTMS(Multi-Task and Multi-Scene)[10]

快手的 PEPNet,其網絡結構采用共享底層的思路,而百度的MTMS則屬于拆分多塔的思路。mMW28資訊網——每日最新資訊28at.com

圖片圖片mMW28資訊網——每日最新資訊28at.com

MTMS 基于 ESMM 的思路,在 embedding 更新,以及模型訓練方式上做了改進,損失函數也有所不同。mMW28資訊網——每日最新資訊28at.com

底部 embedding 層,ESMM 采用多任務共享 embedding 的方式,而 MTMS 為不同場景不同任務構建了獨立的 embedding;mMW28資訊網——每日最新資訊28at.com

模型訓練階段,與 ESMM 直接端到端的訓練不同,MTMS 采用兩階段訓練方式,第一階段為學習表示階段,多個場景、多個任務構造各自獨立的 embedding,分別訓練,直到收斂;第二階段為 fine-tune 階段,將第一階段得到的多個任務的 embedding 進行拼接,上層疊加 MLP(更新時只更新上層 MLP 的參數)學習不同場景的不同目標;mMW28資訊網——每日最新資訊28at.com

損失函數,與 ESMM 將CVR作為中間變量不同,MTMS 相對傳統,直接建模 CTR 和 CVR,同時輔助 CTCVR 損失,具體如下:mMW28資訊網——每日最新資訊28at.com

美團HiNet(Hierarchical Information Extration Network)[11]

美團針對多場景多任務的推薦問題,在 MMoE 的基礎上,采用分層抽取信息的思路,為模型增加跨場景傳遞信息的能力,同時保留場景和任務的特定特征。mMW28資訊網——每日最新資訊28at.com

圖片圖片mMW28資訊網——每日最新資訊28at.com

HiNet 主要包含以下兩個模塊:mMW28資訊網——每日最新資訊28at.com

場景抽取模塊,用于獲取場景的表征,具體又包括了場景共享專家網絡,場景獨有專家網絡,以及場景敏感的注意力網絡(SAN),分別刻畫場景共享信息,場景獨有信息,以及場景間的關聯信息;mMW28資訊網——每日最新資訊28at.com

任務抽取模塊,復用 MMoE 的網絡結構,多個專家網絡通過門控網絡重新組合成不同的 embedding,輸入不同的任務預測網絡。mMW28資訊網——每日最新資訊28at.com

3 轉轉的多業務多場景問題及解決實踐

3.1 問題與解決方案

轉轉自大力發展有保障的官方驗服務以來,從手機3C類產品,向其他數碼、電腦辦公,以及家電等多品類滲透,賣場的服務種類隨之多元化,同時以搜索、推薦為基本能力,發散出組貨、幫選、尖貨等多種類型的業務場景,除了多場景、多任務問題之外,還伴隨著多業務的問題,即不同的業務有不同的運營方式,對應不同的物料庫,且不同種類的物料需要關注的重點也不同。下圖是節選的轉轉多個不同場景(對應存在多種業務,多個目標)的展示圖:mMW28資訊網——每日最新資訊28at.com

圖片圖片mMW28資訊網——每日最新資訊28at.com

mMW28資訊網——每日最新資訊28at.com

本節介紹多場景多任務,疊加多業務問題下,轉轉搜索系統的解決方案。mMW28資訊網——每日最新資訊28at.com

同 MTMS 算法思路相同,轉轉的搜索系統,對多任務/目標問題(主要包括 CTR 和 CVR)的求解也是傳統的單獨直接建模的思路。但是對多場景問題的求解,跟 MTMS 構建單獨 embedding,拆分多個獨立塔的方式有所差異,考慮到轉轉的多場景之間存在明顯的數據不平衡問題,可能會導致小場景的塔在 fine-tune階段無法訓練充分。此外,除了多場景,轉轉還面臨多業務的問題,不同的業務背后對應不同特性的物料,若底層采用統一預訓練好的 embedding 表示,不同物料的獨有特征可能無法充分表達。mMW28資訊網——每日最新資訊28at.com

針對轉轉的多場景多業務問題,采用 EPNET + 特征級動態權重的網絡結構刻畫場景信息,網絡結構如下圖所示:mMW28資訊網——每日最新資訊28at.com

圖片圖片mMW28資訊網——每日最新資訊28at.com

整個模型結構可以分成兩大模塊:表征生成模塊與目標預測模塊,與百度 MTMS 的兩階段學習方式相仿,卻有本質上的區別,本文的模型是端到端學習的,其中表征生成部分是多業務多場景,以及物料、用戶和 query 信息的集中表達;目標預測部分,即利用生成的表征做 ctr(或其他任務)的預測。mMW28資訊網——每日最新資訊28at.com

表征生成部分主要包括以下工作:mMW28資訊網——每日最新資訊28at.com

(1)場景信息通過場景對應的商品所在類目集合描述;mMW28資訊網——每日最新資訊28at.com

(2)用戶、query與物料(包含常規特征與獨有特征)特征均包含在 SparseFeatures 與 DenseFeatures中;mMW28資訊網——每日最新資訊28at.com

(3)DomainNet 對所有特征做處理,輸出特征權重,作用在除場景特征外的其他特征上,最終集成為全局的向量表征。mMW28資訊網——每日最新資訊28at.com

上層的任務預測模塊復用經典的DCN(Deep & Cross Network)[12]結構。mMW28資訊網——每日最新資訊28at.com

該模型的上線,在轉轉搜索場景帶來了全品類點擊率6%+,以及支付轉化率2%+的提升,尤其是流量相對較小的品類上,相對漲幅超過了全品類,由此可見該模型對多業務問題的解決效果。mMW28資訊網——每日最新資訊28at.com

3.2 未來規劃

多業務多場景模型在轉轉搜索場的成功實踐,為后續在其他目標(如CVR)、其他算法場(如推薦系統)上的推廣應用奠定了信心與基礎,這也是未來工作的一部分。mMW28資訊網——每日最新資訊28at.com

與此同時需要注意到,該模型在兼容新增場景或物料庫新增獨有特征時并不友好,需要解決冷啟動的問題,這可能成為限制模型全站推廣應用的瓶頸,后續也會繼續沿著該思路進行深耕和優化。mMW28資訊網——每日最新資訊28at.com

關于作者

李光明,算法工程師,參與轉轉搜索算法、推薦算法、用戶畫像等系統的算法體系建設,在GNN、小樣本學習、對比學習、NLP等相關領域有實踐經驗,微信號:gmlldgm,歡迎建設性交流。mMW28資訊網——每日最新資訊28at.com

參考資料

[1]MMoE: Modeling_Task_Relationships_in_Multi-task_Learning_with_Multi-gate_Mixture-of-ExpertsmMW28資訊網——每日最新資訊28at.com

[2]PLE: Progressive_Layered_Extraction_(PLE):A_Novel_Multi-task_Learning(MTL)_Model_for_Personalized_RecommendationsmMW28資訊網——每日最新資訊28at.com

[3]MoE: Adaptive_Mixtures_of_Local_ExpertsmMW28資訊網——每日最新資訊28at.com

[4]ESMM: Entire_Space_Multi-Task_Model:_An_Effective_Approach_for_Estimating_Post-Click_Conversion_RatemMW28資訊網——每日最新資訊28at.com

[5]LHUC: Learning_Hidden_Unit_Contribution_for_Unsupervised_Speaker_Adaptation_of_Neural_Network_Acoustic_ModelsmMW28資訊網——每日最新資訊28at.com

[6]PEPNet: Parameter_and_Embedding_Personalized_Network_for_Infusing_with_Personalized_Prior_InformationmMW28資訊網——每日最新資訊28at.com

[7]M2M: A_Multi-Scenario_Multi-Task_Meta_Learning_Approach_for_Advertiser_ModelingmMW28資訊網——每日最新資訊28at.com

[8]AdaSparse: Learning_Adaptively_Sparse_Structures_for_Multi-Domain_Click-Through_Rate_PredictionmMW28資訊網——每日最新資訊28at.com

[9]STAR: One_Model_to_Serve_All:_Star_Topology_Adaptive_Recommender_for_Multi-Domain_CTR_PredictionmMW28資訊網——每日最新資訊28at.com

[10]MTMS: Multi-Task_and_Multi-Scene_Unified_Ranking_Model_for_Online_AdvertisingmMW28資訊網——每日最新資訊28at.com

[11]HiNet: Novel_Multi-Scenario_&_Multi-Task_Learning_with_Hierarchical_Information_ExtrationmMW28資訊網——每日最新資訊28at.com

[12]DCN: Deep_&_Cross_Network_for_Ad_Click_PredictionsmMW28資訊網——每日最新資訊28at.com

本文鏈接:http://www.www897cc.com/showinfo-26-17671-0.html多任務多場景問題解決方案與實踐

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 多任務多場景問題解決方案與實踐

下一篇: Python的集合模塊,使用數據容器處理數據集合

標簽:
  • 熱門焦點
  • 小米平板5 Pro 12.4簡評:多專多能 兼顧影音娛樂的大屏利器

    疫情帶來了網課,網課盤活了安卓平板,安卓平板市場雖然中途停滯了幾年,但好的一點就是停滯的這幾年行業又有了新的發展方向,例如超窄邊框、高刷新率、多攝鏡頭組合等,這就讓安卓
  • 7月安卓手機性能榜:紅魔8S Pro再奪榜首

    7月份的手機市場風平浪靜,除了紅魔和努比亞帶來了兩款搭載驍龍8Gen2領先版處理器的新機之外,別的也想不到有什么新品了,這也正常,通常6月7月都是手機廠商修整的時間,進入8月份之
  • 線程通訊的三種方法!通俗易懂

    線程通信是指多個線程之間通過某種機制進行協調和交互,例如,線程等待和通知機制就是線程通訊的主要手段之一。 在 Java 中,線程等待和通知的實現手段有以下幾種方式:Object 類下
  • 把LangChain跑起來的三個方法

    使用LangChain開發LLM應用時,需要機器進行GLM部署,好多同學第一步就被勸退了,那么如何繞過這個步驟先學習LLM模型的應用,對Langchain進行快速上手?本片講解3個把LangChain跑起來
  • K8S | Service服務發現

    一、背景在微服務架構中,這里以開發環境「Dev」為基礎來描述,在K8S集群中通常會開放:路由網關、注冊中心、配置中心等相關服務,可以被集群外部訪問;圖片對于測試「Tes」環境或者
  • 從 Pulsar Client 的原理到它的監控面板

    背景前段時間業務團隊偶爾會碰到一些 Pulsar 使用的問題,比如消息阻塞不消費了、生產者消息發送緩慢等各種問題。雖然我們有個監控頁面可以根據 topic 維度查看他的發送狀態,
  • 疑似小米14外觀設計圖曝光:后置相機模組變化不大

    下半年的大幕已經開啟,而誰將成為下半年手機圈的主角就成為了大家關注的焦點,其中被傳有望拿下新一代驍龍8 Gen3旗艦芯片的小米14系列更是備受大家矚
  • AMD的AI芯片轉單給三星可能性不大 與臺積電已合作至2nm制程

    據 DIGITIMES 消息,英偉達 AI GPU 出貨逐季飆升,接下來 AMD MI 300 系列將在第 4 季底量產。而半導體業內人士表示,近日傳出 AMD 的 AI 芯片將轉單給
  • 蘋果140W USB-C充電器:采用氮化鎵技術

    據10 月 30 日 9to5 Mac 消息報道,當蘋果推出新的 MacBook Pro 2021 時,該公司還推出了新的 140W USB-C 充電器,附贈在 MacBook Pro 16 英寸機型的盒子里,也支
Top 主站蜘蛛池模板: 巴林右旗| 大理市| 婺源县| 江津市| 波密县| 循化| 两当县| 清水河县| 肥城市| 双牌县| 宜章县| 武清区| 墨竹工卡县| 大竹县| 资兴市| 中阳县| 石渠县| 大石桥市| 民县| 江孜县| 北川| 汝南县| 邢台县| 盐城市| 海淀区| 义马市| 兴业县| 灵川县| 阳曲县| 延川县| 宿松县| 邢台市| 杭锦旗| 巴马| 襄垣县| 台北县| 九寨沟县| 门源| 宝坻区| 察隅县| 布拖县|