色多多在线观看-国产高清免费-国产主播av-亚洲一区二区中文字幕-成年免费视频黄网站在线观看-国模吧一区二区三区-黄色片www-18xxxx日本-中文字幕福利视频-九九自拍视频-天天摸天天干天天操-伊人久久综合影院-www.亚洲黄色-幸福,触手可及-26uuu成人网

行業新聞

新聞資訊

聯系我們

手機:13823737137

電話:400-8316492

郵箱:3485053954@qq.com

地址:深圳市龍崗區橫坪公路89號數字硅谷E棟4樓

公司動態

SIGIR 2022 | 多場景多任務優化在支付寶數字金融搜索的應用

  • 作者:147小編
  • 發布時間:2025-01-12
  • 點擊:

 

設備之心專欄

設備之心編輯部

本文是螞蟻集團和武漢大學一起提出的, 一種面向多場景多任務優化的自動稀疏專家選取辦法。論文題目為《Automatic Expert Selection for Multi-Scenario and Multi-Task Search》,它經過簡潔有效的架構,實現了樣本級細顆粒度的自動網絡結構學習,對各樣場景結構有較強的普適性。論文已被 SIGIR2022 錄用,同期已然在支付寶數金搜索場景上進行了全流量推全,得到明顯的業務效果。

1、業務背景和問題

支付寶數金搜索是財富、保險等多個業務的重要流量入口。其搜索場景入口如下:

圖 1:數金搜索場景各個入口和詳情頁實例。

因為業務種類與目的的豐富性,數金搜索較通常的垂類搜索面臨更加多的挑戰。以基金搜索為例,它包括

多入口場景:主搜(即支付寶首頁頂端的搜索框,包括小程序, 生活號,理財等內容)理財 TAB(指支付寶下方第二個 tab 理財的搜索框,又叫垂搜,專注于數金服務,如理財和保險)多種卡片:區別的搜索詞類型會觸發區別的搜索卡片,例如:熱門基金:指用戶搜索 “基金”,“股票基金” 等品類詞時,會展示類似舉薦規律的 “熱門基金” 卡。基金制品:指搜索精細制品名,或板塊詞(如新能源,白酒基金等),會展示 “基金制品” 卡。多維度目的:點擊 (PVCTR)、購買轉化 (CTCVR),且用戶交互行徑相對電商更加繁雜,決策周期更長。

在單場景上進行分別迭代,帶來了巨大的守護成本;同期,各個場景都比較重要但又有很強差異。主搜流量大,用戶新,但成交相對稀疏。理財 TAB (指垂搜),流量較小,但成交金額是主搜的 3.96 倍,且用戶多為資深用戶。有部分用戶會同期運用主搜和垂搜,倘若用戶行徑信號不可實現遷移,較難得到滿意的線上效果。因此呢,在多個場景運用統一模型是非常必要且急迫的。

然則,將所有線上樣本進行混合,直接運用 hard embedding sharing 的網絡結構帶來了比較嚴重的負遷移問題。經過近一年來從 MMOE, PLE 等辦法的應用和科研,并調研了 STAR 等多場景辦法咱們提出了一種新穎的,基于自動專家選取的多場景多任務搜索框架(AESM^2,Automatic Expert Selection for Multi-Scenario and Multi-Task Search 下文簡叫作 AESM)。

AESM 用一個框架,并以相同的視角同期處理多場景和多任務問題,它經過簡潔有效的架構,實現樣本級細顆粒度的網絡結構學習,如下圖所示。值得重視,該辦法不僅可應用于搜索,還能應用到其他多場景多任務的算法場景。

將 AESM 模型安排在數金搜索的四個子場景中,相針對各個各場景中單獨安排的模型取得了明顯提高。相針對基線模型,CTR 整體提高 0.10%、 CTCVR 提高 2.51%,成交 GMV 提高 7.21%。仔細的數據分析可見后續章節。

2、多場景和多任務學習狀況

多任務算法(MTL)和多場景學習(MSL)在學術界和工業界被廣泛的科研和應用,經過多任務聯合訓練提高應用效果,如 ESMM、MMoE、PLE 等。但它們直接思慮多場景 + 多任務的狀況。且 PLE 的場景 / 任務間的繁雜相關,需要經過人工指定網絡結構來適配。

多場景學習旨在處理多個相同的任務標簽,且空間結構類似的場景。例如 STAR [19] 嘗試經過星型拓撲捕捉場景關聯性,其中包含共享中心參數和場景特定參數,預設了各個場景是扁平的,并無無層級關系。其他科研 [8, 15] 闡述了將多場景問題做為一個多任務學習問題,但這些工作都需要足夠的行業知識來設計網絡結構。

與 MSL 區別,多任務學習側重于建模任務間關聯性和區別 。例如,CTR 預測和 CVR 預測 [8, 12] 和信用危害預測 & 信用額度設置 [9]。下面是幾種平常處理多任務的辦法

硬參數共享 (hard emb sharing)[1] 是最簡單的模型,它經過共享底層學習內在關聯性。然而,它們飽受 “蹺蹺板現象”[20]—— 一項任務的改進常常引起其他有些任務的性能退化。MMOE 經過 gate 門控機制對各個專家 (experts) 進行組合,但各個專家之間是無交互的,且不具備稀疏性,所有的任務都會運用所有的專家,這使得模型規模變大后,推理性能下降顯著PLE [20] 采用漸進式路由機制并將 experts 分配給共享和特定的任務,這緩解了舉薦系統中的蹺蹺板現象,然則它需要人工指定所有的網絡結構,如哪個專家是獨享或共享的,就地景和任務關系繁雜時,這是比較繁雜的。

綜上,現有辦法的問題是:

只關注單場景下的多任務學習 (SSL&MTL), 或純粹的多場景模型 (MSL&STL)。直接思慮多場景 + 多任務的狀況。這就引起了這類場景豐富的上下文信息,會受到蹺蹺板和負遷移影響。為每一個場景 / 任務研發模型,研發守護成本都會大大增多場景 / 任務間存在相關和區別,而以往的模型都經過人工指定網絡結構來適配。但這需要海量的實驗和人工調參,是不是存在簡單有效的自動專家網絡選取

咱們將從這幾種網絡的優點和劣勢總結如下:

3、算法方法設計

挑戰:各場景存在很強的差異

咱們能夠將基金場景抽象成如下樹狀結構,分別是場景層,卡片層和任務層。

場景層重點是人群間差異。垂搜流量和成交顯著比主搜更大,專業用戶更加多,但交集用戶較少。卡片層重點存在 Query 差異性,其原由是搜索 query 觸發規律區別,搜 "基金","股票型基金" 等泛品類詞會觸發熱門基金卡片,而其他基金詞則會觸發基金制品卡。任務層重點存在任務間差異。基金購買是重決策過程,用戶會反復對比多只制品,且購后都會反復搜索和點擊,關注價格走勢和其他信息。點擊和轉化率皮爾遜關聯性較低。

圖 3:真實業務中繁雜的場景和層級帶來的遷移困難

運用 PLE 訓練統一數據 + 模型,其效果不如在各個場景上獨立訓練的 PLE 模型,存在必定的蹺蹺板效應。因此呢怎樣設計一個統一模型來處理多場景和多任務?怎樣自動學習場景任務間的相關,并使得各個場景都有正向收益?

整體模型結構

咱們針對如上的場景樹結構,構建多層堆疊的,結構類似的 AESM 網絡。在下圖中實例中,真實場景中的場景層 / 卡片層 / 任務層,都由兩層 AES 層來堆疊建模。

圖 5:AESM 主結構圖

AESM 將多場景和多任務問題視為同一問題,并采用分層架構將它們融合到一個統一的框架中。與 PLE 區別,AESM 利用通用且靈活的架構, 分別進行區別場景和任務下,設置共享和獨享的專家。

如下圖 c 所示,上面區別顏色的 E 表率專家被區別的任務所運用: E1, E2 被 A 任務運用, E2 和 En 被 B 任務運用。E2 為 share 專家,其他為 specific 專家。

為了簡化,咱們首要介紹單獨的多場景 / 多任務層,并討論怎樣做自動專家選取;后續再討論擁有多層任務設置的狀況

共享嵌入層

與其他模型類似,咱們設計了共享嵌入層,將底部的類別和數值特征轉換為連續的特征向量。假設有 組特征,例如,用戶特征(如年齡、性別)、物品特征(如價格、品牌)和行徑特征(如 q2i,u2i 等)。針對給定的樣本,首要將數值特征轉換為類別類型,而后對類別特征進行 one-hot 處理,如下所示:

其中,

暗示用戶特征的個數,

暗示特征向量的拼接;其他類型的特征處理方式同用戶的特征處理方式;將處理后的各樣類型特征進行拼接,得到輸入

多場景層和專家選取

在共享嵌入層之后,

做為后續層的輸入,經太多層專家選取層得到最后的輸出。這兒的核心問題是,怎樣進行專家選取

全部過程用下圖暗示如下:

圖 7:AESM 的探索和稀疏化約束機制

為簡單起見,咱們只展示一層的選取過程。假設有 n 個專家和 m 個輸出(即 m 個 gate)的場景層,咱們首要利用線性變換來計算每一個場景的門控向量如下:

其中,

是第 j 場景和第 k 個專家關于輸入實例的關聯性分數;

是可學習參數,

是場景 embedding 表征,

是高斯噪聲(

)。

行向量

選取專家模塊的關鍵過程咱們做出如下假設

倘若相對大于其他向量,則暗示,第 k 位的專家更加多可能被歸類為第 j 場景的 specific 組。倘若中的值都相對接近,則第 k 個專家可能包括所有場景之間的共享信息。

因此呢咱們首要對矩陣執行逐行 softmax 操作 G 如下:

而后針對第 j 場景,咱們形成一個 one-hot 場景向量

,其中僅有第 j 個元素為 1。如上所述,能夠按照

之間的類似性來衡量第 k 個專家是第 j 個場景特有專家的概率。

類似地,咱們還為第 j 個場景引入了一個均勻分布的向量

能夠按照

之間的類似性來衡量第 k 個專家是第 j 場景共享專家的概率。

因此呢選取場景特定和場景共享專家的過程形式化地描述如下:

其中

分別為第 j 個場景的特定和場景共享設置的專家 index,算子 TopK 是返回 top- 索引的參數操作值,( ) 計算 Kullback-Leibler 散度。

運用

來更新門控向量

,實現稀疏專家網絡:

然后,將門控標量矩陣

和專家輸出

輸入標準的 MMoE 模塊得到這個場景層的輸出:

綜上,本辦法最重要的是三點:

噪音探索:在 gate 上增多高斯噪聲,使得模型去學習區別專家的組合帶來的效果,從而選取最佳的專家組合,噪音大幅擴大了專家組合的探索效率。噪聲強度是超參,無限大的噪聲等價于在專家維度進行隨機 dropout,會必定程度影響下面的 loss 約束收斂,而較小的噪聲起不到探索效果。因此呢噪聲的施加策略是后續進一步優化的方向。如,隨著訓練步數增大,專家選取逐步穩定,那樣噪聲強度應逐步變小。稀疏化專家選取經過計算門控列向量與 onehot 向量與均勻向量的 KL 散度,使得 gate 選取最適合的共享和獨享專家,并實現專家網絡的稀疏化,并實現了稀疏激活。這明顯提高了泛化性,同期模型規模變大,不會增多推理時延。集中性約束:在以上機制的基本上,進一步增多基于 KL 散度的約束。本質上便是讓相同場景 / 任務的樣本,盡可能選取同一組最優專家。這種基于距離度量的約束,類似樣本聚類的功效,但其實現是更簡潔的,能夠與深度學習模型一塊集成

在多任務部分,咱們給定以上場景層的輸出

咱們利用相同的選取過程來實現多任務學習。此處再也不贅述。

多層堆疊和擴展

此處可參考 AESM 主模型圖。

實質應用中,一個場景可能很繁雜,并且在本質上表現出層次結構 [11,15]。例如咱們的基金搜索場景,經過堆疊多個場景層和任務層,咱們的模型 AESM 能夠非常方便地處理這種繁雜的場景。這與深度網絡(DNN)的優良同樣經過更深的深度,而不是寬度,能夠以更少的參數表達更繁雜的問題。

例如在有 層的場景,每層有 N_i 個場景繁雜系統中,只需要調節每一層的輸入S_i ,最后咱們能夠對n_1n_2…n_L_s個細分場景進行建模。當咱們運用標準的 MMoE 架構時,每一層咱們需要相同的專家數量。因為

能夠節約海量的計算成本。

另外咱們仍然能夠將 多任務層堆疊在一塊,自適應地為更高級別的任務進行特征提取。與多場景區別由于第1個多任務之后,每一個任務都有區別的輸入層。在后續的多任務層中運用相同的專家結構,運用區別的輸入進行專家選取。當層數大于 1 時,咱們運用前一層的輸出做為后一層的輸入。

模型優化

針對數金搜索的精排模型,選取 sigmoid 做為激活函數。因此呢,第

個實例的交叉熵損失如下:

如上一節介紹,咱們增多輔助損失來加強場景 / 任務特定的專家選取詳細來講針對

的多場景層,可增多下面的 loss 約束:

其中

是第

個多場景中的輸出層。一樣針對

的多場景層,可經過

加強訓練過程中專家的選取決策;一樣多任務層中共享專家的損失函數暗示

;綜合得到,輔助損失函數

定義如下:

整體的損失函數可定義為:

四. 線仿真和消融實驗

為了驗證 AESM 的有效性, 咱們在多個數據集上,將 AESM 于其他多場景 / 多任務模型進行對比。并做了海量消融實驗。

實驗設計

離線實驗中共收集了兩個真實場景中的數據集,分別是支付寶和速賣通數據。

支付寶數據集:收集了從 2021 年 11 月 15 日到 11 月 30 日, 兩周用戶支付寶搜索的行徑日志。分為主搜 (HP) 和垂搜 (VP) 兩個場景(channel),同期每一個 channel 中還能夠進一步劃分為 熱門基金(BS)和基金制品(RI) 兩個卡片(這兒被抽象為)。因此呢全部數據集經過 channel 和 domain 正交分為四個詳細的場景。按照行徑數據的日期將數據集切分為訓練集、驗證集和測試集:11 月 15 日 - 11 月 28 日為訓練數據,2021 年 11 月 29 日為驗證數據,2021 年 11 月 30 日為測試數據。進行點擊率和轉化率的預估。觀察到兩個數據集中的數據分布不平衡。例如,僅 VP&BS 場景中的展示次數在所有場景中占比 6.44%,大部分點擊出現在場景 VP&RI,反而占 82.33%。

速賣通數據集一樣此數據集存在多場景(按用戶國籍劃分)和多任務的設置。在這次實驗中,選擇了、、和四個場景的數據集。由于原始數據集只包括訓練集和測試集,咱們隨機抽取 50% 的原始測試數據做為驗證集。

表 2:速賣通數據集統計狀況

咱們將 AESM 與兩類基線模型進行對比:

門感知 (gate-base) 模型,它運用門控機制來處理多場景或多任務問題,包含 MMoE [11]、HMoE [8]、和 PLE [20]MMoE [11] 利用多門混合專家隱式建模專家之間的關系,來自多個門的合并暗示能夠分別轉換為多個場景 / 任務預測層;HMoE [8] 運用梯度切割技巧顯式編碼場景之間的相關關系,HMoE 采用兩個擁有單獨參數的模型來優化 CTR 和 CVR 任務;PLE [20] 是另一種先進的 MMoE 變體,它將專家分為任務特定組和任務共享組,避免了區別任務之間的負遷移和蹺蹺板現象;無門模型,如 Hard Sharing [1]、Parallel DNN,Cross-Stitch [13] and STAR。Hard Sharing [1] 是一個簡單但廣泛運用的模型,經過共享的底層對共享的信息進行編碼;Parallel DNN 是在基本 DNN 上增多適應多場景或任務的轉換而來;Cross-Stitch [13] 經過線性交叉網絡將多個網絡結構進行組合,用于學習任務暗示STAR 采用星型拓撲結構,由共享中心網絡和場景特定網絡組合而成;

借鑒 ESMM [12] 的思想,咱們優化全部空間中的 CTR 和 CVR,即 = × 。運用 auc 評定模型的性能。為了保準公平,咱們做了以下工作:

因為以上的基線模型中并不可同期處理 MSL&MTL。咱們在基線模型上進行結構擴展,來適應咱們多場景多任務的需求。例如,針對多場景模型 STAR,我們在任務級實現另一個星型拓撲結構。針對多任務模型 PLE,在原有的公司上再疊加一層 PLE 結構來處理多場景問題。所有的基線模型同 AESM 同樣運用合并場景數據進行訓練,網絡的結構的深度及選取專家的個數等超參均保持一致。

基線效果對比

表 3 和表 4 是支付寶和速賣通數據集上區別模型的性能對比。兩個表中的結果都顯示咱們提出的模型 AESM 在所有狀況下始終優于所有基線任務。尤其數據稀疏度最高的主搜熱門基金,提高更為明顯。這顯示模型能夠適應區別的配置的場景和任務。但其他模型則不必定,例如在 CTR 任務中,PLE 在 VP&BS 場景中的表現優于 MMoE,但在 HP&BS 場景中的表現不如 MMoE。

與多場景和多任務設置中訓練的模型相比,所有基線都受到來自區別場景的負遷移的影響。例如,它們在 HP&BS 上的性能不如在單一場景中訓練的模型。然而,AESM 在所有場景中都優于所有單一場景模型,顯示 AESM 能夠更好地利用場景關系,避免負遷移。

表 3:區別模型在支付寶數據集上性能對比

表 4:區別模型在速賣通數據集上性能對比

消融分析

為分析每種優化的影響,采用兩種區別的 AESM 變體進行消融分析:(1)無高斯噪聲和輔助損失 (2)無輔助損失。從下表的結果能夠看到,去除高斯噪聲和輔助損失后,所有任務上性能均有下降。

對比(1)(2)兩種變體 AESM,能夠看到高斯噪聲在所有的場景中均有著良好的表現。這寓意恰當的波動給模型帶來了更為廣泛的探索空間, 得到更為精確的模型參數。

輔助損失能夠引導專家網絡選取更接近假定的分布。下圖的結果暗示,當刪除輔助 loss 時,場景和任務的性能均會下降。咱們進一步地繪制了門控矩陣下,選定的場景 / 任務分布與假設分布(獨熱和均勻分布)之間的 KL 散度的差異。能夠看到增多輔助損失后,兩種分布之間的 KL 散度損失是逐步下降的。顯然,加入輔助損失后模型能夠稀疏地進行專家選取

圖 8:稀疏化輔助 loss 的訓練收斂對比

專家選取的可視化

咱們可視化了支付寶數據集中,場景 / 任務的 specific/share 組的專家利用率,即 gate 激活程度。為了簡單起見,每一個層(即通道、域和任務)都包括兩層專家選取層。

特定專家集和共享專家集都配置為僅選取一位專家 (topk=1)。下圖表示,在 channel 級別,共享同一類型通道的場景擁有類似的分布。這顯示咱們的模型能夠動態地模擬繁雜的共享信息和場景之間的差異。相比之下,PLE 以靜態方式定義特定 / 共享專家。在任務層面,咱們觀察每項任務,幾乎在特定 / 共享組中選取一位專家,這寓意咱們的模型能夠收斂到 PLE 設置。

這些觀察結果顯示,AESM^2 是一種更通用的模型,能夠適應區別場景 / 任務的區別結構。

圖 9:區別層級專家的被選取概率可視化對比

AESM 自動專家選取的討論

為了定性的討論這個問題,就需要先思考多場景和多任務問題的本質區別是什么?

多場景和多任務,都屬于多目的問題的一個子集。筆者認為,多場景問題本質上需求泛化性,帕累托最優中的資源是模型參數的歸屬,任何一個事件(如點擊和轉化),不可能在兩個場景同期出現;而多任務問題恰恰相反,帕累托最優的資源約束,重點是參數權重本身,是梯度沖突引起的參數更新方向的沖突,但并不尤其強調泛化性:一般模型參數量越大,帕累托前沿越向前,但卻會損害泛化性,這一點可經過下圖的實驗證明,來自文獻 [13]。

參數量會明顯地影響多任務模型的泛化性和效率。因此呢想要同期處理多場景多任務,就必須平衡效率(帕累托前沿)和泛化性,它們是天然沖突的。處理這一問題最直觀的思路,是經過 bottleneck 網絡結構,在靠近輸出層增多模型參數,提高帕累托前沿;而在底層施加稀疏性約束,使得底層提高泛化性。

值得指出,倘若只是處理多任務優化問題,會有非常多辦法能夠做到。但 AESM 辦法經過相當簡單的方式,經過施加噪聲和稀疏化,在類似 MMOE 的框架下,實現了類似 bottleneck 和 dropout 的思路來實現專家選取,讓參數盡可能在底層而不是上層實現共享,從而必定程度上平衡了多場景和多任務分別需求的泛化性和帕累托前沿的問題。

5、業務效果和在線實驗

線上推全實驗

咱們在 2022 年 1 月底起始,與四個場景的線上基線(基于行徑序列的 DIN+ESMM) 進行了兩周的在線 A/B。效果明顯優于其他所有場景,并進行了推全。

以下是在各個場景各自的提高(其中在主搜熱門基金和主搜基金制品觀察到 darwin 實驗的置信提高):

以下是所有場景匯總后,實驗桶相比基準桶整體的提高

線上消融實驗

盡管咱們做了扎實的離線消融實驗。但與強 baseline,如雙層 PLE 等辦法進行線上 AB 對比,則更能反映算法和系統的真實性能。

為驗證 AESM 模型有效性, 咱們在主搜、垂搜的熱門基金和基金制品四個場景分別設計如下四組實驗:

經過實驗咱們發掘,對基金搜索所有的揭發點擊行徑數據來看,AESM 分桶在 UVCTR, CTCVR 和 UV_CTCVR 三個指標上相比其他基線有明顯提高。其中關鍵指標 CTCVR,相比統一訓練 + 單層 PLE 提高 4.7%。

以 CTCVR 為 KPI,拆解到區別場景的的效果對比。垂搜基金制品做為主力場景,其他場景為其帶來的優良微乎其微,然則能夠較強地為其他稀疏場景供給遷移效果,詳細見下圖:

咱們將以上數據繪制到下圖中,可更知道表現 AESM 的優良:

圖 10:經過線上消融實驗,與其他辦法的效果對比

6、總結和后續改進

日前 AESM 已然在數金搜索的基金主場景進行了全流量安排。這可能是第1個在統一框架內,同期處理 MSL 和 MTL 問題的辦法,并擁有以下優點:

大大降低繁雜場景間的負遷移現象,以實現最優的信息共享。實質業務中,非常多場景能夠組織為層次結構,對其進行層疊式的建模,可進一步加強性能,并明顯降低計算成本。經過噪音探索,稀疏化專家選取和集中性約束的機制,實現了自動提取場景 / 任務 specific 和 share 樣本級專家選取算 法。詳細的,基于 multi-gate 混合專家的稀疏化結構,實現自適應結構學習,并設計了輔助損失函數來指點訓練過程。

值得指出,AESM 后續有有些值得繼續探索的方向。

AESM 經過噪音提高探索空間,但噪音強度做為超參難以選取,應探索和實驗更穩健和魯棒的專家探索方式。當需要增多場景 / 任務時,之前模型需要重新設計和訓練。怎樣優化 AESM,使得其能夠進一步適應動態和異構的場景任務結構,并更好的處理起步問題,將會是一個有挑戰的問題。咱們在橫向專家層面做了自動專家選取,但在縱向(深度)上存在自動專家選取的可能性必要性:自動殘差網絡,將會是一個令人興奮的方向。

AESM 和谷歌最新的 MOE 架構 Pathways 有有些類似性,能幫忙咱們實現更加多異構任務的統一訓練和優化。后續咱們會積極地探索新的改進計劃。歡迎業界同仁一起討論。

7、參考文獻

[1] Rich Caruana. 1997. Multitask learning. Machine learning 28, 1 (1997), 41–75.

[2] Yuting Chen, Yanshi Wang, Yabo Ni, An-Xiang Zeng, and Lanfen Lin. 2020.Scenario-aware and Mutual-based approach for Multi-scenario Recommendationin E-Commerce. In Proceedings of the International Conference on Data Mining Workshops (ICDMW). IEEE, 127–135.

[3] Yulong Gu, Wentian Bao, Dan Ou, Xiang Li, Baoliang Cui, Biyu Ma, Haikuan Huang, Qingwen Liu, and Xiaoyi Zeng. 2021. Self-Supervised Learning on Users’ Spontaneous Behaviors for Multi-Scenario Ranking in E-commerce. In Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 3828–3837.

[4] Sepp Hochreiter and Ju?rgen Schmidhuber. 1997. Long short-term memory. Neural computation 9, 8 (1997), 1735–1780.

[5] Robert A Jacobs, Michael I Jordan, Steven J Nowlan, and Geoffrey E Hinton. 1991.Adaptive mixtures of local experts. Neural computation 3, 1 (1991), 79–87.

[6] Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization.arXiv preprint arXiv:1412.6980 (2014).

[7] Wouter Kool, Chris J Maddison, and Andriy Mnih. 2021. Unbiased Gradient Estimation with Balanced Assignments for Mixtures of Experts. arXiv preprint arXiv:2109.11817 (2021).

[8] Pengcheng Li, Runze Li, Qing Da, An-Xiang Zeng, and Lijun Zhang. 2020. Improving Multi-Scenario Learning to Rank in E-commerce by Exploiting Task Relationships in the Label Space. In Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2605–2612.

[9] Ting Liang, Guanxiong Zeng, Qiwei Zhong, Jianfeng Chi, Jinghua Feng, Xiang Ao, and Jiayu Tang. 2021. Credit Risk and Limits Forecasting in E-Commerce Consumer Lending Service via Multi-view-aware Mixture-of-experts Nets. In Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 229–237.

[10] Jiaqi Ma, Zhe Zhao, Jilin Chen, Ang Li, Lichan Hong, and Ed H Chi. 2019. Snr: Sub-network routing for flexible parameter sharing in multi-task learning. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 33. 216–223.

[11] Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong, and Ed H Chi. 2018.Modeling task relationships in multi-task learning with multi-gate mixture-ofexperts.In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1930–1939.

[12] Xiao Ma, Liqin Zhao, Guan Huang, ZhiWang, Zelin Hu, Xiaoqiang Zhu, and Kun Gai. 2018. Entire space multi-task model: An effective approach for estimating post-click conversion rate. In Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 1137–1140.

[13] Yuyan Wang, Zhe Zhao, Bo Dai, Christopher Fifty, Dong Lin, Lichan Hong, Ed H. Chi. Small Towers Make Big Differences

在線客服
聯系方式

熱線電話

13823737137

上班時間

周一到周五

公司電話

400-8316492

二維碼
免费20分钟超爽视频 | 男女视频在线观看免费 | 欧美日韩国产不卡 | 国产成人无码一区二区三区在线 | 网址你懂的在线 | 亚洲在线视频观看 | 日韩欧美亚洲一区二区 | 久久亚州| 伊人丁香 | 夜夜骚av| 亚洲激情视频网站 | 日本一区二区三区四区五区 | 熟妇毛片 | 国产黄片一区二区三区 | 国产精品久久久久久久久果冻传媒 | 亚洲免费视频一区 | 九九精品久久 | 午夜激情免费视频 | www.日韩欧美| 青青草视频成人 | 1000部啪啪未满十八勿入超污 | 国产无套在线观看 | 欧美视频一区二区三区 | 亚洲精品影院 | 久久99久久99精品蜜柚传媒 | 国产亚洲片 | 国产精品秘| 亚洲天码中字 | 蜜桃av噜噜一区二区三区 | 精品123区 | 在线观看国产精品视频 | 99热免费在线观看 | 国产欧美日本 | 亚洲成年人网 | 亚洲视频在线免费播放 | 国产亚洲片| 91pron在线| 色综合久久av| 99热这里只有精品99 | 国产精品九九 | 欧美极品少妇 | 久久精品视频2 | 啪啪自拍 | 自拍偷在线精品自拍偷无码专区 | www麻豆| 亚洲xx网 | 影音先锋制服 | 国产一区二区三区 | 在线观看视频 | 国产精品一区二区三区在线免费观看 | 免费成人在线电影 | 久草资源福利 | 日韩av首页 | 亚洲免费大片 | 成人精品福利视频 | 欧美高清hd18日本 | 亚洲天堂网站 | 国产精品成人无码 | 日韩欧美高清在线 | 草逼导航 | 三级成人在线 | 麻豆专区 | 6080午夜伦理| 午夜尤物| 亚洲国产第一区 | 亚洲一区久久久 | 久久人妻免费视频 | 亚洲成人mv | 国产精品毛片va一区二区三区 | 国产精品久久久久久久免费看 | 国产精品第157页 | 国产在线www| 无码人妻丰满熟妇啪啪网站 | 天天操人人干 | 蜜桃一区二区 | 天天久久久 | 欧美五月 | 国产国产精品 | 九色tv | 日韩免费高清视频 | 国产高潮失禁喷水爽到抽搐 | 国产精品第5页 | 可以免费观看的av | 国产乱人 | 欧美在线观看一区 | 欧美精品1区2区3区 国产老妇伦国产熟女老妇视频 | 在线看黄色片 | 午夜精品一区二区三区免费视频 | av黄色免费 | 天天鲁一鲁摸一摸爽一爽 | www亚洲天堂 | 天天草视频 | 青青综合网 | 亚洲欧美综合 | 精品无码人妻一区二区三区品 | 欧美gv在线观看 | 日韩黄色av网站 | 国产精品嫩草影院桃色 | 国内自拍xxxx18 | 哺乳期给上司喂奶hd | 麻豆视频网站在线观看 | 男人亚洲天堂 | www.男人天堂 | 五月婷婷丁香 | 亚洲手机在线 | 亚洲一区二区影院 | 毛片大全在线观看 | 秋霞国产| 国产精品77 | 你懂的在线视频网站 | 男18无遮挡脱了内裤 | 久久欧洲 | 天天草av | 中文天堂在线视频 | 精品一区在线播放 | 美女被c到爽 | 好吊视频一二三区 | 欧美日一本 | 亚洲激情国产 | 国产日产亚洲系列最新 | 国产嫩草影院久久久久 | 小嫩嫩12欧美 | 国产一区二区免费 | 中文一二区 | 韩日午夜在线资源一区二区 | 日本不卡视频在线播放 | 日日影院 | 日韩性视频| 综合久久婷婷 | 私密spa按摩按到高潮 | 少妇视频网站 | 成人网在线 | 妺妺窝人体色www婷婷 | 白又丰满大屁股bbbbb | 麻豆精品91 | 超碰99热 | 麻豆婷婷 | 三级免费看 | 另类天堂av | 亚洲图片一区二区三区 | 成人特级毛片 | 观看免费av| 欧美成人三级 | 成人av资源站 | 亚洲三级在线 | 久久综合色网 | 成人精品动漫 | 美国黄色一级大片 | 米奇影院7777免费观看高清完整喜剧电影 | 老司机深夜福利视频 | 狠狠操狠狠爱 | 性欧美一区二区三区 | 国产欧美日韩在线 | 国产尤物视频在线观看 | 国产日韩欧美在线 | aaa亚洲精品 | 欧美不卡一区二区三区 | 久久国产乱子伦精品 | 久久精品99久久久久久久久 | 免费污视频 | 伊人一区二区三区 | 福利视频网站导航 | 香蕉依人 | 日日夜夜免费视频 | 亚洲精品亚洲人成人网 | 精品欧美一区二区三区久久久 | av噜噜| 免费看污片的网站 | 一本色道久久综合亚洲精品酒店 | 美女黄免费 | 国产精品一区二区电影 | 你懂的国产 | 欧美野外猛男的大粗鳮 | 国产一区二区欧美 | 夫妻性生活黄色片 | 亚洲a网站 | 操白虎逼| 亚洲成人网页 | 无码人妻少妇色欲av一区二区 | 久久精品99久久久久久久久 | 小泽玛利亚一区二区三区在线观看 | 影音先锋人妻啪啪av资源网站 | 成人免费视频网站 | 国产黄色av片 | 综合国产在线 | 一级片免费在线 | 3p在线观看| 国产伦理自拍 | 成年人毛片视频 | 美女扒开尿口让男人桶 | 成人在线免费视频观看 | 黄色av大片 | 亚洲一二三区在线观看 | 99久久99久久久精品棕色圆 | 午夜a级片| 免费看一级 | 日韩专区在线观看 | 麻豆影视大全 | 免费高清视频在线观看 | 国产少女免费观看高清 | 九九热国产 | 午夜综合网 | 美女免费毛片 | 久久精品播放 | a级片免费视频 | 亚洲操操操 | 快色视频在线观看 | 醉酒壮男gay强迫野外xx | 露脸丨91丨九色露脸 | 依人久久| 国产精品免费一区二区三区 | 婷婷激情小说 | 精品欧美久久 | 久草视频播放 | 国产人妻精品一区二区三 | 亚洲图片一区二区三区 | 天天操天天干天天插 | 泷泽萝拉在线播放 | 色综合999 | 特级西西444www大精品视频 | 天天操夜夜爽 | 中国一级大黄大黄大色毛片 | 在线国产观看 | 欧美中文一区 | 91精彩刺激对白 | 日韩国产欧美一区二区 | 久久国产一区二区 | 伊人9999| 少妇被黑人到高潮喷出白浆 | 老司机午夜免费视频 | 99re国产 | 91亚洲国产成人精品一区二区三 | 国产精品电影院 | 国产伦精品一区二区三区免费视频 | 免费中文字幕av | 欧美日韩一二三 | 亚洲欧美日韩中文在线 | 97爱视频 | 天天色综合av| 91九色porny国产 | 一级免费片| 欧洲成人免费视频 | 亚洲一区h | 孕妇一级片 | 亚洲精品国产精品乱码视色 | 玖玖伊人| 久久亚洲精品国产 | 日本私人影院 | 性生交大全免费看 | 日韩网站免费观看高清 | 日韩少妇精品 | 成人影视免费观看 | 日本亲子乱子伦xxxx | 91精彩视频在线观看 | 久久精品久久久久久 | 青青操在线观看 | 欧美性猛交 xxxx | 欧美不卡在线观看 | 国产小视频在线观看免费 | 欧美日韩在线观看免费 | 欧美男人天堂 | 国产一区二区波多野结衣 | 女人张开双腿让男人捅 | 毛片哪里看 | 69视频在线 | 91福利影院 | 91亚洲精品乱码久久久久久蜜桃 | 国模精品一区二区三区 | 亚洲成年人在线 | 久久第一页 | 精品人妻一区二区三区含羞草 | 日本韩国欧美在线 | 久久亚洲高清 | 天堂av中文字幕 | 国产精品99久久久久久久久 | 谁有免费的黄色网址 | 免费在线观看成人 | av免费观 | 成人网站免费观看 | 国产乱码一区二区 | 强行挺进白丝老师翘臀网站 | 五月天狠狠干 | 97免费在线观看视频 | 欧美xxxx日本和非洲 | 欧美特黄视频 | 粉嫩在线| 手机在线亚洲 | 在线视频观看一区 | 欧美成人午夜影院 | 蘑菇福利视频一区播放 | 精品一区二区三区三区 | 国产一区视频在线播放 | 靠逼网站 | 很黄很污的网站 | 天堂中文网 | 在线观看你懂的网址 | 欧美福利视频导航 | 成人在线直播 | 91玉足脚交白嫩脚丫 | 久久午夜免费视频 | 黑人巨大精品一区二区在线 | 欧美日韩一二 | 粉嫩av一区二区三区 | 波多野结衣av电影 | 亚洲性xxxx | 亚洲精品1区 | 精品少妇一区二区三区 | www.蜜臀av.com| 欧美色涩 | 欧美精品亚洲精品 | 免费激情av | 九一国产视频 | missav | 免费高清av在线看 | 亚洲 欧美 国产 另类 | 无码人妻精品一区二区 | 久久久久久久久久久久久久久久久久 | 黄色小视频免费 | 91久久网| 毛片在哪里看 | 无码国产精品一区二区色情男同 | 天堂在线免费视频 | 亚洲成av人片在线观看无 | 日日夜夜免费精品 | 波多野结衣三级视频 | 久久精品国产99精品国产亚洲性色 | 黄色小视频免费看 | 色片在线观看 | 两性免费视频 | 久久精品www | 国产普通话bbwbbwbbw | 亚洲天堂网在线视频 | 樱井莉亚av| 色爱综合区 | av2014天堂| 波多野吉衣一区二区 | 日韩激情在线观看 | 人人亚洲 | 欧美精品一区二区免费 | 美女插插 | 亚洲高清在线 |