首頁 > 行業新聞 > 公司動態

行業新聞

新聞資訊

聯系我們

手機：13823737137

電話：400-8316492

郵箱：3485053954@qq.com

地址：深圳市龍崗區橫坪公路89號數字硅谷E棟4樓

公司動態

SIGIR 2022 | 多場景多任務優化在支付寶數字金融搜索的應用

作者：147小編
發布時間：2025-01-12
點擊：次

設備之心專欄

設備之心編輯部

本文是螞蟻集團和武漢大學一起提出的，一種面向多場景多任務優化的自動稀疏專家選取辦法。論文題目為《Automatic Expert Selection for Multi-Scenario and Multi-Task Search》，它經過簡潔有效的架構，實現了樣本級細顆粒度的自動網絡結構學習，對各樣場景結構有較強的普適性。論文已被 SIGIR2022 錄用，同期已然在支付寶數金搜索場景上進行了全流量推全，得到了明顯的業務效果。

1、業務背景和問題

支付寶數金搜索是財富、保險等多個業務的重要流量入口。其搜索場景入口如下：

圖 1：數金搜索場景各個入口和詳情頁實例。

因為業務種類與目的的豐富性，數金搜索較通常的垂類搜索面臨更加多的挑戰。以基金搜索為例，它包括：

多入口場景：主搜（即支付寶首頁頂端的搜索框，包括小程序，生活號，理財等內容）理財 TAB（指支付寶下方第二個 tab 理財的搜索框，又叫垂搜，專注于數金服務，如理財和保險）多種卡片：區別的搜索詞類型會觸發區別的搜索卡片，例如：熱門基金：指用戶搜索 “基金”，“股票基金” 等品類詞時，會展示類似舉薦規律的 “熱門基金” 卡。基金制品：指搜索精細制品名，或板塊詞（如新能源，白酒基金等），會展示 “基金制品” 卡。多維度目的：點擊 (PVCTR)、購買轉化 (CTCVR)，且用戶交互行徑相對電商更加繁雜，決策周期更長。

在單場景上進行分別迭代，帶來了巨大的守護成本；同期，各個場景都比較重要但又有很強差異。主搜流量大，用戶新，但成交相對稀疏。理財 TAB (指垂搜)，流量較小，但成交金額是主搜的 3.96 倍，且用戶多為資深用戶。有部分用戶會同期運用主搜和垂搜，倘若用戶行徑信號不可實現遷移，亦較難得到滿意的線上效果。因此呢，在多個場景運用統一模型是非常必要且急迫的。

然則，將所有線上樣本進行混合，直接運用 hard embedding sharing 的網絡結構帶來了比較嚴重的負遷移問題。經過近一年來從 MMOE, PLE 等辦法的應用和科研，并調研了 STAR 等多場景辦法，咱們提出了一種新穎的，基于自動專家選取的多場景多任務搜索框架（AESM^2，Automatic Expert Selection for Multi-Scenario and Multi-Task Search 下文簡叫作 AESM)。

AESM 用一個框架，并以相同的視角同期處理多場景和多任務問題，它經過簡潔有效的架構，實現樣本級細顆粒度的網絡結構學習，如下圖所示。值得重視，該辦法不僅可應用于搜索，還能應用到其他多場景多任務的算法場景。

將 AESM 模型安排在數金搜索的四個子場景中，相針對各個各場景中單獨安排的模型取得了明顯提高。相針對基線模型，CTR 整體提高 0.10%、 CTCVR 提高 2.51%，成交 GMV 提高 7.21%。仔細的數據分析可見后續章節。

2、多場景和多任務學習狀況

多任務算法（MTL）和多場景學習（MSL）在學術界和工業界被廣泛的科研和應用，經過多任務聯合訓練提高應用效果，如 ESMM、MMoE、PLE 等。但它們無直接思慮多場景 + 多任務的狀況。且 PLE 的場景 / 任務間的繁雜相關，需要經過人工指定網絡結構來適配。

多場景學習旨在處理多個相同的任務標簽，且空間結構類似的場景。例如 STAR [19] 嘗試經過星型拓撲捕捉場景關聯性，其中包含共享中心參數和場景特定參數，預設了各個場景是扁平的，并無無層級關系。其他科研 [8, 15] 闡述了將多場景問題做為一個多任務學習問題，但這些工作都需要足夠的行業知識來設計網絡結構。

與 MSL 區別，多任務學習側重于建模任務間關聯性和區別。例如，CTR 預測和 CVR 預測 [8, 12] 和信用危害預測 & 信用額度設置 [9]。下面是幾種平常的處理多任務的辦法：

硬參數共享 (hard emb sharing)[1] 是最簡單的模型，它經過共享底層學習內在關聯性。然而，它們飽受 “蹺蹺板現象”[20]—— 一項任務的改進常常引起其他有些任務的性能退化。MMOE 經過 gate 門控機制對各個專家 (experts) 進行組合，但各個專家之間是無交互的，且不具備稀疏性，所有的任務都會運用所有的專家，這使得模型規模變大后，推理性能下降顯著。PLE [20] 采用漸進式路由機制并將 experts 分配給共享和特定的任務，這緩解了舉薦系統中的蹺蹺板現象，然則它需要人工指定所有的網絡結構，如哪個專家是獨享或共享的，就地景和任務關系繁雜時，這是比較繁雜的。

綜上，現有辦法的問題是：

只關注單場景下的多任務學習 (SSL&MTL)，或純粹的多場景模型 (MSL&STL)。無直接思慮多場景 + 多任務的狀況。這就引起了這類場景豐富的上下文信息，會受到蹺蹺板和負遷移影響。為每一個場景 / 任務研發模型，研發和守護成本都會大大增多。場景 / 任務間存在相關和區別，而以往的模型都經過人工指定網絡結構來適配。但這需要海量的實驗和人工調參，是不是存在簡單有效的自動專家網絡選取？

咱們將從這幾種網絡的優點和劣勢總結如下：

3、算法方法設計

挑戰：各場景存在很強的差異

咱們能夠將基金場景抽象成如下樹狀結構，分別是場景層，卡片層和任務層。

場景層重點是人群間差異。垂搜流量和成交顯著比主搜更大，專業用戶更加多，但交集用戶較少。卡片層重點存在 Query 差異性，其原由是搜索 query 觸發規律的區別，搜 "基金","股票型基金" 等泛品類詞會觸發熱門基金卡片，而其他基金詞則會觸發基金制品卡。任務層重點存在任務間差異。基金購買是重決策過程，用戶會反復對比多只制品，且購后都會反復搜索和點擊，關注價格走勢和其他信息。點擊和轉化率皮爾遜關聯性較低。

圖 3：真實業務中繁雜的場景和層級帶來的遷移困難

而運用 PLE 訓練統一數據 + 模型，其效果不如在各個場景上獨立訓練的 PLE 模型，存在必定的蹺蹺板效應。因此呢，怎樣設計一個統一模型來處理多場景和多任務？怎樣自動學習場景任務間的相關，并使得各個場景都有正向收益？

整體模型結構

咱們針對如上的場景樹結構，構建多層堆疊的，結構類似的 AESM 網絡。在下圖中實例中，真實場景中的場景層 / 卡片層 / 任務層，都由兩層 AES 層來堆疊建模。

圖 5：AESM 主結構圖

AESM 將多場景和多任務問題視為同一問題，并采用分層架構將它們融合到一個統一的框架中。與 PLE 區別，AESM 利用通用且靈活的架構，分別進行區別場景和任務下，設置共享和獨享的專家。

如下圖 c 所示，上面區別顏色的 E 表率專家被區別的任務所運用: E1, E2 被 A 任務運用， E2 和 En 被 B 任務運用。E2 為 share 專家，其他為 specific 專家。

為了簡化，咱們首要介紹單獨的多場景 / 多任務層，并討論怎樣做自動專家選取；后續再討論擁有多層任務設置的狀況。

共享嵌入層

與其他模型類似，咱們設計了共享嵌入層，將底部的類別和數值特征轉換為連續的特征向量。假設有組特征，例如，用戶特征（如年齡、性別）、物品特征（如價格、品牌）和行徑特征（如 q2i,u2i 等）。針對給定的樣本，首要將數值特征轉換為類別類型，而后對類別特征進行 one-hot 處理，如下所示：

其中，

暗示用戶特征的個數，

暗示特征向量的拼接；其他類型的特征處理方式同用戶的特征處理方式；將處理后的各樣類型特征進行拼接，得到輸入

多場景層和專家選取

在共享嵌入層之后，

做為后續層的輸入，經太多層專家選取層得到最后的輸出。這兒的核心問題是，怎樣進行專家選取？

全部過程用下圖暗示如下：

圖 7：AESM 的探索和稀疏化約束機制

為簡單起見，咱們只展示一層的選取過程。假設有 n 個專家和 m 個輸出（即 m 個 gate）的場景層，咱們首要利用線性變換來計算每一個場景的門控向量如下：

其中，

是第 j 場景和第 k 個專家關于輸入實例的關聯性分數；

是可學習參數，

是場景 embedding 表征，

是高斯噪聲（

）。

行向量

是選取專家模塊的關鍵過程。咱們做出如下假設

倘若相對大于其他向量，則暗示，第 k 位的專家更加多可能被歸類為第 j 場景的 specific 組。倘若中的值都相對接近，則第 k 個專家可能包括所有場景之間的共享信息。

因此呢，咱們首要對矩陣執行逐行 softmax 操作 G 如下：

而后，針對第 j 場景，咱們形成一個 one-hot 場景向量

，其中僅有第 j 個元素為 1。如上所述，能夠按照

和

之間的類似性來衡量第 k 個專家是第 j 個場景特有專家的概率。

類似地，咱們還為第 j 個場景引入了一個均勻分布的向量

，

能夠按照

和

之間的類似性來衡量第 k 個專家是第 j 場景共享專家的概率。

因此呢，選取場景特定和場景共享專家的過程形式化地描述如下：

其中

和

分別為第 j 個場景的特定和場景共享設置的專家 index，算子 TopK 是返回 top- 索引的參數操作值，( ) 計算 Kullback-Leibler 散度。

運用

和

來更新門控向量

，實現稀疏專家網絡：

然后，將門控標量矩陣

和專家輸出

輸入標準的 MMoE 模塊得到這個場景層的輸出：

綜上，本辦法最重要的是三點：

噪音探索：在 gate 上增多高斯噪聲，使得模型去學習區別專家的組合帶來的效果，從而選取最佳的專家組合，噪音大幅擴大了專家組合的探索效率。噪聲強度是超參，無限大的噪聲等價于在專家維度進行隨機 dropout，會必定程度影響下面的 loss 約束收斂，而較小的噪聲起不到探索效果。因此呢噪聲的施加策略是后續進一步優化的方向。如，隨著訓練步數增大，專家選取逐步穩定，那樣噪聲強度應逐步變小。稀疏化專家選取：經過計算門控列向量與 onehot 向量與均勻向量的 KL 散度，使得 gate 選取最適合的共享和獨享專家，并實現專家網絡的稀疏化，并實現了稀疏激活。這明顯提高了泛化性，同期模型規模變大，亦不會增多推理時延。集中性約束：在以上機制的基本上，進一步增多基于 KL 散度的約束。本質上便是讓相同場景 / 任務的樣本，盡可能選取同一組最優專家。這種基于距離度量的約束，類似樣本聚類的功效，但其實現是更簡潔的，能夠與深度學習模型一塊集成。

在多任務部分，咱們給定以上場景層的輸出

，咱們亦利用相同的選取過程來實現多任務學習。此處再也不贅述。

多層堆疊和擴展

此處可參考 AESM 主模型圖。

在實質應用中，一個場景可能很繁雜，并且在本質上表現出層次結構 [11，15]。例如咱們的基金搜索場景，經過堆疊多個場景層和任務層，咱們的模型 AESM 能夠非常方便地處理這種繁雜的場景。這與深度網絡（DNN）的優良同樣，經過更深的深度，而不是寬度，能夠以更少的參數表達更繁雜的問題。

例如在有層的場景，每層有 N_i 個場景繁雜系統中，只需要調節每一層的輸入S_i ，最后咱們能夠對n_1n_2…n_L_s個細分場景進行建模。當咱們運用標準的 MMoE 架構時，每一層咱們需要相同的專家數量。因為

，能夠節約海量的計算成本。

另外，咱們仍然能夠將多任務層堆疊在一塊，自適應地為更高級別的任務進行特征提取。與多場景區別，由于在第1個多任務之后，每一個任務都有區別的輸入層。在后續的多任務層中運用相同的專家結構，運用區別的輸入進行專家選取。當層數大于 1 時，咱們運用前一層的輸出做為后一層的輸入。

模型優化

針對數金搜索的精排模型，選取 sigmoid 做為激活函數。因此呢，第

個實例的交叉熵損失如下：

如上一節介紹，咱們增多輔助損失來加強場景 / 任務特定的專家選取。詳細來講，針對第

的多場景層，可增多下面的 loss 約束：

其中

是第

個多場景中的輸出層。一樣，針對第

的多場景層，可經過

加強訓練過程中專家的選取決策；一樣多任務層中共享專家的損失函數暗示為

；綜合得到，輔助損失函數

定義如下：

整體的損失函數可定義為：

四. 線仿真和消融實驗

為了驗證 AESM 的有效性，咱們在多個數據集上，將 AESM 于其他多場景 / 多任務模型進行對比。并做了海量消融實驗。

實驗設計

離線實驗中共收集了兩個真實場景中的數據集，分別是支付寶和速賣通數據。

支付寶數據集：收集了從 2021 年 11 月 15 日到 11 月 30 日，兩周用戶支付寶搜索的行徑日志。分為主搜 (HP) 和垂搜 (VP) 兩個場景（channel），同期每一個 channel 中還能夠進一步劃分為熱門基金（BS）和基金制品（RI) 兩個卡片（這兒被抽象為)。因此呢，全部數據集經過 channel 和 domain 正交分為四個詳細的場景。按照行徑數據的日期將數據集切分為訓練集、驗證集和測試集：11 月 15 日 - 11 月 28 日為訓練數據，2021 年 11 月 29 日為驗證數據，2021 年 11 月 30 日為測試數據。進行點擊率和轉化率的預估。觀察到兩個數據集中的數據分布不平衡。例如，僅 VP&BS 場景中的展示次數在所有場景中占比 6.44%，大部分點擊出現在場景 VP&RI，反而占 82.33%。

速賣通數據集：一樣此數據集存在多場景（按用戶國籍劃分）和多任務的設置。在這次實驗中，選擇了、、和四個場景的數據集。由于原始數據集只包括訓練集和測試集，咱們隨機抽取 50% 的原始測試數據做為驗證集。

表 2：速賣通數據集統計狀況

咱們將 AESM 與兩類基線模型進行對比：

門感知 (gate-base) 模型，它運用門控機制來處理多場景或多任務問題，包含 MMoE [11]、HMoE [8]、和 PLE [20]MMoE [11] 利用多門混合專家隱式建模專家之間的關系，來自多個門的合并暗示能夠分別轉換為多個場景 / 任務預測層；HMoE [8] 運用梯度切割技巧顯式編碼場景之間的相關關系，HMoE 采用兩個擁有單獨參數的模型來優化 CTR 和 CVR 任務；PLE [20] 是另一種先進的 MMoE 變體，它將專家分為任務特定組和任務共享組，避免了區別任務之間的負遷移和蹺蹺板現象；無門模型，如 Hard Sharing [1]、Parallel DNN,Cross-Stitch [13] and STAR。Hard Sharing [1] 是一個簡單但廣泛運用的模型，經過共享的底層對共享的信息進行編碼；Parallel DNN 是在基本 DNN 上增多適應多場景或任務的轉換而來；Cross-Stitch [13] 經過線性交叉網絡將多個網絡結構進行組合，用于學習任務暗示；STAR 采用星型拓撲結構，由共享中心網絡和場景特定網絡組合而成；

借鑒 ESMM [12] 的思想，咱們優化全部空間中的 CTR 和 CVR，即 = × 。運用 auc 評定模型的性能。為了保準公平，咱們做了以下工作：

因為以上的基線模型中并不可同期處理 MSL&MTL。咱們在基線模型上進行結構擴展，來適應咱們多場景多任務的需求。例如，針對多場景模型 STAR，我們在任務級實現另一個星型拓撲結構。針對多任務模型 PLE，在原有的公司上再疊加一層 PLE 結構來處理多場景問題。所有的基線模型同 AESM 同樣運用合并場景數據進行訓練，網絡的結構的深度及選取專家的個數等超參均保持一致。

基線效果對比

表 3 和表 4 是支付寶和速賣通數據集上區別模型的性能對比。兩個表中的結果都顯示咱們提出的模型 AESM 在所有狀況下始終優于所有基線任務。尤其數據稀疏度最高的主搜熱門基金，提高更為明顯。這顯示模型能夠適應區別的配置的場景和任務。但其他模型則不必定，例如在 CTR 任務中，PLE 在 VP&BS 場景中的表現優于 MMoE，但在 HP&BS 場景中的表現不如 MMoE。

與多場景和多任務設置中訓練的模型相比，所有基線都受到來自區別場景的負遷移的影響。例如，它們在 HP&BS 上的性能不如在單一場景中訓練的模型。然而，AESM 在所有場景中都優于所有單一場景模型，顯示 AESM 能夠更好地利用場景關系，避免負遷移。

表 3：區別模型在支付寶數據集上性能對比

表 4：區別模型在速賣通數據集上性能對比

消融分析

為分析每種優化的影響，采用兩種區別的 AESM 變體進行消融分析：（1）無高斯噪聲和輔助損失（2）無輔助損失。從下表的結果能夠看到，去除高斯噪聲和輔助損失后，所有任務上性能均有下降。

對比（1）（2）兩種變體 AESM，能夠看到高斯噪聲在所有的場景中均有著良好的表現。這寓意著恰當的波動給模型帶來了更為廣泛的探索空間，得到更為精確的模型參數。

輔助損失能夠引導專家網絡選取更接近假定的分布。下圖的結果暗示，當刪除輔助 loss 時，場景和任務的性能均會下降。咱們進一步地繪制了門控矩陣下，選定的場景 / 任務分布與假設分布（獨熱和均勻分布）之間的 KL 散度的差異。能夠看到增多輔助損失后，兩種分布之間的 KL 散度損失是逐步下降的。顯然，加入輔助損失后模型能夠稀疏地進行專家選取。

圖 8：稀疏化輔助 loss 的訓練收斂對比

專家選取的可視化

咱們可視化了支付寶數據集中，場景 / 任務的 specific/share 組的專家利用率，即 gate 激活程度。為了簡單起見，每一個層（即通道、域和任務）都包括兩層專家選取層。

特定專家集和共享專家集都配置為僅選取一位專家 (topk=1)。下圖表示，在 channel 級別，共享同一類型通道的場景擁有更類似的分布。這顯示咱們的模型能夠動態地模擬繁雜的共享信息和場景之間的差異。相比之下，PLE 以靜態方式定義特定 / 共享專家。在任務層面，咱們觀察每項任務，幾乎在特定 / 共享組中選取一位專家，這寓意著咱們的模型亦能夠收斂到 PLE 設置。

這些觀察結果顯示，AESM^2 是一種更通用的模型，能夠適應區別場景 / 任務的區別結構。

圖 9：區別層級專家的被選取概率可視化對比

AESM 自動專家選取的討論

為了定性的討論這個問題，就需要先思考多場景和多任務問題的本質區別是什么？

多場景和多任務，都屬于多目的問題的一個子集。筆者認為，多場景問題本質上需求泛化性，帕累托最優中的資源是模型參數的歸屬，任何一個事件（如點擊和轉化），不可能在兩個場景同期出現；而多任務問題恰恰相反，帕累托最優的資源約束，重點是參數權重本身，是梯度沖突引起的參數更新方向的沖突，但并不尤其強調泛化性：一般模型參數量越大，帕累托前沿越向前，但卻會損害泛化性，這一點可經過下圖的實驗證明，來自文獻 [13]。

參數量會明顯地影響多任務模型的泛化性和效率。因此呢想要同期處理多場景多任務，就必須平衡效率（帕累托前沿）和泛化性，它們是天然沖突的。處理這一問題最直觀的思路，是經過 bottleneck 網絡結構，在靠近輸出層增多模型參數，提高帕累托前沿；而在底層施加稀疏性約束，使得底層提高泛化性。

值得指出，倘若只是處理多任務優化問題，會有非常多辦法能夠做到。但 AESM 辦法卻經過相當簡單的方式，經過施加噪聲和稀疏化，在類似 MMOE 的框架下，實現了類似 bottleneck 和 dropout 的思路來實現專家選取，讓參數盡可能在底層而不是上層實現共享，從而必定程度上平衡了多場景和多任務分別需求的泛化性和帕累托前沿的問題。

5、業務效果和在線實驗

線上推全實驗

咱們在 2022 年 1 月底起始，與四個場景的線上基線（基于行徑序列的 DIN+ESMM) 進行了兩周的在線 A/B。效果明顯優于其他所有場景，并進行了推全。

以下是在各個場景各自的提高（其中在主搜熱門基金和主搜基金制品觀察到 darwin 實驗的置信提高）：

以下是所有場景匯總后，實驗桶相比基準桶整體的提高：

線上消融實驗

盡管咱們做了扎實的離線消融實驗。但與強 baseline，如雙層 PLE 等辦法進行線上 AB 對比，則更能反映算法和系統的真實性能。

為驗證 AESM 模型有效性，咱們在主搜、垂搜的熱門基金和基金制品四個場景分別設計如下四組實驗：

經過實驗咱們發掘，對基金搜索所有的揭發點擊行徑數據來看，AESM 分桶在 UVCTR, CTCVR 和 UV_CTCVR 三個指標上相比其他基線有明顯提高。其中關鍵指標 CTCVR，相比統一訓練 + 單層 PLE 提高 4.7%。

以 CTCVR 為 KPI，拆解到區別場景的的效果對比。垂搜基金制品做為主力場景，其他場景為其帶來的優良微乎其微，然則它能夠較強地為其他稀疏場景供給遷移效果，詳細見下圖：

咱們將以上數據繪制到下圖中，可更知道地表現 AESM 的優良:

圖 10：經過線上消融實驗，與其他辦法的效果對比

6、總結和后續改進

日前 AESM 已然在數金搜索的基金主場景進行了全流量安排。這可能是第1個在統一框架內，同期處理 MSL 和 MTL 問題的辦法，并擁有以下優點：

大大降低繁雜場景間的負遷移現象，以實現最優的信息共享。實質業務中，非常多場景能夠組織為層次結構，對其進行層疊式的建模，可進一步加強性能，并明顯降低計算成本。經過噪音探索，稀疏化專家選取和集中性約束的機制，實現了自動提取場景 / 任務 specific 和 share 樣本級專家選取算法。詳細的，基于 multi-gate 混合專家的稀疏化結構，實現自適應結構學習，并設計了輔助損失函數來指點訓練過程。

值得指出，AESM 后續有有些值得繼續探索的方向。

AESM 經過噪音提高探索空間，但噪音強度做為超參難以選取，應探索和實驗更穩健和魯棒的專家探索方式。當需要增多場景 / 任務時，之前模型需要重新設計和訓練。怎樣優化 AESM，使得其能夠進一步適應動態和異構的場景任務結構，并更好的處理冷起步問題，將會是一個有挑戰的問題。咱們在橫向專家層面做了自動專家選取，但在縱向（深度）上亦存在自動專家選取的可能性必要性：自動殘差網絡，將會是一個令人興奮的方向。

AESM 和谷歌最新的 MOE 架構 Pathways 有有些類似性，能幫忙咱們實現更加多異構任務的統一訓練和優化。后續咱們會積極地探索新的改進計劃。歡迎業界同仁一起討論。

7、參考文獻

[1] Rich Caruana. 1997. Multitask learning. Machine learning 28, 1 (1997), 41–75.

[2] Yuting Chen, Yanshi Wang, Yabo Ni, An-Xiang Zeng, and Lanfen Lin. 2020.Scenario-aware and Mutual-based approach for Multi-scenario Recommendationin E-Commerce. In Proceedings of the International Conference on Data Mining Workshops (ICDMW). IEEE, 127–135.

[3] Yulong Gu, Wentian Bao, Dan Ou, Xiang Li, Baoliang Cui, Biyu Ma, Haikuan Huang, Qingwen Liu, and Xiaoyi Zeng. 2021. Self-Supervised Learning on Users’ Spontaneous Behaviors for Multi-Scenario Ranking in E-commerce. In Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 3828–3837.

[4] Sepp Hochreiter and Ju?rgen Schmidhuber. 1997. Long short-term memory. Neural computation 9, 8 (1997), 1735–1780.

[5] Robert A Jacobs, Michael I Jordan, Steven J Nowlan, and Geoffrey E Hinton. 1991.Adaptive mixtures of local experts. Neural computation 3, 1 (1991), 79–87.

[6] Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization.arXiv preprint arXiv:1412.6980 (2014).

[7] Wouter Kool, Chris J Maddison, and Andriy Mnih. 2021. Unbiased Gradient Estimation with Balanced Assignments for Mixtures of Experts. arXiv preprint arXiv:2109.11817 (2021).

[8] Pengcheng Li, Runze Li, Qing Da, An-Xiang Zeng, and Lijun Zhang. 2020. Improving Multi-Scenario Learning to Rank in E-commerce by Exploiting Task Relationships in the Label Space. In Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2605–2612.

[9] Ting Liang, Guanxiong Zeng, Qiwei Zhong, Jianfeng Chi, Jinghua Feng, Xiang Ao, and Jiayu Tang. 2021. Credit Risk and Limits Forecasting in E-Commerce Consumer Lending Service via Multi-view-aware Mixture-of-experts Nets. In Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 229–237.

[10] Jiaqi Ma, Zhe Zhao, Jilin Chen, Ang Li, Lichan Hong, and Ed H Chi. 2019. Snr: Sub-network routing for flexible parameter sharing in multi-task learning. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 33. 216–223.

[11] Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong, and Ed H Chi. 2018.Modeling task relationships in multi-task learning with multi-gate mixture-ofexperts.In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1930–1939.

[12] Xiao Ma, Liqin Zhao, Guan Huang, ZhiWang, Zelin Hu, Xiaoqiang Zhu, and Kun Gai. 2018. Entire space multi-task model: An effective approach for estimating post-click conversion rate. In Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 1137–1140.

[13] Yuyan Wang, Zhe Zhao, Bo Dai, Christopher Fifty, Dong Lin, Lichan Hong, Ed H. Chi. Small Towers Make Big Differences