背景介紹 在機器學習學界,無監督學習 (或者自監督學習) 一直被認為是最有價值的領域之一。在ISSCC 2019上,著名的人工智能研究者,圖靈獎獲得者Yann LeCun給出了他的“蛋糕圖”2.0版本,并再次強調了自監督學習的地位,認為自監督學習是通向未來通用人工智能的可能道路。 其實,自監督學習并不是一個新概念,在NLP領域,已經有非常多相關的應用。自監督學習的本質,是通過數據本身來構造訓練目標,從而達到不需要人工標注的目的。例如,word2vec,使用skip-gram的訓練方式,是通過單詞來預測上下文;之后Google提出的Bert,則是通過Masked LM和Next sentence prediction來實現pre-training。本質上都是利用了原有數據來構造訓練目標。 自監督的學習方式,與我們的實際場景契合度很高。在現實世界中,海量數據并不存在所謂的標簽體系,例如在內容維度,作者們創作的圖像、文字,既無法套入一個標準的標簽體系,也不可能存在一個標注團隊可以處理每天百萬級的數據。通過自監督學習的方式來獲取這部分信息成為了一條必由之路。 每平每屋輕應用是是淘系大家裝垂類中的主要流量入口,以內容導購的形式滿足用戶在家居領域的購買需求。在去年Visual4Rec的工作(詳見https://mp.weixin.qq.com/s/LmON8pQ8TvPTfN2spblzDQ)中,我們主要通過預訓練好的圖像embedding,對精排、召回以及EE三個環節做了優化取得了不錯的線上結果。在去年工作基礎之上,我們希望進一步探究自監督學習得到的embedding質量對推薦、分類、搜索的影響。我們嘗試了2020年以來部分圖像自監督學習模型在圖像embedding抽取、達摩院M6預訓練模型在多模態embedding抽取中的效果,并在線下線上不同環節做了詳實的驗證。本文為琢切在每平每屋算法團隊實習期間的工作總結。 理論基礎 ? 圖像自監督學習 自2020年以來,圖像自監督算法在學術界取得了巨大進展,基于圖像隨機變換 + infoNCE loss 的設計范式,一步步刷新SOTA,基于自監督算法訓練得到的無監督圖像embedding,在下游使用線性分類器,其分類準確率開始逐步接近甚至超越使用CNN訓練的分類準確率。在實際場景中,我們主要使用了EVTorch團隊提供的Moco v2 [1] 模型、SwAV [2] 模型做為測試驗證。在此簡單介紹SwAV的模型原理。Fig1 展示了SwAV和一般的自監督對比學習的核心差異。 同一張圖的不同transform做為正樣本,不同圖的不同transform做為負樣本,在embedding層面進行對比訓練,如下所示 其中 從上述式子中我們可以發現,假設在一個百萬級的數據集上,做embedding之間的兩兩比較,其計算開銷是非常龐大的。學術界對此提出了一些解決辦法,例如Moco系列的memory bank的思想,就是對embedding本身做近似,將歷史上計算過的embedding存入一個memory bank中,用于后續的對比學習。而SwAV算法在此基礎上提出,或許我們并不需要對兩兩圖片對的embedding都做對比學習,可以將任務做近似,先對embedding做聚類,然后通過聚類來學習兩兩之間的關系。在Fig1 中, Swapped Prediction, 聚類均勻限制,即同一batch中,不同圖像對應的cluster會被均勻選擇到 SwAV算法,通過將embedding之間的對比學習簡化成聚類之間的對比學習,大幅降低了計算開銷,同時在在線聚類時引入了均勻限制,使得模型不會陷入到平凡解,從而獲得了高質量的圖像自監督embedding。 ? M6多模態預訓練 M6(Multi-Modality to Multi- Modality Multitask Mega-transformer)是阿里集團達摩院研發的基于稀疏MoE的多模態預訓練模型。在萬億級別參數的預訓練模型基礎上,使用淘系商品數據進行對比學習,獲得我們最終使用的模型。稀疏MoE可以在增加參數量的情況下,保持較低的計算開銷,在Whale框架的支持下,可以獲得較好的計算效率。稀疏MoE定義如下 其中 在分布式訓練場景下,我們可以進一步將不同的experts置于不同的worker,在具體工程實現中需要考慮load balance以保證稀疏設置的合理性。具體實現和算法實現可以參考 [4] 場景實踐 ? 場景、風格KNN召回一致率 在每平每屋輕應用場景,使用輕應用內容封面圖訓練了Moco v2、SwAV兩版自監督圖像模型,并分別對圖像提取embedding;此外使用M6 預訓練模型對輕應用內容的封面標題提取多模態embedding;我們對比的baseline為當前線上使用的預訓練圖像embedding。對比方式為使用種子內容(seed),基于不同embedding的KNN召回的結果,對比召回內容的場景、風格標簽和種子內容的場景、風格標簽的一致率,指標越高,表明一致性越好。計算方式為歐式距離。這一對比,主要可以體現出內容embedding在場景、風格方面的語義表達能力,一定程度上可以反映embedding的語義表達能力。+w 代表對embedding做白化處理后的結果。對embedding進行白化操作后再執行KNN召回,主要是參考文獻[5]。在Bert模型的輸出embedding基礎上進行白化處理,可以大幅提升召回的相關性。Table1 為記錄的結果 特征 召回內容風格一致率 召回內容場景一致率 Online 0.63551 0.62783 Online + w 0.63704 0.63452 Moco-v2 0.61398 0.68160 Moco-v2 + w 0.61538 0.68738 SwAV 0.64229 0.71147 SwAV + w 0.64566 0.71604 M6 (32 dim) 0.70252 0.70288 M6 + w (32 dim) 0.71607 0.70221 Table1 不同embedding在風格、場景召回一致率表現 從可視化結果中也可以發現,線上使用的embedding以及Moco v2產出的embedding,在KNN召回后還是存在一些bad case,而SwAV和M6召回結果則直觀得看起來更好一些。此外,我們可視化主要使用了封面主圖,SwAV做為純圖像的embedding,在視覺一致性上要優于M6的結果,后者使用了封面圖以及內容的標題。 ? M6&SwAV內容封面特征加入排序 在KNN召回的實驗中,我們初步驗證了SwAV、M6產出的embedding在某些語義表達維度具有優勢,下面我們進一步驗證在線上精排模型中加入M6&SwAV的embedding之后的auc指標變化情況(粗體為最優指標,下劃線為次優),如下所示。在全部特征中,我們僅對封面圖的embedding特征進行增添或者替換。對比基準為不使用內容封面圖embedding特征的特征集合,3個實驗分別為:1. 只添加了內容封面圖預訓練embedding特征,2. 只添加了內容封面圖SwAV自監督學習獲得的圖像embedding特征,3. 只添加內容標題 + 封面圖的M6預訓練embedding特征。其中SwAV和M6的embedding都經過了白化處理。 在內容點擊、詳情頁點擊、商詳頁點擊三個任務預測的auc值,其中全量數據測試,我們選取了兩個時間段訓練測試。此外為了進一步驗證效果,我們針對近7天新發布的內容也做了測試。所有實驗均3次運行后取平均值以及方差值,具體結果如下所示 特征 ctr_auc ctcvr_auc 商詳頁行為_auc No Image Feature 0.65426 ± 0.00125 0.67302 ± 0.00506 0.68214 ± 0.00970 Online 0.65545 ± 0.00035 0.67250 ± 0.00408 0.67486 ± 0.00812 M6 + w 0.65570 ± 0.00127 0.67673 ± 0.00411 0.68759 ± 0.00655 SwAV + w 0.65568 ± 0.00144 0.67572 ± 0.00651 0.68547 ± 0.01055 Table2 0611~0617訓練0618測試 特征 ctr_auc ctcvr_auc 商詳頁行為_auc No Image Feature 0.66242±0.00096 0.68005±0.00273 0.68821±0.00550 online 0.66649±0.00051 0.68404±0.00351 0.68670±0.00514 M6 + w 0.66509±0.00151 0.68450±0.00513 0.69332±0.01052 SwAV + w 0.66402±0.00095 0.68324±0.00076 0.69033±0.00173 Table3 0701~0707測試0708測試 模型 ctr_auc ctcvr_auc 商詳頁行為_auc No Image Feature 0.71587±0.00454 0.73770±0.00419 0.70397±0.00985 online 0.71907±0.00588 0.74005±0.00521 0.71821±0.01793 M6 + w 0.72516±0.00113 0.74885±0.00574 0.71666±0.00317 Table4 最近7天新發布內容auc情況對比 線上我們對加入M6 embedding的模型進行了線上ab,7天觀察pctcvr +2.6%,avg_ipv +1.51% ? 其他場景 大量圖像自監督學習的論文都實驗驗證了,基于預訓練的自監督模型在下游任務(分類/檢測等)上Finetune的效果要優于end2end的訓練方式。這里,我們基于預訓練的SwAV模型,在躺平好貨場景的圖像上進行葉子類目的分類模型實驗,總共3519個類目,使用SwAV預訓練的模型作為Backbone,效果優于直接使用ResNet50模型的分類器效果。 Type top1-accuracy top-5 accuracy ResNet50 73.72% 92.85% SwAV 74.67% 93.22% Table5 SwAV預訓練對下游分類任務的提升 在躺平好貨的圖搜場景,我們主要使用度量學習的方式來優化圖像特征,主要評估指標為召回的商品的Identity Recall@N,即召回的Top-N商品中含有與query圖屬于相同商品的query數占總query數的比例。由于我們的測試集為目標檢測 + 商品錨點信息自動合成的數據集,具有一定的噪聲,同時每個query圖僅對應一個真實的相同商品(實際上一個query可以對應多個商品),因此得到的指標會偏低。結論是使用預訓練的自監督模型作為Backbone,效果會更好。 Identity Recall R@1 R@5 R@10 R@15 R@20 no-pretrain 11.56% 18.55% 21.47% 22.62% 24.26% pretrained 14.23% 21.85% 25.28% 26.68% 28.97% Table6 SwAV預訓練對下游度量學習任務的提升 結果分析:使用預訓練的自監督模型對下游任務進行Finetune能夠帶來較為明顯的提升。 總結 利用海量無標簽數據進行自監督訓練,可以極大程度上利用業務中的實際數據,同時解耦了對大規模預訓練的標簽依賴(例如使用ImageNet的預訓練),也更貼近實際業務場景。通過SwAV、M6等方法進行預訓練得到的embedding具有良好的語義表達特性,不僅在推薦效果上有所提升,SwAV自監督獲取的embedding對實際業務場景的圖像分類、圖像搜索模型也有穩定的提升。Fig1 SwAV與一般自監督對比學習的差異一般的自監督對比學習,主要通過圖像的隨機transform(例如隨機加入少量噪點、顏色輕微變化、隨機裁剪等),如下所示。我們認為,這樣的輕微變化,對于圖像本身的語義表達是沒有影響的。
Fig2 圖像隨機Transform舉例
為編碼函數(表示學習方程),
與
為正樣本,
與
為負樣本集合,通過上述公式進行優化。
代表直接由編碼函數輸出的embedding,
表示映射矩陣,將embedding映射到聚類Prototype上,即
,在一個batch中,通過Swapped Prediction來拉近正樣本之間的距離,通過不同圖之間引入聚類的均勻間隔限制來保證負樣本之間的聚類距離。具體公式如下:
為
的映射向量,作者認為同一張圖的不同變化生成的embedding,經過不同映射向量,應該映射到同一個cluster
為輸入的representation,經過gate函數的參數
計算后,再經過softmax,得到的weight中取top
個。假設總共有
個expert,其中
,篩選得到top
的gate值之后再經過一次softmax計算,得到最終用于和expert輸出值相乘的weight。
為expert i的輸出結果。在實際使用中,模型的每次運算只使用了有限個expert的輸出,可以減少一部分計算量。