原標(biāo)題:李飛飛點(diǎn)贊「ARM」:一種讓模型快速適應(yīng)數(shù)據(jù)變化的元學(xué)習(xí)方法 | 開源 來源:量子位
關(guān)注前沿科技
魚羊 編譯整理
量子位 報(bào)道 | 公眾號 QbitAI
訓(xùn)練好的模型,遇到新的一組數(shù)據(jù)就懵了,這是機(jī)器學(xué)習(xí)中常見的問題。
舉一個(gè)簡單的例子,比如對一個(gè)手寫筆跡識(shí)別模型來說,它的訓(xùn)練數(shù)據(jù)長這樣:
那么當(dāng)它遇到來自另一個(gè)用戶的筆跡時(shí),這究竟是“a”還是“2”呢?
說實(shí)話,即使是人類,如果沒看到該用戶單獨(dú)寫了一個(gè)寫法不同的“2”(圖中紅框),也很可能辨認(rèn)失誤。
為了讓模型能夠快速適應(yīng)這樣的數(shù)據(jù)變化,現(xiàn)在,來自伯克利和斯坦福的研究人員,提出用元學(xué)習(xí)的方法來解決這個(gè)問題。
還獲得了李飛飛的點(diǎn)贊轉(zhuǎn)發(fā)。
不妨一起來看看,這一次元學(xué)習(xí)這種“學(xué)習(xí)如何學(xué)習(xí)的方法”又發(fā)揮了怎樣的作用。
自適應(yīng)風(fēng)險(xiǎn)最小化(ARM)
機(jī)器學(xué)習(xí)中的絕大多數(shù)工作都遵循經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(ERM)框架。但在伯克利和斯坦福的這項(xiàng)研究中,研究人員引入了自適應(yīng)風(fēng)險(xiǎn)最小化(ARM)框架,這是一種用于學(xué)習(xí)模型的問題公式。
ARM問題設(shè)置和方法的示意圖如下。
在訓(xùn)練過程中,研究人員采用模擬分布偏移對模型進(jìn)行元訓(xùn)練,這樣,模型能直接學(xué)習(xí)如何最好地利用適應(yīng)程序,并在測試時(shí)以完全相同的方式執(zhí)行該程序。
如果在測試偏移中,觀察到與訓(xùn)練時(shí)模擬的偏移相似的情況,模型就能有效地適應(yīng)這些測試分布,以實(shí)現(xiàn)更好的性能。
在具體方法的設(shè)計(jì)上,研究人員主要基于上下文元學(xué)習(xí)和基于梯度的元學(xué)習(xí),開發(fā)了3種解決ARM問題的方法,即ARM-CML,ARM-BN和ARM-LL。
如上圖所示,在上下文方法中,x1,x2,…,xK被歸納為上下文c。模型可以利用上下文c來推斷輸入分布的額外信息。
歸納的方法有兩種:
通過一個(gè)單獨(dú)的上下文網(wǎng)絡(luò)
在模型自身中采用批量歸一化激活
在基于梯度的方法中,一個(gè)未標(biāo)記的損失函數(shù)L被用于模型參數(shù)的梯度更新,以產(chǎn)生專門針對測試輸入的參數(shù),并能產(chǎn)生更準(zhǔn)確的預(yù)測結(jié)果。
優(yōu)于基線方法
所以,自適應(yīng)風(fēng)險(xiǎn)最小化(ARM)方法效果究竟如何?
首先,來看ARM效果與各基線的對比。
在4個(gè)不同圖像分類基準(zhǔn)上的比較結(jié)果顯示,無論是在最壞情況(WC)還是在平均性能上,ARM方法都明顯具更好的性能表現(xiàn)和魯棒性。
另外,研究人員還進(jìn)行了定性分析。
以開頭提到的“2”和“a”的情況舉例,使用一個(gè)batch的50張無標(biāo)注測試樣本(包含來自同一用戶的“2”和“a”的筆跡),ARM方法訓(xùn)練的模型就能夠成功將兩者區(qū)分開。
這就說明,訓(xùn)練自適應(yīng)模型確實(shí)是處理分布偏移的有效方法。
這項(xiàng)研究已經(jīng)開源,如果你感興趣,文末鏈接自取,可以親自嘗試起來了~
傳送門
論文地址:
https://arxiv.org/abs/2007.02931
開源地址:
https://github.com/henrikmarklund/arm
博客地址:
https://ai.stanford.edu/blog/adaptive-risk-minimization/
(聲明:本文僅代表作者觀點(diǎn),不代表新浪網(wǎng)立場。)