編者按:如今,機器學習已成為人類未來發展的焦點領域,如何進一步拓展機器學習技術和理論的邊界,是一個極富挑戰性的重要話題。7月23日至29日,第四十屆國際機器學習大會 ICML 2023 在美國夏威夷舉行。該大會是由國際機器學習學會(IMLS)主辦的年度機器學習國際頂級學術會議,旨在推動機器學習領域的學術進步。在 ICML 2023 上,微軟亞洲研究院的研究員們有多篇論文入選,今天我們將為大傢簡要介紹其中的5篇。
下周三(8月2日),我們還將在微信視頻號“微軟亞洲研究院”和 B 站“微軟科技”的直播間,為大傢帶來這幾篇論文的直播分享,敬請期待!
論文鏈接:
http://openreview.net/pdf?id=Fl9q5z40e3
近年來,人工神經網絡(Artificial Neural Network, ANN)在多個領域取得瞭巨大的成功,這在一定程度上歸功於其對人腦結構的模仿。然而,最近的神經科學進展揭示,神經元之間實際上是通過多種多樣的連接模式相互交互來處理信息的,這些連接模式有時也被稱作回路模式(Circuit Motifs)。但許多現有的人工神經網絡隻能在其架構中模擬一種或兩種回路模式。例如,前饋神經網絡很好地模擬瞭前饋回路模式,循環神經網絡模擬瞭神經元相互連接成環的模式。這種對於不同結構的模擬差異導致瞭它們在不同類型的機器學習任務中會存在性能差異。
圖1:神經元之間的不同回路模式,綠色的神經元通過黃色神經元傳入的信號更新自身的狀態。從左往右,四種模式分別是前饋模式,環路模式,反饋模式和橫向模式
在這篇論文中,研究員們提出瞭一種新型的神經網絡——回路神經網絡(CircuitNet),其靈感來源於對大腦神經回路結構的模擬。在 CircuitNet 中,一組密集連接的神經元——回路模式單元(CMU),形成瞭網絡的基本單元。研究員們在 CMU 中引入神經元之間的註意力機制或者高次次項,再調整 CMU 內部的權重,這些基礎單元就能夠模擬更加通用的回路模式。與傳統的前饋網絡相比,CircuitNet 具有模擬更多類型神經元連接的能力,如反饋和橫向模式。
6fae281292f80e919668379bcec7ae7e圖2:CircuitNet 的模型結構。作為一個通用的神經網絡,CircuitNet 可以根據輸入的形式用在各種各樣的下遊任務中(左)。CircuitNet 由一些 CMU 通過相互間的稀疏連接構成 (中)。在單個 CMU 中,神經元間以復雜的形式稠密連接在一起從而建模通用的回路模式,例如,綠色的線連接瞭兩個神經元,可以用
另外,受到人腦局部密集和全局稀疏結構的啟發,不同 CMU 之間通過輸入端口和輸出端口的稀疏連接實現瞭多次信號傳遞。
實驗證明,CircuitNet 在函數逼近、強化學習、圖像分類和時間序列預測等任務中均優於流行的神經網絡架構。CircuitNet 不僅提供瞭更好的性能和靈活性,還為解決復雜的機器學習任務和認知模型奠定瞭堅實的基礎。
論文鏈接:
http://arxiv.org/abs/2303.17110
將傳統的組合優化和在線學習相結合的組合多臂老虎機(combinatorial multi-armed bandit)是通過在線反饋機制來不斷改進模型優化效果的。本文提出瞭一種新的上下文組合多臂老虎機模型 C^2MAB-T,它結合瞭上下文信息和概率激活模型,並基於簡單而有效的線性結構假設,實現瞭更好的可擴展性。該模型適用於大規模推薦系統、在線廣告、社交網絡、無線網絡等多個領域。
針對 C^2MAB-T,研究員們在多種光滑條件下設計瞭相應的算法並進行瞭理論分析。在概率激活調節(TPM)條件下,研究員們提出瞭 C^2-UCB-T 算法,消除瞭潛在的指數級大因子 1/p 對算法性能的影響,其中p表示的是任何臂被觸發的最小正概率。在概率激活方差調節(TPVM)條件下,研究員們進一步提出瞭 VAC^2-UCB 算法,實現瞭每個時刻激活的臂數K對算法性能影響的更好控制,使其從 O(K) 降低為 O(log K)。需要註意的是,文中的分析技術和方差自適應算法也同樣適用於 CMAB-T 和 C^2MAB,並且改進瞭現有算法的結果。
C^2MAB-T 模型通過仿真實驗在推薦系統場景中驗證瞭算法的性能。相較於兩組現有算法,C^2MAB-T 的算法分別獲得瞭25%和45%的性能提升。
e69d53bf5d341c656de38b4e3541e343圖3:基於 MovieLens-1M 數據集的實驗表明,VAC^2-UCB(藍色)在性能上超過瞭 C^3-UCB [Li et al., ICML'16](紅色)和另一個方差感知算法 CascadeWOFUL [Vial et al., NeurIPS'22(綠色)],分別減少瞭45%和25%算法損失(regret)。
論文鏈接:
http://openreview.net/pdf?id=oeAhgeKFEw
近年來,人們陸續見證瞭語言、視覺、語音以及多模態等領域中模型架構的大融合。從自然語言處理開始,Transformers 已經廣泛作為視覺、語音以及多模態在內的各領域骨幹網絡。然而,盡管都使用同樣的名字“Transformers”,但它們的實現在不同任務中存在著顯著差異。在多模態模型的預訓練中,對於不同的輸入模態,最優的 Transformer 變體通常是不同的。圖4總結瞭在各任務上廣泛使用的先進模型的架構。視覺預訓練往往使用 Pre-LayerNorm 的 Transformers,而掩碼語言建模和機器翻譯則使用 Post-LayerNorm 以取得更好的性能。以視覺-語言預訓練為例,對於視覺編碼來說,使用 Post-LayerNorm 是次優的,而對於語言任務來說,使用 Pre-LayerNorm 則是次優的。真正的多模態預訓練需要一個在各種任務和模態下都能表現良好的統一架構。另外,大規模 Transformer 模型訓練難、易崩潰,需要付出巨大的成本來調整超參數或監督模型的訓練過程。
圖4:微軟亞洲研究院的研究員們提出的 Magneto 在語言、語音、視覺和多模態任務上比之前最先進的骨幹網表現更好。
由此,微軟亞洲研究院的研究員們呼籲發展“Foundation Transformers”以實現真正的通用建模,進而提出瞭 Magneto。圖5展示瞭 Magneto 的偽代碼和不同架構下的示意圖。可以看到,Magneto 引入瞭 Sub-LayerNorm,並在每個子層中增加瞭一個額外的層歸一化來減緩預訓練中遭遇的激活爆炸。此外,研究員們還拓展瞭 DeepNet 對於訓練穩定性的分析框架,為 Magneto 提出瞭一種新的初始化方法,從理論上保證深層模型訓練的穩定,使得 Magneto 可以無痛地進行擴展。
72e2e59ede763a333cfe917ae2a2c21d圖5:左上:Sub-LN 的偽代碼。這裡以 Xavier 初始化為例,可以用其他標準初始化方法替代。γ 是一個常數。右上:不同架構(N 層編碼器,M 層解碼器)的 γ 值。底部:不同架構下的 Sub-LN。
研究員們在廣泛的任務和模態上評估瞭 Magneto 的性能,包括掩碼語言建模(BERT)、因果語言建模(GPT)、機器翻譯、掩碼圖像建模(BEiT)、語音識別和視覺-語言預訓練(BEiT-3)。圖4展示瞭 Magneto 在各種下遊任務上顯著優於現有分別設計的 Transformer 變體。而且,Magneto 在優化方面更穩定,這就使得以更高的學習率來提升下遊任務性能的表現成為可能,同時不會導致訓練崩潰。
論文鏈接:
http://openreview.net/pdf?id=hGJLN2Ys4c
在很多實際的任務中,動態變化且不可控制的環境因子對決策過程起著重要作用,比如庫存管理中的顧客需求量和自動駕駛中的前車速度,這類環境因子被為上下文(context)。強化學習在這類應用中的主要挑戰之一在於,真實的上下文轉移分佈會暴露於某些因素的幹擾下,導致上下文的轉移分佈發生偏移,極大地影響強化學習算法的性能。例如,在自動駕駛的跟車任務中,智能體在訓練中遇到前車速度一直是正常的,但在測試的時候前車突然急剎車,導致智能體控制的車撞瞭上去。
為瞭處理這類問題,研究員們提出利用胡伯爾污染模型(Huber’s contamination model)對上下文轉移分佈的偏差和不確定性進行建模,並稱這個框架為對形勢變化魯棒的馬爾可夫決策過程。基於這個模型,研究員們把現有的強化學習算法擴展成能對上下文轉移分佈的擾動達到比較好魯棒效果的算法,從而得到對形勢變化魯棒的決策。在跟車類型的機器人運動控制和庫存管理的實驗裡,相比基礎的強化學習算法和魯棒強化學習算法,該算法達到瞭對於上下文擾動更好的魯棒性能。
圖6:胡伯爾污染模型框架
論文鏈接:
http://openreview.net/pdf?id=RYD1UMgTdk
大語言模型可以通過鏈式思考(chain-of-thought prompting)來完成各種推理任務,即利用指令和任務示例引導模型生成逐步的推理過程來解決問題。在少樣本的情況下,語言模型的表現很大程度上取決於任務示例的質量,尤其是在推理過程復雜且模式多樣的任務上。理想情況下,科研人員們希望能獲取大量且多樣的示例,從中選取對模型幫助最大的示例構成任務提示詞。然而,人工構建大量的示例既費時又繁瑣,而僅依賴少量的人工示例則可能不利於模型泛化到更多樣的測試場景當中去。
為解決上述問題,研究員們提出瞭 Synthetic Prompting,利用大語言模型自身的知識和生成能力,基於有限的人工示例合成更多更有效的示例,並通過合成示例觸發更好的推理表現。具體而言,給定一些種子示例,每個示例由一個問題和一系列推理步驟組成,通過交替進行後向-前向過程來引導語言模型生成更多示例:(1)後向過程,語言模型根據自我采樣的推理鏈合成一個問題,以確保問題可回答且邏輯清晰;(2)前向過程,語言模型基於合成的問題生成一個推理鏈,確保推理鏈的精確性。這個過程需一直重復直到獲得足夠的合成示例。
為瞭從合成的示例集中選擇最有效的示例,研究員們提出瞭一種基於 in-cluster complexity 的選擇方案:通過對示例進行聚類並選擇每個聚類中最復雜的示例(推理鏈最長的示例)來最大程度地增加所選示例的多樣性和信息量。最後,用所選定的示例構成提示詞來進行推理測試。
圖7:示例合成階段的後向過程(左圖)和前向過程(右圖)。在後向過程中,研究人員將主題詞、所期望的推理復雜度、以及模型采樣生成的推理過程(藍色部分)作為問題合成(綠色部分)的生成條件,以分別提高所合成樣本的多樣性、信息量、和邏輯性。在前向過程中,語言模型為後向過程中所生成的問題合成
Synthetic Prompting 讓大語言模型同時充當任務示例的“消費者”和“生產者”,一定程度上實現推理效果的自我提升。在數值推理、算法推理和符號推理任務上的實驗表明,相比於此前方法,如 chain-of-thought prompting 和 PAL prompting,Synthetic Prompting 可以實現高達15.6%的提升。
前往理由 (Reason to go):1. 死亡谷國傢公園是除阿拉斯加外最大的國傢公園,幾近深不可測。公園占地面積 330萬英畝/134萬公...