編者按:人們每天都在面臨取捨,如何能夠做出機會成本最低且收益最為理想的選擇,這讓很多選擇恐懼症們陷入無限糾結的境地。
看似無比困難的權衡問題,如今組合線上學習就能幫你“算出”最優解,輕鬆破解傳統組合優化問題。本文中,我們邀請到微軟亞洲研究院資深研究員陳衛為大家多面解讀組合線上學習的奧妙之處。
什麼是組合線上學習?大家都曾有過這樣的經歷,在我們刷微博或是閱讀新聞的時候,經常會看到一些自動推薦的內容,這些資訊可以根據你對推送的點選情況以及閱讀時間等來調整以後的推送選擇。再比如,手機導航往往會在你輸入地點時推薦一條最合適的路線,當你按照推薦走的時候,手機導航也會收集這次行程的資訊,哪裡比較堵,哪裡很順暢,從而可以調整系統今後的推薦。
有人會提出質疑:這不就是推薦系統嗎?是的,但是傳統的推薦系統只能離線學習使用者和物件的各種特徵,作出儘量合適的推薦,是一個相對靜態的系統。而我們這裡強調的是線上學習(online learning),即迅速利用線上反饋,不斷迭代調整推薦策略,從而儘快提高學習效果和整體收益。而組合線上學習(combinatorial online learning)的組合性則體現在學習的輸出上,它不是一個簡單結果,而是一個組合物件。比如上述情形中,手機導航輸出的路線其實是若干路段的組合或者包括不同交通工具換乘的組合,而手機助手的推薦也是不同訊息渠道的組合。
傳統的推薦系統通過與組合線上學習相結合,就可以通過即時反饋調整策略達到更好的推薦效果。而組合線上學習應用範圍遠不止推薦系統,任何傳統的組合優化問題,只要問題的輸入有不確定性,需要通過線上反饋逐步學習的,都可以應用組合線上學習方法。組合線上學習也是當前大熱的強化學習(reinforcement learning)的一個組成部分,而組合線上學習的強大理論支援也會給強化學習提供很好的理論指導。所以組合線上學習就是下面圖示所表達的組合優化和線上學習不斷互動迭代更新的反饋環路。
線上學習的核心:權衡探索和守成
要介紹組合線上學習,我們先要介紹一類更簡單也更經典的問題,叫做多臂老虎機(multi-armed bandit或MAB)問題。賭場的老虎機有一個綽號叫單臂強盜(single-armed bandit),因為它即使只有一隻胳膊,也會把你的錢拿走。而多臂老虎機(或多臂強盜)就從這個綽號引申而來。假設你進入一個賭場,面對一排老虎機(所以有多個臂),由於不同老虎機的期望收益和期望損失不同,你採取什麼老虎機選擇策略來保證你的總收益最高呢?這就是經典的多臂老虎機問題。
這個經典問題集中體現了線上學習及更寬泛的強化學習中一個核心的權衡問題:我們是應該探索(exploration)去嘗試新的可能性,還是應該守成(exploitation),堅持目前已知的最好選擇?在多臂老虎機問題中,探索意味著去玩還沒玩過的老虎機,但這有可能使你花太多時間和金錢在收益不好的機器上;而守成意味著只玩目前為止給你收益最好的機器,但這又可能使你失去找到更好機器的機會。而類似抉擇在日常生活中隨處可見:去一個餐廳,你是不是也糾結於是點熟悉的菜品,還是點個新菜?去一個地方,是走熟知的老路還是選一條新路?而探索和守成的權衡就是線上學習的核心。
多臂老虎機的提出和研究最早可以追述到上世紀三十年代,其研究模型和方法已有很多。想進一步瞭解其技術細節的讀者可參考綜述[1]。其中一類重要的模型是隨機多臂老虎機,即環境給予的反饋遵從某種隨機但未知的分佈,線上學習的過程就是要學出這個未知分佈中的某些引數,而且要保證整個學習過程的整體收益儘量高。這其中最有名的一個方法是UCB(Upper Confidence Bound)方法,能夠通過嚴格的理論論證說明UCB可達到接近理論最優的整體收益。
組合線上學習:組合優化和線上學習的無縫對接
介紹了多臂老虎機問題,我們現在終於可以介紹組合線上學習,更具體的是組合多臂老虎機(CMAB)問題了。在組合多臂老虎機問題中,你一次拉動的不是一個臂,而是多個臂組成的集合,我們稱之為超臂(super arm),原來的每個臂我們稱之為基準臂(base arm),以示區別。拉完這個超臂後,超臂所包含的每個基準臂會給你一個反饋,而這個超臂整體也給你帶來某種複合的收益。
以前面的手機導航作為一個例子。城市中的每一個路段可以被看成是一個老虎機(一個基準臂),而你一次選擇的並不是一個路段,而是從出發點到終點的一條路線,會包括很多路段,整個這個路線就是一個的超臂。當你實際走這條路線時,每一個路段都會給你反饋,就是該路段的擁堵時間(注意這個擁堵時間是隨機的,不是每次都一樣,而平均擁堵時間就是你需要學習的),而你的整體收益就是整個路線的擁堵時間(在這個例子裡擁堵越短越好,所以用整體損失表達更貼切些)。這就是組合多臂老虎機問題。很多組合推薦,組合選擇優化問題都可以用多臂老虎機來表達。
那麼如何解決組合多臂老虎機的問題呢?你可能首先想到的就是把每一個超臂看成是經典多臂老虎機問題中的一個臂。但是超臂是多個基準臂的組合,而這樣組合的數目會大大超過問題本身的規模——組合問題中經典的組合爆炸現象,因此傳統的方法並不適用。所以線上學習不能在超臂這個層次進行,而需要在基準臂層次上進行,並需要與離線組合優化巧妙地結合。我們在ICML2013的論文[2]中給出了組合多臂老虎機的一般框架和基於UCB方法的CUCB演算法。CUCB演算法將組合優化和線上學習無縫對接實現了前面圖示中的反饋迴路。較之前的涉及組合多臂老虎機的研究,我們的模型適用範圍更廣,尤其是我們通過給出收益函式的兩個一般條件,能夠涵蓋非線性的收益函式,這是第一個能解決非線性多臂老虎機問題的方案。我們的工作,包括之後我們和他人的後續工作,都強調對線上學習部分和離線優化部分的模組化處理和無縫對接。也即我們將離線優化部分作為一個黑盒子神諭(oracle),這部分可以由具有相關領域知識的專家來完成。而一旦離線優化問題可以精確解決或近似解決,我們就可以把這個離線演算法當作黑盒子拿過來和我們線上學習方法相結合,達到有嚴格理論保證的組合線上學習效果。這使得我們的方法可以適用於一大批已經有離線優化演算法的組合線上學習問題,比如最短路徑、最小生成樹、最大匹配、最大覆蓋等問題的線上學習版本,而不需要對每個問題單獨再設計線上學習演算法。
在論文[2]的期刊版本[6]中,我們進一步將組合多臂老虎機模型擴充套件為允許有隨機被觸發臂的模型。這一模型可以被用於線上序列推薦、社交網路病毒式營銷等場景中,因為在這些場景中前面動作的反饋可能會觸發更多的反饋。然而在[6]的理論結果中,我們包含了一個和觸發概率有關的項,而這個項在序列推薦和病毒營銷場景中都會過大,造成線上學習效果不好。在今年剛被錄取的NIPS論文[9]中,我們徹底解決了這個問題:一方面我們論證了序列推薦和病毒營銷等滿足某種特定條件的問題都不會有這個不好的項,另一方面我們指出在更一般的組合多臂老虎機中這個項又是不可避免的。這是目前研究可觸發臂的組合多臂老虎機中最好的一般結果。
除此之外,我們還在與組合多臂老虎機相關的方面做了若干工作,比如如何在反饋受限情況下達到好的學習效果[3];如何解決先探索再找到最佳方案的組合探索問題[4];當離線優化基於貪心演算法時,如果更好地將離線貪心演算法和線上學習相結合[5];如何在有上下文的場景中解決組合序列推薦問題[7];以及當超臂的期望收益取決於每個基準臂的隨機分佈而不僅是每個基準臂的分佈均值時,如何同樣有效地進行組合線上學習[8]。
總之,組合線上學習將離線組合優化和線上學習有機地結合起來。由於組合優化的普遍存在和線上即時反饋機制的日益完善,將優化和反饋不斷迭代結合的組合線上學習勢必會找到更多的應用,而組合線上學習堅實的理論根基會對其實際應用起到很好的指導作用。這個方向有很多的理論和實踐問題需要進一步研究,我們也希望在這個方向繼續做出新的貢獻。
[1] Sébastien Bubeck and Nicolò Cesa-Bianchi. Regret Analysis of Stochastic and Nonstochastic Multi-armed Bandit Problems.
[2] Wei Chen, Yajun Wang, and Yang Wang. Combinatorial Multi-Armed Bandit: GeneralFramework, Results and Applications.
[3] Tian Lin, Bruno Abrahao, Robert Kleinberg, John C.S. Lui, and Wei Chen. Combinatorial Partial Monitoring Game with Linear Feedback and its Applications.
[4] Shouyuan Chen, Tian Lin, Irwin King, Michael R. Lyu, and Wei Chen. Combinatorial Pure Exploration of Multi-ArmedBandits.
[5] Tian Lin, Jian Li, and Wei Chen. Stochastic Online Greedy Learning with Semi-bandit Feedbacks.
[6] Wei Chen, Yajun Wang, Yang Yuan, and Qinshi Wang. Combinatorial Multi-Armed Bandit and Its Extension to Probabilistically Triggered Arms.
[7] Shuai Li, Baoxiang Wang, Shengyu Zhang, and Wei Chen. Contextual Combinatorial Cascading Bandits.
[8] Wei Chen, Wei Hu, Fu Li, Jian Li, YuLiu, and Pinyan Lu. Combinatorial Multi-Armed Bandit with General Reward Functions.
[9] Qinshi Wang, and Wei Chen. Improving Regret Bounds for Combinatorial Semi-Bandits with Probabilistically Triggered Arms and Its Applications.