【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

產業智慧官發表於2018-03-06

原文網址 : https://blog.csdn.net/np4rhi455vg29y2/article/details/79453289

導讀

我們看這個世界主要有兩種方式：一種方式是從上往下看世界；另外一種是東方人所擅長的《易經》方法看世界，也就是歸納法，從下往上看世界。《易經》追求三易，不易、變易和簡易。大道至簡，《易經》的這三易如何指導我們做資料探勘以及人工智慧研究呢？（本文按熊輝教授於第三次人工智慧前沿講習班上的報告<Talent Analytics: Prospects and Opportunities>進行整理髮布。）

作者簡介

熊輝教授本科於1995年畢業於中國科學技術大學，博士於2005年畢業於美國明尼蘇達大學，目前為美國羅格斯－新澤西州立大學資訊保安中心主任、羅格斯商學院管理科學與資訊系統系副系主任、正教授 (終身教授)、RBS院長講席教授，並擔任中國科學技術大學大師講席教授。熊輝教授在研究領域成績斐然，獲得的部分榮耀包括ACM傑出科學家，長江講座教授，海外傑青B類（海外及港澳學者合作研究基金）， IBM 創新獎， ICDM-2011最佳研究論文獎，羅格斯-新澤西州立大學最高學術獎—the Rutgers University Board of Trustees Research Fellowship for Scholarly Excellence (2009)。主要學術成果包括：1本專著；3本編著，其中Encyclopedia of GIS（Springer）被評為最受歡迎前十名的Springer華人作者的計算機著作；學術論文200餘篇，其中有60餘篇發表在包括 IEEE Transactions on Knowledge and Data Engineering、VLDB Journal、IEEE Transactions on Fuzzy Systems、Machine Learning、IEEE Transactions on Systems, Man, and Cybernetics - Part B、IEEE Transactions on Mobile Computing在內的頂級權威刊物上，有32篇發表在資料探勘的頂級學術會議 ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (KDD)上。

我選擇從事資料探勘行業的三大原則

我為什麼選擇資料探勘這個行業呢？我讀過很多科技雜誌，也讀了很多人文學科書籍，特別是中國的國學，算是熟讀了《孫子兵法》、《易經》和《鬼谷子》，這都是我最喜歡的書。熟讀之後，我考慮一個問題：將來應該選擇什麼樣的方向？當時我給自己職業發展定了三個原則：第一個是興趣原則，必須是自己感興趣的事情；第二是朝陽原則，這個行業要隨著時間發展往上走，是一個朝陽行業；第三是複合原則，要有足夠的複雜性。大概是1996年，我碰巧看到了資料探勘的介紹，那時候很早，KDD還是一個Workshop（音）的時候，相當於資料探勘剛剛出來的時候。我看了這個方向挺好，符合我的三個原則。

原則一：興趣原則

我這個人從小對歷史感興趣，雖然是理工男。歷史是什麼？歷史是讀過去、知未來，本身就是一個預測問題。我對資料探勘感興趣是自己天然的本性而已。

原則二：朝陽原則

為什麼說資料探勘是一個朝陽性行業？1996年、1997年網際網路出來，1999年到頂峰，2000年泡沫破裂。網際網路真正帶來的改變，一大改變就是資料，把世界上的人都連在一起了，當人以指數的方式聯絡在一起產生的就是資料。現在是物聯網，所謂網際網路的第二代，物聯網把每個裝置連在網路，現在每個人平均4個裝置，這個連在一起會有多少資料？從某種意義上，我最喜歡用醫生做對比，我們做資料探勘行業最像醫生。大家都看過病，一個病人見醫生的時候，醫生首先問你哪裡不舒服，你的病症是什麼，可能依賴一些詢問方式，可能依賴一些醫療裝置診斷的方式，可以提取出來很多特徵。我們的病人是資料，可能從通訊領域、醫藥領域、金融領域、市場領域來，也可能從企業管理中來。這些資料來了之後，我們首先提取的是特徵，看看這些資料具備什麼樣的特徵，這些特徵可以幫助我們下一步選擇合適的模型。比如說這個資料有高危性、稀疏性，具有不同的統計學特徵等。這兩個很相似，醫生需要了解病症，我們需要了解資料特徵，對我們而言，我們的病人就是資料而已。這兩個行業是相通的，做好醫生需要用好各種各樣的工具，我們做好資料探勘需要理解好各種各樣的演算法，也是異曲同工的，所以這兩個行業是非常相似的。

原則三：複雜性原則

為什麼要有足夠的複雜性？隨著科學技術的發展，很多工作會慢慢被機器淘汰，如果這個行業不夠複雜、不夠與人互動，這個行業就會被淘汰，所以我從事的行業必須是一個複雜行業。只有複雜行業才能維持朝陽。至少在我有生之年。醫生非常難被機器淘汰，現在機器已經超越人下圍棋了，但是機器很難替代人去看病。機器可以做標準化、邏輯化的事情，醫生可以做什麼事情？同一種病毒所感染的流行感冒，這個是懷孕的婦女，那個是有心臟病的老人，這是一個小孩，那是一個青壯年，不同的病人被同一種病毒感染，醫生的治療方式必須是不一樣的，懷孕婦女有一些藥不能吃，有的心臟病患者有一些藥也不能吃。這就是複雜性，個體差異性導致標準化過程非常困難。從這種角度來說，醫生這個行業有足夠的複雜性和足夠的朝陽性，只要有人活著就需要有醫生，所以我們這個行業跟醫生非常像。我們既有朝陽性，因為病人越來越多，網際網路第二代，隨著物聯網的產生，我們資料越來越多，代表病人越來越多，病人越來越多，我們的市場就越來越大。所以我們是朝陽性的行業，我們這個行業也非常複雜。

算命先生也做大資料？

我們這個行業還像一個行業，我一直喜歡研究這個東西，很早就喜歡看這個東西，如果我穿越到古代，在街頭多半是一個算命先生，當然也有可能進入朝堂變成國師。但是我自己個人最喜歡鬼谷子，所以多半喜歡閒雲野鶴，寧願培養學生打仗，自己做好老師就可以了。【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

為什麼說這個行業也特別像呢？我們不要把古代的相士簡單看成迷信，其實他們也在做大資料，是一種垂直的大資料。什麼是垂直的大資料？他們不具備我們的條件，比如說我們看手相，可以收集100萬個人的手相，包括收集職業生涯鏈，根據手相和職業生涯尋找特徵，然後再研究他的特徵，可以用科學的方式研究這個問題。但是古代不可以，古代是一種垂直的，古代的人也會掌握很多知識，這個知識叫Knowledge Graph，但是這是腦袋裡固化的一種知識，比如說日月星辰的變化、四季的變化、各種事物之間相生相剋的關係，包括動物的食物鏈和各種知識。他們還掌握一些基本的工具，比如說金木水火土五行的理論和算卦的理論，這東西是他們掌握的非常原始的、非常樸素的，你可以說是非科學化的知識結構和工具。所以，他們跟我們也是很像的。

為什麼我跑去學《易經》呢？

做資料探勘越做到最後，發現當年在深圳看的《易經》有用，因為這可以指導我很多的思維方式和哲學思想，包括我的很多演算法設計都是從《易經》思想中來的。《易經》很簡單，《易經》追求的是什麼？《易經》追求的三易，不易、變易和簡易。我們做很多模型的設計，我們預測模型，首先考慮的是不易，因為建立模型的時候只能把握不容易隨著時間改變東西，你需要把握事物之間最根本、最本質，不容易隨著時間、地點改變的東西，這就是《易經》“不易”的精神。易學本身就是對大自然觀察總結的一些結果。【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

這裡做一個例子，比如我剛才說算命是一種垂直大資料，比如說手相，當然這不是我今天講課的重點，我只是用這個來闡述相關性。我說算命是一種垂直大資料。什麼叫垂直大資料呢？比如說手相，現在已經證明是可以被科學化的。喬斯科普克斯在兩年前發表了一篇《Nature》的文章，人的經歷可以在手上留下痕跡，你生過大病在手上會留下痕跡，你經歷過感情挫折手上也會留下痕跡，因為會改變你的腺體的分佈，因為腺體分佈的改變會導致手上痕跡的改變，這是有科學依據的。但是古代人不知道這些事情，古代人只能做到垂直大資料，什麼叫垂直大資料？比如說一個非常聰明的人，可能是伏羲或者周文王，周文王看了手底下很多大臣、士兵的手相，他可能一輩子看了十萬人手相，發現中間有事業線的人事業發展的很好，就把這條線叫事業線，事業線長得又直又深的人這些人會發展比較好。他觀察了很多事物，總結出來一個規律而已。他把這個傳給他的徒弟，這個徒弟又看了另外一條感情線，徒弟的徒弟可能又看了一條生命線，這個垂直線下來可能看了幾百萬人的資料，最後總結出來幾個規律而已。每一條資料線對於我們做資料探勘的就是feature，僅此而已。這種是靠垂直觀察產生的模式，但是我們現在可以做水平的觀察，可以一次性收集很多資料來做這個事情。

【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

我們看這個世界主要有兩種方式，一種方式是從上往下看世界，另外一種方式是東方人所擅長的《易經》的方法，也就是歸納法，從下往上看世界，這是我們做資料探勘的人非常擅長的。因為我們東方人太能夠從下往上做歸納法了，以至於我們很難產生邏輯化的體系。只要大家從這個就可以看出來，東西方兩種思維方式區別是很大的，我們東方人一直說從底下往上看世界，從歸納法看世界，中國就拍得出《琅琊榜》，美國不會拍《琅琊榜》。在沒有計算機的時代，《琅琊榜》的資料收集方法已經達到頂峰了，包括資料的整理方法和資料的收集方法。

【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

個人的觀點，之所以中國在近代會落後，那是因為中國方法論的落後。18世紀開始中國為什麼會落後？原因非常簡單，中國人的思維方式是從下往上看世界。從下往上看世界依賴兩個條件，第一要資料好，覆蓋率高，精細。第二個條件是資料分析能力強，近代社會我們沒有計算機，資料分析能力不強，《琅琊榜》的資料方法是我們資料收集能達到的頂峰了。某種程度而言，過去幾千年我們資料收集方法和資料處理能力都沒有重大的改變；現代社會中，當計算機出來之後我們才出現重大改變。近代的時候，西方數學邏輯體系得到極大完善，西方工業體系得到極大完善，這就產生巨大沖擊，就使近代社會西方會超越我們東方。

現在我們的機會是大資料，我們從來沒有像現在這麼好的機會，可以掌握這麼細緻的資料，從來沒有麼好的機會可以深入毛孔的看人和人之間的關係，所以現在無論從資料質量和資料收集方法都是前所未有的好，我個人認為未來社會的人才應該是中西貫通的，既懂得西方的邏輯思維數學體系，還包括東方式的大資料分析能力，將來這會幫助到大家。

我剛才說過了，整個人類發展的過程是一個拔河的過程。人的智慧和人工智慧，我們人創造出來很多人工智慧，幫助我們去做什麼事情？幫助把很多以前屬於人類的工作都歸於機器了。什麼樣的工作會歸於機器？邏輯化、標準化的工作會被機器所替代，替代過程最近十幾年會加快，未來十幾年會加得更快，等一下會跟大家講我的理念，我為什麼做人的研究？等一下就會解釋。因為這個過程中會導致很多人失業，導致很多人知識結構不再有用，對人的挑戰非常大。【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

人工智慧替換了什麼？替換了人的計算能力，替換了人的儲存能力，很多以前屬於人類的工作現在都是機器在做。未來發展的三大特徵：一個是快，一個是準，一個是狠。這是什麼意思呢？我們現在整個社會的發展，過去十年的發展比整個人類歷史發展的總和還快，非常非常快。這個快會導致什麼結果？一個企業的變化、一個組織的變化、一個國家的變化，包括個人的變化，過去一個企業從0到1000億美元需要花幾十年積累甚至上百年積累，現在一個企業從0到10億美元可能幾個月就夠了。反之，一個企業從上千億美元到破產幾個月也就夠了，所以現在一切都在加快。現在我們對未來的很多判斷會變得更加精準，這個精準是因為現在的大資料和我們的分析能力。還有一個“狠”，現在任何一個行業，以前我們有傳統的食物鏈，鯊魚吃大魚，大魚吃中魚，中魚吃小魚，小魚吃蝦米，現在鯊魚把所有東西都吃掉，所以這是一個非常狠的時代，這個時代中一定要提升自己的競爭力。

為什麼要“研究人”？高顏值以後將不會成為面試優勢！

我從05年開始去商學院，去商學院最大的原因是我認為在商業領域擁有最多的資料。從05年我博士畢業開始到現在，我們是做移動推薦的，我從05年、06年就開始做計程車的GPStrees（音），那時候中國沒有滴滴，美國也沒有Uber，我們06年和舊金山的計程車廠商合作去分析他們計程車的GPStrees，所以我們發文章很早，06年、07年我們開始發GPStrees的文章，全世界沒有幾個人擁有那個資料。然後開始做基於人的行為分析，還做過很多金融的商業資料，還做過客戶的資料分析。這些都做完之後，我突然意識到一個問題，不管我做資料是從移動領域來、從通訊領域來還是從金融領域來、市場領域來，都離不開一個本質，最終都回到“人”本身了。

人是最難研究的，把人研究透了就沒有什麼東西不懂了。任何組織、任何國家離不開兩個東西，一個是對人的研究，一個是對金融的研究，一個管住人，一個管住錢。現在我來進行對人的研究。兩年多前我開始做這個研究。傳統上大家對企業的人的研究是什麼研究方式？我發現傳統上很多是經驗型的。什麼叫做經驗型的？企業要提誰做一個總監、提誰做一個VP很多是拍腦袋做的決定。什麼叫做拍腦袋做的決定？為什麼提他？我只是感覺他好。好在什麼地方？他不能回答這樣的問題。什麼叫做科學，假設我提拔一個人做總監，我要知道這個總監的職責是什麼，他的主要職責包括一二三四五方面，這個人技能也有一二三四五，包括他的個性是不是符合這個崗位的需求，這是科學化的工作匹配、崗位匹配。用《易經》的說法我們叫做“當位”。我們判斷一個人是不是可以處於一個職位，要判斷他個人的技能、個人的情商和個人的條件是不是符合這個崗位的需求。這就是科學化的評估。

過去很多是主觀的，現在儘量要客觀。什麼是主觀，什麼是客觀？很簡單，大家大學畢業去面試，如果你長得漂亮，現在還有優勢，再過幾年就沒有優勢了。之所以有優勢，因為你到騰訊、阿里、百度面試，你長得漂亮，面試程式設計師，面試的程式設計師看你長得漂亮第一關就很容易過。所以管理的人說，這個人怎麼直接到我這一關的，前面的工程師怎麼面試的，怎麼一下到經理這一關面試了，這是非常主觀的。現在我在開發一種面試機器人，首先是機器面的，所以不用擔心這個問題。這個應用會很快，不只是我開發。現在是機器把關，機器自動篩選你的簡歷，機器做面試機器人，會跟你對話，給你提面試問題，會自動評估你的面試答案。

現在很多判斷是碎片化的。什麼叫碎片化？我們對資訊收集的渠道和完整性不如以前，現在要基於完整資訊判斷。以前很多判斷是模糊化的，以前很多判斷是滯後的，現在要做前瞻。什麼叫前瞻？我們設計的一個非常好的演算法是離職預測，我們現在判斷離職非常準，我們可以非常準確的判斷出誰在未來幾個月離職。為什麼我要判斷人家要離職？舉個例子，假設這個人處於這個公司獨一無二的角色，我判斷他要離職，如果沒有替代的，我是不是要做挽留，提前去幹預。如果幹預不了、挽留不了，可能要到市場上招一個這樣的人，或者從企業內部挖掘一個可以替代他的人，這就叫前瞻，災難沒有發生之前就開始處理掉，這就像扁鵲說他哥哥的能力比他強，因為人家可以提前知道這個小病會發展到大病，所以我們要從滯後性往前瞻性轉移。

易經的“不易”

我研究整個人才智庫的開發，你說這個怎麼切入？兩年多前我對人力資源一竊不通，我兩年之前沒有做過企業人力資源管理，原來在深圳帶過一個小團隊，有一點點認識。我需要考慮什麼呢？現在我需要考慮整個人力資源管理應該怎麼去切入，就像我剛才跟大家說過，我做過市場分析、做過金融，我現在又做人力資源管理，大家肯定覺得很好奇，你怎麼可以懂那麼多領域知識，這就是學《易經》的好處了。我們學《易經》的人學習有方法的，學習任何領域，我只學習不易的東西。什麼叫做不易的東西？“易”有三易，不易、變易、簡易。【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

不易是什麼？任何一個行業、任何一個事物都會有不變的根本，不會隨著時間、地點和你面對的場景而輕易發生改變的事情，這就叫不易。學習任何行業，首先要學習的就是不易。做人力資源有什麼不易？大家聽完這個就知道什麼叫做人力資源，人力資源從古至今都有，從盤古開天形成組織就需要人力資源，戰國時期各個國家，秦楚燕韓趙魏都需要。秦朝做組織管理也需要做人的層面的管理、組織層面的管理、文化層面的管理。現代社會，無論美國、中國還是各個企業，同樣，你的管理無非是三個層面：對人的管理、對組織的管理、對文化的管理。對人的管理包括什麼？無論一個小公司、大公司，過去的國家、現在的國家，過去的企業、現在的企業都離不開“錄、離、升、降、調、選、用、育、留、辭”十個字，不管你用什麼技術，離不開這些東西。首先，你錄什麼人、選什麼人、用什麼人、培養什麼人、你讓誰滾蛋、你保留誰，這些事情是不變的，跟你的工具沒有關係，跟你的企業型別沒有關係，跟你生活在古代、現代沒有關係，這就是《易經》“不易”的根本。

對於組織的管理，不管是紅軍長征時代還是現在中國政府面對的情況，首先是組織的領導力、組織的穩定性和組織的激勵機制，這涉及到對組織的管理。對文化的管理涉及到什麼？任何企業、任何組織、任何國家都離不開願景。任何組織的文化體現在哪裡？體現在這個組織的價值觀，你的價值評估是什麼、價值標準是什麼、價值分配的原則是什麼，包括公司的遠景和公司的未來是什麼，使命感在哪裡。

易經的“變易”

但是，光知道不易還不夠，任何事物都會變化，它有它的變易，但是變化不是亂變化的，變化是有方向的，而且變化是有原則的。所以，我們做預測還要知道變化的方向和原則。任何組織、任何國家都離不開對人的管理、對組織的管理、對文化的管理，但是不同型別的企業對這三個要求不一樣。小企業主要加強的是對人的管理，所以一個小企業的好壞主要看他的頭兒，看這個領導、老闆好不好。中型企業主要看什麼？中型企業主要看它的組織，組織的領導型、穩定性和激勵機制做得好不好。大型企業、大型組織乃至國家，一定要看文化做得好不好，這個國家、這個組織、這個黨派、這個大企業有沒有好的願景、有沒有好的使命感、有沒有好的價值觀。從某種意義上，當年國民黨輸給共產黨是輸在文化上面，不是輸在人上、也不是輸在組織上，而是輸在文化上。所以，學習這個東西一定要知道它的“變易”體現在哪裡。

難點在哪裡？我這輩子研究資料探勘，從1999年到現在，我覺得最難研究的就是人，因為人的資料提取特徵是最難的。現在回到這個根本的問題，過去做人的研究、組織的研究、文化的研究靠什麼？古代靠人的大腦，現在我們要靠資料收集。現在我要回答的問題是我們怎麼通過大資料分析的方法、通過資料收集的方法做到對人的管理、對組織的管理、對文化的管理，怎麼通過抽象的向量化的方向做轉移，這是真正的難點。

易經的“簡易”

剛才介紹完了關於“不易”和“變易”。我們把握住不易、把握住變易，一定知道什麼叫簡易。簡易是做資料探勘要會的，你要學會做聚類。聚類是一種簡易的辦法，可以幫助我們理解、幫助我們去做總結。任何一個學科不易的東西和變易的方向，必須要掌握簡易的方法，只有這樣才可以快速學習。

很多學生不會學習，如果你整天學習的都是正在變化過程中的東西，你的學習就白學了。很多學生跟我說，“我在學習怎麼做去網站”，我說過了十年以後你一無是處，你就白學了。兩個學生，一個學生都在學習知識，這個知識的揮發性是很慢的，哪怕他每天只學三個小時；這個學生每天學九個小時，但是他學的是今天學了兩年之後就沒有用的知識，屬於高揮發性知識，屬於完全變易的知識，白學了。過十年之後，這個每天學三個小時的學生比每天學九個小時的學生厲害多了，因為他的知識沉澱了，而另外同學的知識出的比進的還快。所以，學什麼、怎麼學非常重要。

給大家講一個小的例子，判斷一個人有領導力，怎麼可以量化？這真是一個大學問。舉一個簡單的例子，領導力是要有看遠的能力，也有看寬的能力。看遠是什麼？他知道未來會發生什麼事情。看寬是什麼？他知道自己的現狀。帶團隊的能力是懂得識人、有胸懷、能放手。這些東西都不重要，重要的是我隨便提取出來一條，你能不能告訴我什麼樣的資料可以反映一個人具備這些素質？我說這個人懂識人，我不能簡單說他懂識人，我要有證據和資料來支撐“他能夠識人”。舉個例子，這個老師曾經挑了十個學生，這十個學生最後統統都失敗了，都混的很慘，你說這個老師會識人，我不相信。或者一個公司的總監過去帶了100號人，這100號人有50個是經過他面試的，結果這50人在企業中的表現基本上都是最差，你說他會識人，我才不相信他會識人，他肯定不會識人。先不說用人的事情，首先就不會識人。

任何一個東西，怎麼提取資料來反映這個事實？有一些人是很虛的，我說可以看遠，就是判斷這個人有沒有視野，能夠看到遠方，你通過什麼資料可以判斷這個人能夠看到遠方？你可以看這個人職業生涯鏈。舉個例子，如果這個人90年代末加入Google，在2006年、2007年加入Facebook，這個人是很有視野的，總是在對得時機做對的選擇，哪怕只是一個小工程師，他也是很有視野的，他可以看得到未來。如果一個人總是反過來，90年代末從Google跳槽到雅虎，後來從雅虎跳槽到更差的地方，你說你有視野，這不是開玩笑嗎？這個人肯定沒有視野的。怎樣通過量化的辦法來判斷一個人有視野，他能夠做到這上面的每一條。說起來很容易，做起來好難，我想了很長時間，每一條可以提取什麼樣的特徵。【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

真正要想做好，我們需要兩方面的技能：一方面是我們的專業技能，另外一方面要掌握這個領域知識。這個領域知識要掌握不易的領域知識，還要掌握變易的方向，這是真正要學習的。不管做金融資料分析、市場資料分析、安全資料分析還是溝通資料的分析，都離不開這個領域知識，真正的高手一定可以做到用資料說話、用資料決策、用資料管理。我自己覺得最難的，能夠做到用資料創新的人很少，非常少的人可以做到用資料創新。我自己是一個非常注重學習的人，我強迫自己多學習一些領域知識，一定把自己的眼界開啟。真正做很多預測模型，你就明白，一定要把握任何領域不易的東西，這個東西比你掌握演算法難的多。

學習演算法很容易，你可以簡單的做一個規劃，可以讓自己學，今天把聚類學完，明天把分類的東西都學完，這個DeepLearning無非也就是把那幾個演算法學好，這些東西都簡單，只要學得好。真正難的是把握難以把握的東西，看上去很多，我丟上去一個知識點，可能人力資源這麼厚一本書，你說把這麼厚一本書啃完不是件容易的事情，最難的是學生考完之後什麼都沒有學到，他不知道該讀什麼。你怎麼樣可以把一本厚書讀薄，這是很難的事情。

讓資料說話：面試官的評估與人才個性

給大家先介紹一下，我們怎麼通過資料分析的方法來做一些事情。比如說我們做了很多很好玩的事情，面試官的評估與人才個性。我們首先考評一個公司誰是優秀的面試官，現在資料可以反映誰是優秀的面試官。比如說，你已經面試過50人，你要寫面評，最後發現面試的50人中間有40個甚至45個都很差，你多半不合格。還有很多面試官就面試了10個人，這10個人都很好，進來之後是企業的頂尖人才，說明你的眼光非常好。資料是不會撒謊的。不只是這個，我們還看你寫的面評，如果你的面評可以準確的反映到每一個候選人真正的實力的時候，包括他的優點和缺點你能夠準確定位的話，我們就認為你是一個很好的面試官，我們建立一個模型來預測這件事情。第二個是我們做了很多智慧廣告的生成，根據一個企業不同的崗位我們會自動生成這種廣告，這要用到鄒老師介紹的東西。【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

介紹一個具體的例子。介紹的第一個事情是做人，比如說我們做智慧簡歷的篩選和分發。我現在給大家描述兩年之後、三年之後的中國現狀。未來大家是校招的，很多學生將來會遞簡歷，會填很多公司，很多公司會給你發一份招聘表，你把資訊輸入進去，這就是簡歷的收集過程。未來，所有企業都會收集所有的招聘資訊。收集招聘資訊之後幹什麼呢？電子化，電子化之後幹什麼？用自然語言處理去抽取你的技能，然後評估，評估你的專業技能、評估你的情商、評估你的溝通能力。僅僅用簡歷嗎？當然不是，還會想辦法去看你的社交網路，能夠找到你任何資訊，比如說你在微博上罵人的資訊，那基本上是很糟糕的。

現在美國一個趨勢是做背景調查，都是去你的Twitter和Facebook上看，如果你整天放一些色情暴力的東西，你就慘了，雖然過得了技術面，多半也拿不到工作，而且人家不會告訴你為什麼，人家只是說，“根據我們的背景調查，你不符合我們公司的文化，對不起，不能錄用你。”所以，大家在網上也要謹言慎行，千萬不要以為自己蒙上臉之後別人就不知道你是誰了，千萬不要亂說話。現在在美國做背景調查已經往這個方向發展，中國也很快，就兩三年的事情。最可怕的是，一旦推上去你刪都刪不掉。你以為刪得掉，有各種歷史留痕的網站可以讓你的歷史展現出來。而且最關鍵的是很多公司想盡一切辦法收集這樣的資料，幫助把你從幕後帶到臺前，所以沒有事不要亂罵人，behave yourself是最好的。

我們通過收集簡歷，通過收集所有的資訊，可以找到每個人的能力，不只是你的專業技能，還包括了你自己的領導力、情商這些所有的東西，這涉及到很多自然語言處理的東西，包括簡歷的自動收集、整理這些情況。

第二個是什麼呢？第二類資料就是JD，本身也是一個文件，中間會告訴你有崗位的需求和技能的需求。崗位的需求有對領導力的需求、對溝通能力的需求和對專業技能的需求，這個也可以量化。

有了這兩類資料以後，我們做的是什麼？我們做精準的簡歷分發。我公司有一個崗位，可以根據簡歷資料庫做精準推薦，產生一個列表。我們還可以推薦幾個合適的面試官，可以做到一體化操作。我們還可以讓機器面試，機器給你提幾個問題，也就是所謂的面試機器人，幫助你進入下一關。這是一個自動化的流程，這個自動化流程我們已經做好了，從最早的簡歷收集，簡歷收集完以後自然語言處理，然後再做崗位匹配，匹配完之後再推面試官，是整個環節的流程。我已經提前告訴大家兩年後大家會面臨的情況，很多大公司都會這樣。這是所謂智慧簡歷的定向和推薦。關於面試官還涉及到很多，這個方面不細講了。

讓資料說話：論人才的保留

除了招聘和智慧人才推薦之外，我們現在還做離職預測。現在離職預測非常精準，比如說在系統裡你看到某一個人已經標紅了，標紅是什麼意思？也就是未來三個月他離職的可能性非常大。作為領導，你要考慮的是什麼？你想不想挽留他，如果你想挽留他要做什麼動作，如果你不想挽留他，要想手下哪些個人可以替換他，這是你要考慮的。【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

關於離職預測，具體的特徵、演算法就不好給大家介紹的太多，演算法相對比較簡單，我給大家講一講我設計的思想。做離職預測是一件很難的事情，大家想一想就知道為什麼。因為離職是一個人的動態行為，不是一個靜態行為，不是一天到晚都想著離職，而是某一個事件之後，比如說離職風險曲線，只要把一個人按照時間排出來就是一個動態的曲線，有時候會高、有時候會低。這時候應該怎麼做呢？很多預測都離不開這個基本原理，這個基本原理就是我總結的這個簡單公式，很多動態預測都離不開這個簡單的公式。

我們做預測就考慮兩條，第一是α，第二是β。α就是《易經》中“不易”的東西，也就是最根本的東西。舉個例子，假設我預測深南中路現在這個時間點的交通狀況。最簡單的預測是什麼？今天是週六，現在是週六的11點20分，我預測11點20分週六的交通狀況，最簡單的預測辦法是什麼？把每個週六11點20分交通的狀況拿出來，得一個平均值，這就是簡單的α預測。但是α預測準不準？如果沒有突發事件、沒有黑天鵝，α是很準的，但是這個世界上充滿了不確定性。不確定性下，我們需要動態的預測這個β，難就難在β的預測，α不難預測。β要做到實時資料收集和合理的特徵選擇，只有有限的特徵、才能實時的推這個β。無論做離職預測還是做金融市場的交易分析，還是做其他行業的分析，都離不開這個公式。以前沒有大資料的時候我做不了β的預測，以前只能給你看一看手相，以前做β預測是靠算卦，臨時給你起一卦，看看這個β的方向到底是什麼。絕大多數是α，那些人把情報收集好了，古代人就只能算卦，我起一卦看β往哪裡走，然後把β和α綜合在一起，這個是一個綜合的引數。【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

我們現在跟古代最大的區別是什麼？我們現在不需要依賴於算卦，我們依賴於實時的資料。以前算卦是沒有辦法的辦法，輸入太少了。輸入太少的時候就創造一個輸入，給你人為的製造一卦。這就是古代和現代的最大區別。現在不用算卦了，當你有資料就沒有必要算卦了，什麼資料都不給我的情況下才需要算一卦，幫助我找思想的方向。現在真正要想做好動態預測離不開這兩條，真正難的是預測這個β，如果β預測好了，整個預測都會很準確。

我剛才說了，我們的離職預測非常非常準。我們有2000多個引數，如果不讓我看最後模型中的資料，我都不知道哪個引數最後起的作用最大。每個人的作用是不一樣的，這個人離職可能是因為短期待遇不滿意，這個人離職可能是因為他想追求自己的職業發展，這個人離職可能因為兩地分居的問題，這個人離職可能因為其他的問題，每個人的問題可能都不一樣。我們只有看了這個具體特徵，可以展現出來到底是什麼原因去離職，真正的離職原因往往就是這個β，這是難點。

下面給大家介紹一下我們去年在KDD發的一篇文章。有的時候非常遺憾，我們認為真正非常有價值的東西往往不讓發，很難發出來。不是說很難發出來，是很難被允許發出來。就跟做金融一樣，發出來就沒有價值了，只有不發出來、保留才有價值。這個也蠻有意思，這個問題相對來說是屬於有用的知識。

我們做的事情很簡單，我們做的事情是把所有市場上的招聘廣告全部收下來。我們把所有招聘廣告按照每個公司分門別類的收下來，比如說百度過去一年有1萬個招聘廣告，阿里有1萬個，騰訊有1萬個，每個招聘廣告都是有時間點的，有不同的層級、有不同的時間點，針對不同的工作崗位，你把這些廣告都收集下來。收集下來我們做模型分析，我們分析同一個狀態不同公司不同的需求分佈，又看不同公司招聘主題的分佈，可以分析出來很多有意思的東西，比如說分析出來百度戰略重點發生了重要改變。

當一個企業戰略重點發生改變的時候，它首先需要人。當我有新戰略的時候，舉個例子，現在阿里想做量子計算了，阿里沒有這樣的人，還沒有對外宣傳我要做量子計算，但是我要對外宣佈一定是做了的時候才做宣傳，你要從基本的“不易”的邏輯，我首先沒有這樣的人，就要打這樣的廣告。當一個公司大量要打廣告招量子計算的人的時候，哪怕沒有對外宣佈戰略方向，這也告訴我了他的戰略方向，要不然招那麼多做量子計算的人幹什麼。雖然你沒有宣佈，我也知道你要新成立一個戰略方向，這可以反映出來整個戰略態勢的轉變。

對在座很多學生有好處的是，可以看到整個招聘市場對技能要求的變化，可以看到這個市場上對什麼樣的技能需求發生了重大的改變。這是我們當時的一個Motivation。我們通過整個招聘市場的情況，可以判斷出不同公司對不同崗位、不同技能招聘需求的變化和趨勢。這種變化和趨勢可以幫助我們找到更好的Recruitment，可以幫助找工作的學生，告訴你們怎麼做判斷這些資訊。將來可能有新的工作機會產生，說不定也是一個創業機會，可能有公司幫你潤色一下簡歷，可以保證你通過第一關，要不然第一關都過不去，機器把你淘汰了。

你判斷任何一個公司的戰略變化，有很多方法去判斷，因為我也做投資，我們既然做資料分析就不能跟別人一樣拍腦袋，一定要有自己的邏輯，我們的邏輯無非是資料分析能力，一定要找到合理的資料分析來源，我們可以判斷出來不同公司戰略重點的變化，而且還可以判斷出來不同公司面臨的挑戰。

舉個例子，比如說我發現這個市場上突然很多企業都需要招深度資料分析人才或者AI的人才，我應該怎麼辦？我手裡正好還有一些AI人才，我就擔心了，提前給他們漲薪，提前做一做心理工作，避免被競爭對手挖走，因為市場需求增加了，這是很簡單的可以看到的趨勢性的東西。

從方法而言，我個人感覺，怎麼去聽一個演講？我最喜歡聽的是聽他解決什麼問題，至於具體的方法，我現在聽的很少。具體方法我只要知道他為什麼用這方法和他用這個方法的優點和缺點是什麼就好了，再細節我就不聽了，為什麼？人的精力有限，注意力也有限，我把我的精力和注意力聚焦到我認為重要的部分。為什麼具體的方法不聽呢？第一，這麼短的時間，如果你沒有這部分的方法基礎你也聽不懂；第二，你將來真正用的時候，你已經知道這個方法的優點和缺點，想起來再讀也來得及，我現在只需要知道有什麼方法，它的優點和缺點是什麼，當我面對具體場景的時候可以根據我的索引把這個方法找出來，這樣就行了，這是我個人的體會。

要做到我剛才說的那些事情，還是有很多技術問題要解決，比如說你怎麼看不同的招聘狀態。我們有三個方面，一個是招聘狀態，一個是招聘需求，還有一個是招聘的topic。招聘的topic可以從招聘的過程中產生，你通過這些東西可以判斷一個企業內部招聘的狀態變化和招聘的需求變化。最後，我們最後用Graph模型來解決，抽取出來招聘狀態、招聘狀態、招聘需求和招聘的Topic。

我給大家講一下我們的結果。怎麼去運用我們的結果？資料我已經告訴大家了，我們把市場上所有招聘廣告的資料全部爬下來了。如果大家感興趣，可以給我的學生髮郵件，不用去爬了，我可以讓學生給你們，沒有問題。

我們收集了拉勾網從2014年到2015年的資料，我們現在有很多資料，不只是拉勾網，全世界各種招聘資料我們都收集了。我們去判斷這些招聘狀態，直接給大家講一下這些結果。

比如說，看這個結果怎麼看？這個結果首先可以看到這是一個分層蛋糕圖，主要強調兩條，一個是時間軸，2014年1月份到2015年的11月份，這是中國所有公司招聘人才專業技能的需求變化。淺灰色是什麼？淺灰色具備基本資料分析人才的基本資料人才。深灰色是什麼？深灰色是具備深度資料分析的人才，往往要求有博士學位或者多少年的資料分析的經驗。淺灰色是剛出校門的本科生或者碩士生。其他都是做市場的，我們研究的主要都是高科技公司，沒有研究傳統性公司。

整個招聘市場的需求，對深度資料分析人才的需求，今年的資料我們已經分析出來了，今年這一塊更大，2016年、2017年這一部分更大，包括人工智慧這一部分非常大。這是淺層的資料分析人才，上面是深度的資料分析人才。

這裡顯示不同企業招聘狀態的變化，第一個是百度，第二個是完美世界，包括京東、唯品會、騰訊這些公司。我們看到2015年的末端，無論百度對資料分析人才，阿里今年招了很多資料分析人才，這是2015年的資料。這邊是京東、騰訊、百度、今日頭條，可以看到大家的招聘趨勢，還可以看到公司的戰略變化。

公司的戰略變化，舉個簡單的例子，你看百度，黃色的部分是從2014年到2015年百度招聘的人，招聘的都是屬於移動搜尋的人才，說明百度那個時間的重點在發展移動搜尋、在發展百度地圖。後面招聘的戰略重點在發生改變，他在做無人車，在做各種各樣的人工智慧的東西。看到這個東西，大家會想，跟我有什麼關係？跟你太有關係了。比如說你同樣加入百度，你應該去哪個部門？當然越熱的部門升的越快，工資漲得越高，薪水給的越高。你要看到任何公司戰略重點的變化，當你面臨選擇的時候，你可以選擇更好的方向。而且還可以做投資，你看各種企業的變化，比如說我們最近發現阿里招了不少做量子計算的，可以看到很多阿里量子計算的廣告。一個公司的招聘往往走在戰略宣佈之前，他不用宣佈我也知道他在幹啥，因為逃不過這一關，你得招人，你不能說沒有人就去做一件事情，而且也不可能偷偷招，不告訴大家在招人，那也不行，廣告總是要打給人看的。所以，這是一個很好的方法，可以幫助你挖掘出來企業整個的戰略變化方向。

讓資料說話：員工價值評估

我們做的另外一個工作，對內部員工很多價值的評估。我給學生提個建議，未來你加入到很多企業之後，一定要記住不只是要靠專業技能。我把整個人分成三類：第一類叫做人員，第二類叫做人才，第三類叫做人物。

這三類的區別是什麼？過去的企業，尤其是製造業，比如說很多流水線，用廣東這邊的話說是有很多拉妹，一條邊上坐了很多人，那個叫拉妹，拉妹是人員。人員的基本要求是高效、守紀律，這是過去的企業。人員慢慢會被機器淘汰，現在人員都是做標準化、流程化的事務，所以人員的工資待遇會不斷下降，人員工作機會可能都會喪失。

現在的企業需要什麼？現在的企業需要人才。人才我把它定義成梯子型，首先要有專業的技能，比如說自然語言處理、深度學習演算法用得很熟，我做資料探勘很牛，各種演算法都很懂，那你有一個深度。光有這個還不夠，因為現在的工作越來越複雜化、越來越協同化，所以還要有團隊精神。如果沒有團隊精神，你的技能再厲害也沒有什麼用，企業用不起來你，很難用你。所以首先要深度技能，還要有協同能力。

未來的企業需要什麼？這個變相解釋我為什麼要研究人。未來的企業需要的是人物。過去的企業是人員堆積，現在的企業是人才堆積，未來的企業人物的密度會大量升高。人物是什麼？人物首先必須是人才，必須要有深度的專業技能，必須要有很強的團結協同能力，最關鍵的是人物T字型上面還加了一個腦袋，人物要有領導力。剛才給大家介紹過，領導力是要有看未來的能力、看寬的能力、有帶團隊的能力，有風控意識和風控能力。

我判斷任何一個組織、企業有沒有價值，不管是一級市場還是二級市場，一級市場值不值得我投資，二級市場值不值得我去買股票。我就判斷這個企業中有多少人物去了，在過去幾個月中有多少人物沉澱下來了，千萬別像樂視一樣的，人物進去之後很快就跑了，這個訊號比沒有進去還糟糕。大家知道為什麼嗎？因為人物都是聰明人，不小心掉進一個坑，跑得比誰都快。你要招聘一個人物，要創造一個文化讓這個人物真心留下來。如果這個公司像黑洞一樣，很多過去認識的人物進去之後是一入豪門深似海，再也聽不到了，那這個公司太牛了，我就買它的股票。谷歌就是這樣，很多牛人進去之後再也聽不到了，他也不走了，說明這些人首先認可。不能短期給高工資，原來100萬，我給你200萬，你別走了，但是人家會想，我在這裡成長了嗎？我在這裡拿200萬可以拿多久，如果只能拿一年，還不如趕快找一個地方可以拿150萬，可以拿的時間長一點。我研究這些東西，我現在覺得非常有價值的一條是怎麼預測人物、判斷人物去哪兒了。

讓資料說話：公司的圈子分析

最後簡單說一下，我們去年還發了一篇文章，主要是做公司的圈子分析，這個圈子分析主要做一件事情，就是去判斷各種企業之間這種招聘的相對的圈子。【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

這個圈子的意思是什麼呢？給大家解釋一下就明白了，因為這個世界上說門當戶對是很重要的，什麼是門當戶對？跟談戀愛找朋友一樣，企業也是門當戶對。什麼是企業的門當戶對？舉個例子，BAT招人不會直接從一個很爛的企業去招，他有門檻的。它的門檻是什麼？比如說BAT相互挖人可以接受，他到京東去挖人可以接受，到新美大挖人可以接受，到頭條挖人可以接受，但是一個莫名其妙沒有聽過的公司就不接受了，這就叫圈子。

比如說這個是AOL美國線上的公司。這個圈子怎麼實現的？AOL做媒體的人才是世界一流的。但是它的IT人才很差，IT人才不會有谷歌、Facebook、linkedin的，那些地方付的工資他付不起。如果你是linkedin或者谷歌想跳槽的就不要往這裡投簡歷了，因為他付不起你的工資，也不會招你，但是他會招聘IDG等等這種二線的公司。當一個公司突然招了很多HP的，如果你真的想去這個公司還不如去HP，先去HP再去這個公司就容易了。假設你想去Google，Google直接進進不了，先進微軟，進微軟之後進谷歌就容易了，你可以曲線作戰，直接進Google進不去可以去微軟，微軟離Google還有一點距離。離的最近的是進Facebook，進Facebook之後微軟馬上就要你。頂尖公司的競爭就是這樣的，跟男女生追男女朋友也是一個道理，你去追一個女生，這個女生不搭理你，你去追她的閨密，閨密搭理你了，她就緊張了。這個東西就是一個圈子，如果你真想去Google，一定搞清楚人家招聘的圈子是怎麼回事。所以，這並不是什麼難事情，如果你真想進Google，可以先進Facebook，或者你想進Facebook，進Google也一樣的道理，實在不行就去二線的微軟，去微軟也是有難度的，不是那麼容易。

Q&A

提問：老師您好，《易經》裡面除了這三個原則之外，還有什麼是可以運用到資料分析裡面的？我也有研究過《易經》，但是沒有太深入。

熊輝：要用到的多了，我在自己研究當中還用到一個概念“當位”，當位的概念我用的很多。判斷一個企業、一個組織結構是不是穩定，我就看主要的骨架、承重牆，看那個位置的人是不是當位。任何一個組織像建築物一樣有承重牆，我要觀察在這裡做的人是不是符合這個位置的，如果這些人都是不當位的，那這個組織、這個企業就很難做好。

轉自：人工智慧前沿講習班

這裡有一篇深度強化學習勸退文

【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

今天在學校又雙叒叕提到了 Deep Reinforcement Learning That Matters 這篇打響 DRL（Deep Reinforcement Learning, 深度強化學習）勸退第一槍的文章後，回來以後久違刷了一下推特，看到了這篇爆文 Deep Reinforcement Learning Doesn't Work Yet，或可直譯為深度強化學習還玩不轉或意譯為深度強化學習遠不能即插即玩。

看完以後很多從自己去年七月入坑以來隱隱約約的困惑都得到了解答。讀完大有如不見此文，萬古如長夜之感。心裡激動，一時難以自抑。知乎上深度強化學習的內容比較少，最好的私以為是智慧單元，此外還有許多零散的論文介紹、課程筆記、問答等等，但好像沒人提過這篇文章。這篇文章是我入坑以來看到的深度強化學習方面最好的階段性總結，強烈建議應該作為深度強化學習的第一課，看完以後大家再慎重考慮到底要不要入坑。

先看一下作者的背景。作者叫 Alex Irpan，現為谷歌大腦機器人團隊的軟體工程師。他從伯克利拿到的電腦科學本科學位，本科的時候曾經在伯克利人工智慧實驗室（Berkeley AI Research (BAIR) Lab）進行本科科研，導師是 DRL 大牛 Pieter Abbeel，他還和 John Schulman 工作過。

這篇文章一上來就指出深度強化學習是個大坑。它的成功案例其實很少，但每個都太有名了，例如用 Deep Q Network（DQN）在 Atari games 上用原始畫素圖片作為狀態達到甚至超越人類專家的表現、通過左右互搏（self-play）等方式在圍棋上碾壓人類、大大降低了谷歌能源中心的能耗等等。造成的結果就是沒有從事過深度強化學習的研究人員對它產生了很大的錯覺，高估了它的能力，低估了它的難度。

強化學習本身是一個非常通用的人工智慧正規化，在直覺上讓人覺得非常適合用來模擬各種時序決策任務，如語音、文字類任務。當它和深度神經網路這種只要給我足夠層和足夠多的神經元，可以逼近任何函式的非線性函式近似模型結合在一起感覺要上天啊，無怪乎 DeepMind 經常號稱人工智慧=深度學習+強化學習。

然而 Alex 告訴我們別急，讓我們先來審視一些問題：

1.它的樣本利用率非常低。換言之為了讓模型的表現達到一定高度需要極為大量的訓練樣本。

2.最終表現很多時候不夠好。在很多工上用非強化學習甚至非學習的其它方法，如基於模型的控制（model based control），線性二次型調節器（Linear Quadratic Regulator）等等可以獲得好得多的表現。最氣人的是這些模型很多時候樣本利用率還高。當然這些模型有的時候會有一些假設比如有訓練好的模型可以模仿，比如可以進行蒙特卡洛樹搜尋等等。

3.DRL 成功的關鍵離不開一個好的獎勵函式（reward function），然而這種獎勵函式往往很難設計。在 Deep Reinforcement Learning That Matters 作者提到有時候把獎勵乘以一個常數模型表現就會有天和地的區別。但獎勵函式的坑爹之處還不止如此。獎勵函式的設計需要保證：

加入了合適的先驗，良好的定義了問題和在一切可能狀態下的對應動作。坑爹的是模型很多時候會找到作弊的手段。Alex 舉的一個例子是有一個任務需要把紅色的樂高積木放到藍色的樂高積木上面，獎勵函式的值基於紅色樂高積木底部的高度而定。結果一個模型直接把紅色樂高積木翻了一個底朝天。仔啊，你咋學壞了，阿爸對你很失望啊。
獎勵函式的值太過稀疏。換言之大部分情況下獎勵函式在一個狀態返回的值都是 0。這就和我們人學習也需要鼓勵，學太久都沒什麼回報就容易氣餒。都說 21 世紀是生物的世紀，怎麼我還沒感覺到呢？21 世紀才剛開始呢。我等不到了啊啊啊啊啊。
有的時候在獎勵函式上下太多功夫會引入新的偏見（bias）。
要找到一個大家都使用而又具有好的性質的獎勵函式。這裡Alex沒很深入地討論，但連結了一篇陶神（Terence Tao）的部落格，大家有興趣可以去看下。

4.區域性最優/探索和剝削（exploration vs. exploitation）的不當應用。Alex舉的一個例子是有一個連續控制的環境裡，一個類似馬的四足機器人在跑步，結果模型不小心多看到了馬四腳朝天一頓亂踹後結果較好的情況，於是你只能看到四腳朝天的馬了。

5.對環境的過擬合。DRL 少有在多個環境上玩得轉的。你訓練好的 DQN 在一個 Atari game上work 了，換一個可能就完全不 work。即便你想要做遷移學習，也沒有任何保障你能成功。

6.不穩定性。

讀 DRL 論文的時候會發現有時候作者們會給出一個模型表現隨著嘗試 random seed 數量下降的圖，幾乎所有圖裡模型表現最終都會降到 0。相比之下在監督學習裡不同的超引數或多或少都會表現出訓練帶來的變化，而 DRL 裡運氣不好可能很長時間你模型表現的曲線都沒有任何變化，因為完全不 work。
即便知道了超引數和隨機種子，你的實現只要稍有差別，模型的表現就可以千差萬別。這可能就是 Deep Reinforcement Learning That Matters 一文裡 John Schulman 兩篇不同文章裡同一個演算法在同一個任務上表現截然不同的原因。
即便一切都很順利，從我個人的經驗和之前同某 DRL 研究人員的交流來看只要時間一長你的模型表現就可能突然從很好變成完全不 work。原因我不是完全確定，可能和過擬合和 variance 過大有關。

特別是上述第六點，幾乎是災難性的。作者提到自己實習的時候一開始實現 Normalized Advantage Function (NAF)，為了找出 Theano 本身的 bugs 花了六週，這還是在 NAF 作者就在他旁邊可以供他騷擾的情況下的結果。原因就是DRL的演算法很多時候在沒找好超引數的情況下就是不 work 的，所以你很難判斷自己的程式碼到底有沒有 bug 還是運氣不好。

作者也回顧了 DRL 成功的案例，他認為 DRL 成功的案例其實非常少，大體包括：

各類遊戲：Atari Games, Alpha Go/Alpha Zero/Dota2 1v1/超級馬里奧/日本將棋，其實還應該有 DRL 最早的成功案例，93年的西洋雙陸棋（backgammon）。
DeepMind 的跑酷機器人。
為 Google 的能源中心節能。
Google 的 AutoML。

作者認為從這些案例裡獲得的經驗教訓是 DRL 可能在有以下條件的情況下更可能有好的表現，條件越多越好：

資料獲取非常容易，非常 cheap。
不要急著一上來就攻堅克難，可以從簡化的問題入手。
可以進行左右互搏。
獎勵函式容易定義。
獎勵訊號非常多，反饋及時。

他也指出了一些未來潛在的發展方向和可能性：

區域性最優或許已經足夠好。未來某些研究可能會指出我們不必過於擔心大部分情況下的區域性最優。因為他們比起全域性最優並沒有差很多。
硬體為王。在硬體足夠強的情況下我們或許就不用那麼在乎樣本利用率了，凡事硬剛就可以有足夠好的表現。各種遺傳演算法玩起來。
人為新增一些監督訊號。在環境獎勵出現頻次太低的情況下可以引入自我激勵（intrinsic reward）或者新增一些輔助任務，比如DeepMind就很喜歡這套，之前還寫了一篇 Reinforcement Learning with Unsupervised Auxiliary Tasks（https://arxiv.org/abs/1611.05397）。LeCun 不是嫌蛋糕上的櫻桃太少嗎，讓我們多給他點櫻桃吧！
更多融合基於模型的學習從而提高樣本使用率。這方面的嘗試其實已經有很多了，具體可以去看 Alex 提到的那些工作。但還遠不夠成熟。
僅僅把 DRL 用於 fine-tuning。比如最初 Alpha Go 就是以監督學習為主，以強化學習為輔。
自動學習獎勵函式。這涉及到 inverse reinforcement learning 和 imitation learning。
遷移學習和強化學習的進一步結合。
好的先驗。
有的時候複雜的任務反而更容易學習。Alex 提到的例子是 DeepMind 經常喜歡讓模型學習很多同一環境的變種來減小對環境的過擬合。我覺得這也涉及 curriculum learning，即從簡單的任務開始逐步加深難度。可以說是層層遞進的遷移學習。另外一個可能的解釋是很多時候人覺得困難的任務和機器覺得困難的任務是相反的。比如人覺得倒水很簡單，你讓機器人用學習的路子去學倒水就可以很難。但反過來人覺得下圍棋很簡單而機器學習模型卻在下圍棋上把人擊敗了。

最後 Alex 總體還是非常樂觀的。他說盡管現在有很多困難，使得 DRL 或許還不是一個強壯（robust）到所有人都可以輕易加入的研究領域並且很多時候一些問題用DRL遠沒有監督學習簡單和表現好，但或許過幾年你再回來 DRL 就 work 了也未知啊。這還是很振奮人心的。田淵棟老師也表達過類似的想法，覺得正因為這個領域還不夠成熟所以還有很多機會。他們都是了不起的研究人員。

看到這篇文章我總體是非常激動的。但實話說也有些遺憾，如果去年暑假就有這篇文章的話也許我就會再慎重考慮一下到底要不要在實驗室沒有積累自己又離畢業和申請不遠的情況下開始這樣一個主題了。這是一個教訓，就是開始一個領域前要對這個領域要有充分的瞭解，之前零零散散在網上也有了一點相關的聲音，比如 Karpathy 就提到他在實現 vanilla policy gradient 的時候也遇到了很多困難。

If it makes you feel any better, I’ve been doing this for a while and it took me last ~6 weeks to get a from-scratch policy gradients implementation to work 50% of the time on a bunch of RL problems. And I also have a GPU cluster available to me, and a number of friends I get lunch with every day who’ve been in the area for the last few years.

Also, what we know about good CNN design from supervised learning land doesn’t seem to apply to reinforcement learning land, because you’re mostly bottlenecked by credit assignment / supervision bitrate, not by a lack of a powerful representation. Your ResNets, batchnorms, or very deep networks have no power here.

[Supervised learning] wants to work. Even if you screw something up you’ll usually get something non-random back. RL must be forced to work. If you screw something up or don’t tune something well enough you’re exceedingly likely to get a policy that is even worse than random. And even if it’s all well tuned you’ll get a bad policy 30% of the time, just because.

Long story short your failure is more due to the difficulty of deep RL, and much less due to the difficulty of “designing neural networks”.

來源：https://news.ycombinator.com/item?id=13519044

但我一開始並沒有注意到。其實導師也一直有提到說他覺得我的 project 比較有風險，特別是他覺得現在除了 Berkeley, OpenAI，DeepMind 之外很少有 DRL 做的不錯的實驗室，這本身就表明這個方向可能有一些無形的門檻。現在我覺得這些可能包括計算資源和裝置（機器人），對相關 trick 和坑瞭然於胸的相對資深的研究人員等等。客觀上這些地方的人綜合水平和工程能力也是強的讓人髮指，直接競爭非常困難。雖然我自己比較弱，但這些對於打算進入 DRL 的同學們都需要慎重考慮一下。

最後的最後還是要強推 Alex 的這篇文章，他列的這些點很多 DRL 的研究人員可能已經非常瞭解了，但之前沒有人這樣完整、有組織地介紹一遍。對於想要做 DRL 的同學們來說實在是福音。拙作是看完他文章後第一時間的感想和概括，對於我不夠了解的有些地方就一筆帶過了，或者表述也不夠準確。原文很長，我在對大部分內容比較熟悉的情況下看了一個半小時，但也很有意思，還是強烈推薦。

最後本文可能有些標題黨，並不是真的要完全勸退大家，Alex 的本意是希望大家更加冷靜地看待目前 DRL 研究的進展，避免重複踩坑。評論區裡有提到因為困難才有做的價值，還有機器人、控制論背景的朋友提到他覺得 drl can do anything 如果你有正確的超引數，這些意見也很值得大家參考。

雷鋒網版權文章

【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

人工智慧賽博物理作業系統

AI-CPS OS

“人工智慧賽博物理作業系統”（新一代技術+商業作業系統“AI-CPS OS”：雲端計算+大資料+物聯網+區塊鏈+人工智慧）分支用來的今天，企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中，利用AI-CPS OS形成數字化+智慧化力量，實現行業的重新佈局、企業的重新構建和自我的煥然新生。

AI-CPS OS的真正價值並不來自構成技術或功能，而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務和資料+分析一體化，這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合，沒有顛覆現狀的意願，這些將不可能實現。

領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量，領導者必須在行業、企業與個人這三個層面都保持領先地位：

重新行業佈局：你的世界觀要怎樣改變才算足夠？你必須對行業典範進行怎樣的反思？
重新構建企業：你的企業需要做出什麼樣的變化？你準備如何重新定義你的公司？
重新打造自己：你需要成為怎樣的人？要重塑自己並在數字化+智慧化時代保有領先地位，你必須如何去做？

AI-CPS OS是數字化智慧化創新平臺，設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端，可以幫助企業將創新成果融入自身業務體系，實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的數字化+智慧化力量與行業、企業及個人三個層面的交叉，形成了領導力模式，使數字化融入到領導者所在企業與領導方式的核心位置：

精細：這種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切，進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。
智慧：模型隨著時間（資料）的變化而變化，整個系統就具備了智慧（自學習）的能力。
高效：企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力，這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。
不確定性：數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗，其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域：技術、文化、制度。
邊界模糊：數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化，還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長：

創造虛擬勞動力，承擔需要適應性和敏捷性的複雜任務，即“智慧自動化”，以區別於傳統的自動化解決方案；
對現有勞動力和實物資產進行有利的補充和提升，提高資本效率；
人工智慧的普及，將推動多行業的相關創新，開闢嶄新的經濟增長空間。

給決策制定者和商業領袖的建議：

超越自動化，開啟新創新模式：利用具有自主學習和自我控制能力的動態機器智慧，為企業創造新商機；
迎接新一代資訊科技，迎接人工智慧：無縫整合人類智慧與機器智慧，重新
評估未來的知識和技能型別；
制定道德規範：切實為人工智慧生態系統制定道德準則，並在智慧機器的開
發過程中確定更加明晰的標準和最佳實踐；
重視再分配效應：對人工智慧可能帶來的衝擊做好準備，制定戰略幫助面臨
較高失業風險的人群；
開發數字化+智慧化企業所需新能力：員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說，創造兼具包容性和多樣性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《論語·子路》雲端計算、大資料、物聯網、區塊鏈和人工智慧，像君子一般融合，一起體現科技就是生產力。

如果說上一次哥倫布地理大發現，擴充的是人類的物理空間。那麼這一次地理大發現，擴充的就是人們的數字空間。在數學空間，建立新的商業文明，從而發現新的創富模式，為人類社會帶來新的財富空間。雲端計算，大資料、物聯網和區塊鏈，是進入這個數字空間的船，而人工智慧就是那船上的帆，哥倫布之帆！

新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力，將進一步釋放歷次科技革命和產業變革積蓄的巨大能量，並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節，形成從巨集觀到微觀各領域的智慧化新需求，催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革，深刻改變人類生產生活方式和思維模式，實現社會生產力的整體躍升。

產業智慧官 AI-CPS

用“人工智慧賽博物理作業系統”（新一代技術+商業作業系統“AI-CPS OS”：雲端計算+大資料+物聯網+區塊鏈+人工智慧），在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧；實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈。

【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

長按上方二維碼關注微信公眾號： AI-CPS，更多資訊回覆：

新技術：“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧”；新產業：“智慧製造”、“智慧金融”、“智慧零售”、“智慧駕駛”、“智慧城市”；新模式：“財富空間”、“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”。

官方網站：AI-CPS.NET

本文系“產業智慧官”（公眾號ID：AI-CPS）收集整理，轉載請註明出處！

版權宣告：由產業智慧官（公眾號ID：AI-CPS）推薦的文章，除非確實無法確認，我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題，煩請原作者聯絡我們，與您共同協商解決。聯絡、投稿郵箱：erp_vip@hotmail.com

【人工智慧】Rutgers大學熊輝教授：《易經》如何指導我們做人工智慧；這裡有一篇深度強化學習勸退文

相關文章