人工智慧之殤——AI專案為何屢戰屢敗?

AIBigbull2050發表於2020-01-02
  2020-01-02 17:00:00

全文共 7008字,預計學習時長 21分鐘

人工智慧之殤——AI專案為何屢戰屢敗?

來源:Pexels 人工智慧專案為何會失敗?


時代在進步,科技在發展,人工智慧這項先進技術已經滲透到了人力資源、供應鏈、多層次營銷等各個領域。整體發展前景和態勢似乎很不錯,一片光明。


但,對於開展自己的人工智慧專案,人們的態度通常喜憂參半。


一開始聽到“人工智慧”這個詞,大家一定會覺得很棒,很神奇。的確,人工智慧的“成功故事”常年在坊間流傳,應用人工智慧來提高銷量和營業額的例子也比比皆是。因此,人們可能會認為人工智慧專案成功的機會一定非常多。然而另一方面,人們卻從未想過專案失敗後該怎麼辦?如何來化解風險,避免浪費時間和金錢在某個根本不可行的專案上?諸如此類的問題還有很多,但是面對這些問題我們也並非束手無策,解決的辦法還是有的。


目前,人工智慧專案為何屢屢受挫?


本文將就這一問題展開討論,探究其失敗背後的原因,比如資料不足等因素。


人工智慧之殤——AI專案為何屢戰屢敗?

人工智慧的前景一片光明,對嗎?


人工智慧之殤——AI專案為何屢戰屢敗?

來源:Pexels


然而,文思海輝技術有限公司最近釋出的一項研究表明,近年來約有85%的人工智慧專案都以失敗告終。


這個時候人們可能會說,“放心!我不會失敗的,我將是那成功的15%。”負責任地說,可能會成功,也可能會失敗,畢竟目前一切還尚未可知。現在人們需要做的就是期待最好的結果,並且同時進行策略性思考。總而言之,最重要的就是要提前熟悉相關材料,準備充分,並且謹慎對待每一步。


人工智慧之殤——AI專案為何屢戰屢敗?

失敗的原因千萬種


人工智慧專案失敗的原因有千萬種,即使沒有千萬種也不止一種。


人工智慧給人類帶來了無限可能,當然其中也包括失敗的可能,而且還不少。某個人工智慧專案之所以會失敗,可能是由於資料策略出錯了,業務與技術的對接出了問題,也可能是某些人為因素。當然,除了以上列舉的這些,可能出問題的地方還有很多,筆者並不是為了嚇唬大家。現在,正好趁著新年到來的火熱氣氛,筆者在這裡給各位講個“鬼故事”(讓氣氛更火熱)——人工智慧之殤,是為了提醒大家未來在處理人工智慧時務必多加小心。


切記,未雨綢繆,才能防患於未然。


1.“大資料”不夠“大”


近年來,“大資料”一詞的熱度有增無減,然而,大眾同時也對其抱有種種疑惑。所謂的“大”到底是多“大”呢?又需要多少“資料”呢?的確,“資料”確實是問題的關鍵,這不僅僅體現在資料量的不足上,而且也反映在資料標記和訓練資料等諸多方面。


一個人工智慧系統的成與敗,主要還是取決於輸入資料的質量。因此,如果背後沒有足夠的資料支援,又怎麼能夠得到實質性的結果呢?但具體來說,資料本身到底會出什麼問題呢?


首先,資料不足就是一大問題。如果正在執行一個小型專案,並且相關資料也很有限,則需要提前與經驗豐富的人工智慧顧問或者資料科學家進行商討,從而瞭解自己對資料集的期待以及現狀。那需要多少資料才夠呢?


說實話,這個問題不好回答,因為要視具體情況而定。所需資料量的多少主要取決於使用案例、資料型別,以及預期結果。然而,有時經常會聽到人們說“當然是越多越好了”。反正就資料科學專案而言,的確如此。


人工智慧之殤——AI專案為何屢戰屢敗?

來源:Pexels


2.資料的選擇


雖然有時候的確收集到了很多資料,但是這些資料都是合適的嗎?人們可能會覺得既然所有需要的資料都有了,那專案一定會成功的!


且慢,有時候資料看起來似乎很多,但卻不一定合適。如果你是做電商的,可能有很多關於你的客戶的資訊,比如他們的姓名、住址、發票,甚至還有他們的銀行卡資訊。因此,你知道他們買了什麼,什麼時候買的,也知道他們瀏覽了哪些東西,並且什麼時候通過什麼方式聯絡過你。


但是,這其中哪些資料是必需的呢?簡單來說,解決不同的問題需要不同的資訊。比如,當你要執行一個推薦系統時,就沒必要使用所有的人口資料,反而必須收集客戶的購買記錄。但是,如果要用於預測客戶流失,則需要考慮到其他各種因素。


因此,即使全世界的資料都被你收入囊中(事實上這也是不可能的),也要考慮清楚哪些資料是必需的。的確,很多人都非常樂於瘋狂地收集各種資料,甚至越多越好,但是,其實根本沒有這個必要。總而言之,只選對的,不選多的,因為選得再多也沒意義。


3.資料標記


給人類貼標籤——當然;給資料貼標籤——從不。


在完成某個人工智慧專案時,不僅僅需要資料的存在,而且還需要對資料進行標記,才能使其有意義。如果收集到的資料雜亂無章,人類則需要另外花費一定時間來完成資料標記這項枯燥乏味的工作。資料標記任務的確很無趣且繁瑣,以至於現在很多公司根本不重視這一項原本很重要的工作。資料科學家JenniferPrendki 曾於亞馬遜AWS官方部落格上發表一篇文章,其中寫到:


“雖然房間裡站著一頭如此龐大的大象,但是即使是那些最厲害的科技公司好像有也沒看到它,或者選擇性失明。這頭大象就是資料標記。”


對於許多通過監督學習的方式來進行訓練的機器學習模型來說,資料的標記尤為重要。模型要求資料必須被標記,否則這些資料就沒有任何意義。


由於資料標記工作極其費時費力,因此資料科學家通常會選擇使用已經標記好的現成資料。例如,現如今人們在執行機器視覺專案時,雖然能夠從各個渠道獲取到門類齊全的高質量影像,但是他們通常還是主要選擇ImageNet資料庫。因為ImageNet資料庫是目前最龐大的標記影像資料庫,現存有約1400萬張影像。


現今,人類每天仍然在繼續產生著越來越多的資料。每天上傳到臉書的資料量就高達50兆位元組,而且能生產資料的源頭遠不止臉書一個。可想而知,算上所有這些資料,我們人類已經到達了一個尷尬的境地,即根本沒有這麼多的人手來對資料進行標記。


4.無法完全模仿人類


人工智慧之殤——AI專案為何屢戰屢敗?

來源:Pexels


通常,人們總是期待人工智慧在執行某一智慧任務時的完成水平能媲美人類,甚至比人類還要更好。這樣想也是合情合理的,因為我們都知道,現今人工智慧在越來越多的任務上的表現都優於人類。的確如此,不久前人工智慧甚至還擊敗了圍棋冠軍。然而,就靈活度而言,人工智慧系統仍然遠不及人類的思維。


為了進一步闡述這一點,“智慧推薦”就是一個絕佳例子。假設在某一次創業活動上,你遇到了一個很有趣的人(假設他叫“約翰”)。約翰很喜歡與你交談,並且非常欽佩你那淵博的商業和技術知識。由於他也很想了解這方面的知識,於是他要你給他推薦一本相關書籍。接著,你可能會在你的頭腦中快速檢索相關書目,比如有A、B、C、D、E等等。於是你回答說,“約翰!我知道你應該讀哪本了!你可以讀XX書。”那麼問題來了,你是如何知道應該給約翰推薦哪本書的呢?


實際上,首先你的大腦掃描了目前已經儲存的相關資訊,比如約翰的知識面,他和你談話時的興趣點,以及他的個人風格等資訊。在這個時候,即使你不知道他對書籍的真實喜好,也能根據以上資訊來推薦出最適合的書目,因為你總感覺他會喜歡這本書。的確,人類的感覺常常是準確的。


現在讓我們換個場景,約翰這次“遇到”的是一個人工智慧系統。約翰開啟了一個線上書店網站,於是琳琅滿目的暢銷書立刻呈現在他眼前。但是約翰一直沒有看到自己感興趣的,於是不斷地點選“下一頁”。為什麼會這樣呢?


因為該人工智慧系統並沒有儲存關於約翰的背景資訊。從專業角度來說,這是一種典型的“冷啟動(ColdStart)”案例,在此類情況中,由於系統未儲存約翰的相關資訊,因此也無法生成個性化推薦。然而,當約翰點選搜尋框並輸入“創業”進行搜尋,就會彈出一系列與“創業”相關的書目。於是,約翰在這些搜尋結果中繼續瀏覽查詢。這時,人工智慧系統就會了解到“創業”是約翰感興趣的話題,於是之後將能依據該話題推薦相關內容。


人工智慧系統雖然無法徹底瞭解約翰,但是通過依照其他同樣瀏覽或者購買了“創業”類書籍的使用者,人工智慧系統也能對他們的個人喜好進行分析。但是,如果根本沒有其他人尋找過創業類書籍呢?在這種情況下,約翰將無法得到相關推薦,因為系統沒有獲取到任何相關資料以供學習。


最後,你和人工智慧分別給約翰推薦的書籍可能會有所不同。但是,你們的推薦可能都是對的,也可能都是錯的,或者一個對一個錯。然而,人類的大腦永遠不會抱怨說“資料不足”,並且所有的判斷都是臨時立刻做出的。相比之下,人工智慧卻無法做到這一點。因此作為人工智慧的“主人”,我們人類也不必杞人憂天,因為人工智慧永遠也無法完美復刻複雜的人類大腦。


5.何為人工智慧偏見


人工智慧偏見,或者說演算法偏見,指的是計算機中系統性的、可重複的錯誤,並且該錯誤會帶來不公平的結果,比如表現出性別歧視、種族歧視,或者其他的歧視色彩。雖然從名字上來看,人工智慧歧視好像暗示著人工智慧的錯,然而歸根結底,錯的還是我們人類自己。


谷歌首席決策科學家CassieKozyrkov曾寫到:


“沒有如何一項技術能完全脫離它的創造者而存在。雖然人類在科幻小說中表達出了各種最美好的願景,但是真正獨立自主的機器學習或人工智慧系統是不存在的。因為我們人類是它的締造者,並且所有的技術都或多或少地反映著創造者的目的和意願。”


無論用在什麼地方,人工智慧偏見通常都會產生一定的負面影響。比如,對於計算機視覺、招聘工具等等來說,人工智慧偏見都會讓它們有失公正和道德,甚至違反法律。然而更不幸的地方就在於,這並不是人工智慧的錯,而是我們人類的錯。因為懷有偏見的是人類,散播刻板印象的是人類,害怕異己的也是人類。


所以,為了開發出更加公正負責的人工智慧系統,人類就必須打破個人觀點和信仰的桎梏,從而確保訓練資料庫裡的資料更加豐富多樣且公平合理。這聽起來似乎很簡單,實際上一點也不簡單。但是為了達到這一點,人類的努力絕對值得。


人工智慧之殤——AI專案為何屢戰屢敗?

來源:Pexels


6.演算法 VS. 公正


Joy Boulamwini(以下簡稱喬伊)是麻省理工大學的一名研究員,並牽頭創立了演算法公正聯盟(AlgorithmicJustice League)。2017年,喬伊曾於TED發表一篇關於“演算法偏見”的演講,演講開始就介紹了以下這個軟體實驗,具體內容如下:


“嗨!攝像頭!我有一張臉,你能看到我的臉嗎?沒戴眼鏡哦?既然你已經看到了,那我的臉長什麼樣呢?我再戴個面具,你能看到我的面具嗎?”


最後,攝像頭沒能檢測到喬伊的臉,只看到喬伊的同事和她戴著的白色面具,而非她的臉。實際上,類似結果已經出現不止一次了。當喬伊還在佐治亞理工學院(GeorgiaTech)讀本科的時候,她就在研究社交機器人,並且需要完成一項任務,即“教機器人玩躲貓貓(Peek-a-boo)”。最後,機器人沒能識別出她,因為她“借”了一張室友的臉矇混過關。後來,類似的劇情又一次上演了。在香港舉行的一次創業競賽中,有一家創業公司推出了一款社交機器人。這個機器人使用了同一款面部識別軟體,最後同樣未能成功識別出喬伊。


為什麼會出現這種情況呢?為此,喬伊繼續解釋到:


“電腦視覺利用機器學習技術來進行面部識別。那具體的工作原理是怎樣的呢?首先,需要建立一個關於人臉例項的訓練資料集。這是一張人臉,這也是一張人臉,而這個不是……逐漸地,計算機就會學會如何識別其它人臉。然而,如果訓練資料集所涵蓋的人臉資料不夠豐富,那麼只要出現任何一張與既定標準偏差過大的人臉,計算機就難以對其進行識別。也就是出於這個原因,那個機器人才沒能看到我。”


即便如此,那又有什麼問題呢?人們可能會問。


要知道,如果演算法偏見的影響範圍越來越廣,那麼就不再是面部識別那麼簡單了。的確,以下舉的這個例子過於極端,但其危險性卻仍不容忽視。如果警察利用這樣的軟體來尋找嫌疑犯,面部識別的偏見就可能會將一小部分人置於不利地位,甚至讓他們蒙受不白之冤。要是機器在進行識別的過程中直接出了錯,那後果更不可想象。


既然談到了機器的公正性,那麼就有必要在這裡再提一次COMPAS。其實在之前一篇關於“信任AI”的文章中,筆者已經有描述過COMPAS。COMPAS其實是一個預測演算法,美國用來它來預測某一罪犯再犯的概率,並依此來量刑。


要知道,這樣一個完全依靠歷史資料的演算法,會直接判定黑人罪犯的再犯率更高。


除此之外,亞馬遜也曾推出過一款“臭名昭著”的“AI招聘人員”。結果,這一系統表現出對男性的偏愛,因為大部分的上班族都是男性,所以有這樣一種選擇傾向完全是符合演算法邏輯的。


7.部門高管的不重視


目前,人工智慧的應用面臨著種種挑戰,其中之一就是部門高管的不重視。他們不重視這些新興技術的價值,因此也不願意投資,也可能是你想用人工智慧來“增強(Augment)”的部門對此根本不感興趣。


的確,這也是人之常情。現今,人工智慧仍然被視為一種高風險事物,不僅成本高昂,而且也難以操作和維護。儘管如此,人工智慧的熱度仍然有增無減。實際上,人們應用人工智慧時要用對方法,在初始階段提出一個人工智慧可以解決的商業問題,設計好資料策略,並且記錄好合適的指標和投資回報率。


與此同時,團隊成員這邊也要準備好與人工智慧系統“共事”,並且及時確立起成功和失敗的標準。


大家可能已經注意到了,筆者在上文談及人工智慧的任務時,用的是“增強(Augment)”這個詞。原因很簡單,人工智慧的主要任務是“輔助”人類工作,支援資料驅動決策,而非完全取代人類的工作角色。當然,現在有一些人工智慧專案的確是為了儘可能地實現自動化。但是就普遍情況而言,這並不是人工智慧的“主業”,因為人工智慧主要還是與人類進行合作。


並且研究表明,人類與人工智慧的協作能產生更好的結果。在哈佛商業評論(Harvard Business Review)的一篇文章中,作家詹姆斯•威爾遜(H.James Wilson)與保羅•多爾蒂(Paul R. Daugherty)曾這樣寫到:


“在一項涉及1500家公司的研究中,我們發現,人類在與機器協同工作時,企業產生的效益最高。”


然而作為領導,其在人工智慧專案中的職責在於幫助員工理解為什麼要引進人工智慧技術,並且教授他們如何利用模型來完成任務。如果不這樣,即使再神奇的人工智慧系統也只會淪為一堆毫無意義的數字組合。


為了進一步闡述其重要性,讓我們來看一個引自CIO資訊長雜誌的例子。有一家叫做Mr.Cooper的公司為了改善客戶服務,於是引進了一個對客戶問題提供解答的推薦系統。然而在該系統已經執行9個月之後,該公司發現員工們並沒有使用這個智慧系統。後來又進行了長達6個月的研究,該公司終於發現了其問題所在。最後研究發現,由於訓練資料主要是一些企業內部檔案資料,並且這些檔案對問題的描述充斥著各種專業術語,而普通使用者在描述問題時多使用日常用語,因而這就使得演算法模型無法理解,最後推薦了一些毫不相干的內容。


上文的例子充分展現了員工理解的重要性,他們必須理解為什麼以及如何與人工智慧一起工作,並且有權質疑係統的有效性,必要時上報相關問題。除此之外,這個例子還告訴我們,可靠的訓練資料是多麼的重要啊!


人工智慧之殤——AI專案為何屢戰屢敗?

來源:Pexels


8.“英年早逝”


在真正執行人工智慧專案時,有的人可能還沒開始就已經結束了。


毫不誇張地說,真的可能會出現這種情況。之所以會這樣,是因為人們還沒準備好資料、預算、團隊、策略等各種必需資源,就急於著手開始專案。如果沒有提前準備好這些要素,一切都將化為不切實際的空想。


也正是因為如此,我們才反覆強調策略性方法的重要性。在進行人工智慧專案之前,必須確保自己已經準備好各種要素,尋找合適的商業使用案例,構想出恰當的資料策略並建立目標。如果開始時不思考具體策略,之後的步驟將難以進行,並且風險也會大大增加。


在建立人工智慧專案,尤其是自己的第一個專案時,應設定一個大的總體目標來指引方向,與此同時也應該要有一些階段性目標。


這樣的話,在證明專案可行性的同時,也能夠有效降低失敗的風險,從而避免在一個完全沒有意義的工具上去浪費公司的金錢。在執行第一個人工智慧專案時,不應該立即在整個公司範圍內鋪開使用,反而可以選擇先試驗PoC專案,從而讓整個組織結構提前適應一下這種未來的“新常態”。


隨著時間的推移,整個公司和人工智慧系統都會有一定發展:人工智慧系統會越來越先進,同時公司團隊也會越來越高效,資料驅動性亦會隨之提高。


在專案過程中,如果人們能逐步完成階段性目標,並且時刻把握住總體目標和大方向,那麼互利共贏將是必然結果。總而言之,人工智慧只是人類用來達到自己目標的工具,而非目標本身。


人工智慧之殤——AI專案為何屢戰屢敗?

如何避免失敗


當然,失敗也不是不可避免的。


既然現在已經有那麼多的組織在人工智慧上失敗過,我們就可以從他們的錯誤中吸取經驗,從而避免自己的公司再重蹈覆轍。


此外,我們還應該遵循市場規律,切忌侷限於眼前的競爭,並且放眼於整個科技世界。只有這樣,我們才能設定符合實際的目標,找到有發展前景的使用案例,並且及時發現自身的侷限性。


人工智慧之殤——AI專案為何屢戰屢敗?

來源:Pexels


人類的願景,指導和投入最終成為人工智慧專案成功的重要組成部分。既然堅定了人工智慧這條路,就請一直堅持到最後,相信終有一天可以實現“屢戰屢勝”的完美大局。



https://www.toutiao.com/i6777018959519547908/



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2671701/,如需轉載,請註明出處,否則將追究法律責任。

相關文章