原文傳送門:機器學習全解
據Gartner公司預測,到2020年,包括機器學習在內的人工智慧(AI)技術幾乎將在所有新的軟體產品和服務中普及。那麼什麼是機器學習?它與人工智慧有什麼關係?技術專業人員應該知道哪些潛在的好處和挑戰?
什麼是機器學習?
有史以來,第一個使用“機器學習”這個詞的人可能是亞瑟·塞繆爾(Arthur Samuel),他開發了第一批用於玩跳棋的計算機程式。1959年,他將機器學習定義為“計算機未被明確程式設計的學習能力”的技術。其他電腦科學家隨後也提出了更多的機器學習數學定義,但塞繆爾的定義仍然是其中最準確和最容易理解的。
機器學習是人工智慧的一個子集,是電腦科學的一部分,專注於創造具有人類思維方式的計算機。換句話說,所有機器學習系統都是人工智慧系統系統,但並不是所有人工智慧系統都具有機器學習能力。 機器學習可以劃分為下面幾個部分
複製程式碼
** 監督學習 ** 需要程式設計師提供輸入樣本以及輸入樣本的標籤。例如,如果您想用監督學習教計算機識別貓的照片,你可以給它提供一大堆影像,有些被標記為“貓”,有些被標記為“不是貓”。機器學習演算法將幫助系統學習概念的概括,這樣就可以使計算機在新的影像中識別是否有貓。
**無監督學習 **要求系統根據給定的資料集得到分類的方法。例如,如果您有大量的線上銷售資料,則可以使用無監督學習找到歷年銷售資料的相關性,來提高銷售業績。例如,你可能會發現,20世紀80年代初出生的女性,如果她們收入超過5萬美元,就會很有可能喜愛某一品牌的巧克力棒;或者購買某種品牌的蘇打水的人也會購買某種品牌的薯片。
** 半監督學習** 正如你可能猜到的那樣,是有監督學習和無監督學習的結合。回到貓的例子,想象你有大量的圖片,其中一些圖片被標記為“貓”和“不是貓”,還有一些沒有標記。一個半監督的學習系統就可以使用標記的影像進行學習,然後猜測哪些未標記的影像包括貓。接著最好的猜測會被反饋到系統中來幫助它提高能力,然後這個迴圈會繼續下去。
強化學習 類似於一個懲罰和獎勵的系統。強化學習的一個經典例子是賭徒用老虎機賭 博。起初,賭 徒不知道哪個老虎機會有回報或者回報有多少,所以他把所有的老虎機都試了一遍。隨著時間的推移,他發現一些老虎機的賠率更高。然後,賭徒就會在賠率高的老虎機投入更多的時間和本錢來贏更多的錢。
機器學習應用例項
各行業的機構機器學習。在某些情況下,軟體供應商已經將機器學習納入用於特定目的的工具中,而在其他情況下,使用者已經可以根據自己的需要,來調整通用機器學習應用程式。
該技術的一些最常見的應用場景包括:
欺詐檢測 - 銀行和信用卡髮卡機構是最早使用機器學習的機構之一。他們經常使用這項技術來識別可能是欺詐的交易。如果您的信用卡髮卡機構打電話給您,詢問您最近是否進行了特定的購買,那麼該公司可能會使用機器學習功能在您的帳戶上標記可疑交易。
推薦引擎 - 亞馬遜和Netflix等公司使用的線上推薦引擎是機器學習最常見的例子之一。使用從數百萬購物者和使用者收集的資料,機器學習系統能夠根據您過去的購物或收看習慣預測您可能喜歡的物品。
搜尋 - 谷歌,微軟必應和其他搜尋引擎使用機器學習,以逐分鐘的方式提高搜尋引擎的能力。他們可以分析有關使用者點選哪些連結以回應查詢的資料,來改善搜尋結果。他們還使用機器學習來提高自然語言處理的能力,併為某些問題提供具體的答案。
視訊監控 - 機器學習可以使人臉識別系統的能力一直提高。在某些情況下,這些系統可以識別已知的犯罪分子,或者可以識別超出規範或違反法律的行為或活動。 手寫識別 - 美國郵政服務已經有使用機器學習來訓練識別手寫地址的系統。
自然語言處理 - 今天,我們大多數人理所當然地認為像Siri,Cortana或Google Assistant這樣的個人助理,可以理解語音請求並回答問題。隨著時間的推移,這些工具使用機器學習來提高他們識別、理解和處理口頭輸入的能力。
客戶服務機器人 - 自動代理商可以使用自然語言處理和客戶服務資料回答常見問題,並隨著時間的推移提高答案的質量。
IT安全 - 當今許多最先進的IT安全解決方案(如使用者和實體行為分析(UEBA)工具)都使用機器學習演算法來識別潛在的攻擊。在UEBA的情況下,機器學習建立了用於檢測異常情況的“正常”行為的基線,使組織能夠識別和減輕零日威脅。
流媒體分析 - 在當今全天候世界中,社交媒體饋送和線上銷售交易等大量資料不斷更新。組織使用機器學習來實時發現洞察或識別潛在的問題。
預測性維護 - 物聯網(IoT)提供了許多潛在的機器學習用例,包括預測性維護。企業可以使用歷史裝置資料預測機器可能發生故障的時間,使其能夠在影響業務或工廠執行之前主動進行維修或安裝更換部件。
異常檢測 - 就像機器學習可以識別IT系統中的異常行為一樣,它也可以檢測製成品或食品中的異常情況。工廠可以使用經過訓練的機器學習系統來識別不符合標準或規格的物品,而不是用視察員來檢查貨物。
需求預測 - 在許多行業中,將適量的產品投放到正確的位置對於商業成功至關重要。機器學習系統可以使用歷史資料比人類能夠更準確,更快地預測銷售。
物流 - 對於運輸公司來說,設定時間表和路線是一件複雜而費時的工作。機器學習系統可幫助確定從A點到B點獲得貨物或人員的最有效和最具成本效益的方法。
金融交易 - 每個交易者都希望在市場上找到能讓他們低買高賣的模式,機器學習演算法可以幫助識別基於過去的市場活動的潛在機會。
醫療診斷 - 許多專家預測機器學習診斷工具將與人類專業人員一起工作,以確定疾病並確定最有效的治療過程。計算機系統可能特別擅長檢測各種掃描中的異常情況和發現罕見疾病。
無人駕駛 – 無人駕駛是機器學習最引人注目的應用之一。在不遠的將來,能夠自行駕駛的車輛可能成為常態。
機器人 - 雖然他們一直是科幻小說的主角,但有機器學習能力的機器人很快就會成為日常生活的一部分。
這些機器人將能夠隨著時間的推移提高他們的能力,使他們變得對人類更有用。
複製程式碼
機器學習的好處
上面描述的許多用例可以由人或軟體來處理,而不需要機器學習功能。然而,機器學習技術為這些替代方案提供了幾個好處:
速度 人類可以建立模型,輸入資料並自行執行預測分析所需的計算。然而,人類(或使用不具有人工智慧功能的軟體的人類)可能需要幾天,幾周甚至幾個月才能完成。但是機器學習工具可以在幾秒,幾分鐘或幾小時內完成的任務。
準確性 速度使得機器學習系統能夠利用大量的資料和更多的模型。因此,人工智慧系統比某些任務的人員要好得多,比如預測分析。然而,在其他領域,如語音識別或影像識別,計算機系統仍然沒有達到與人類相同的準確度。
效率和成本節省 機器學習軟體並不便宜,事實上,在某些情況下,它可能非常昂貴。然而,使用軟體來自動執行一項繁瑣的工作比聘用幾十或幾百人完成同樣的任務要經濟得多。
複製程式碼
機器學習的挑戰
雖然機器學習具有很大的潛力,並已經變得越來越常見,但該領域仍然面臨著來自於一些技術、機構、哲學方面的挑戰。
人才稀缺 - 企業經常需要資料科學家來操作他們的機器學習系統,而擁有這些技能的員工也成為最受追捧的物件。他們的薪水是科技行業中最高的,近年來平均薪酬一直在快速上漲。然而,資料顯示,隨著供應商推出具有自助服務功能的機器學習軟體,使得非資料科學家可以使用它,人才稀缺的問題可能會得到緩解。
缺乏資料驅動的文化 - 雖然大多數高管都明白資料驅動的決策和機器學習技術的潛在好處,但讓大企業的每個人改變自己的思維和行為往往是一個漫長而緩慢的過程。機器學習倡導者在嘗試推廣技術時經常遇到內部障礙。
資料質量較差 - 如果提供模型的資料不準確,世界上最好的人工智慧系統也無法得到好的結果。許多研究機構發現,在充分利用機器學習軟體之前,他們需要改進資料清理和資料管理流程。
資料整合 - 在許多組織中,資料仍駐留在孤島應用程式和儲存解決方案中。將所有不同的資料饋送到機器學習系統中可能會帶來挑戰,但是供應商正在用可接受各種資料型別和格式的解決方案來解決這個問題。
資料安全性 – 一方面有限制資料訪問的需要,另一方面又有使用資料提供機器學習系統的需求,在這兩種需求中取得平衡可能會比較麻煩。一些組織可能需要更新他們的策略,或使用加密或匿名資料的機器學習工具。
基礎設施要求 - 先進的機器學習系統可在多個快速CPU和GPU的硬體上執行,並且這種執行結果很好。另外,為了將資料從儲存移動到應用程式,它們需要大量的儲存空間和適當的網路功能。
道德上的兩難困境 - 人工智慧越來越像人類,但缺乏道德意識,和考慮到大多數人的決策。例如,當微軟釋出了一個名為Tay的社交媒體機器人,它具有機器學習能力時,很快就學會了說不適當的和令人反感的東西。有專家呼籲科技公司要確保人工智慧系統遵循嚴格的道德規範,防止他們犯罪,危害人類甚至消滅人類。
恐懼 - 許多人發現通用的人工智慧或機器學習特別令人不安。他們擔心電腦會接管他們的工作,這是有道理的。 Forrester預測,到2025年,機器人,人工智慧(AI),機器學習和自動化等認知技術將取代美國7%的就業機會。包括特斯拉和SpaceX執行長伊隆·馬斯克(Elon Musk)在內的其他人擔心機器學習會對人類構成生存威脅。無論這些恐懼是否有根有據,如果想要體驗機器學習的潛在好處,就必須找到一種方法來處理這些恐懼。
複製程式碼
更多精彩內容請關注 極智慧-專業人工智慧社群
極智慧是一個助力AI開發者成長的社群。在這裡,你可以與他人一起學習和分享人工智慧相關知識與技術,包括程式語言、數學基礎、機器學習及其相關技術框架等。社群當前主要提供文章分享、話題探討和學習資源分享等功能,內容涉及機器學習,深度學習,自然語言處理,語音識別,機器視覺,機器人等領域。