機器學習之皮毛

墳刳忍純瓤發表於2021-04-14

  Machine Learning(機器學習)是研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的效能。它是人工智慧的核心,是使計算機具有智慧的根本途徑,其應用遍及人工智慧的各個領域,它主要使用歸納、綜合而不是演譯。

  機器學習是關於理解與研究學習的內在機制、建立能夠透過學習自動提高自身水平的計算機程式的理論方法的學科。近年來機器學習理論在諸多應用領域得到成功的應用與發展,已成為電腦科學的基礎及熱點之一。採用機器學習方法的計算機程式被成功用於機器人下棋程式、語音識別、信用卡欺詐監測、自主車輛駕駛、智慧機器人等應用領域,除此之外機器學習的理論方法還被用於大資料集的資料探勘這一領域。實際上,在任何有經驗可以積累的地方,機器學習方法均可發揮作用。

  學習能力是智慧行為的一個非常重要的特徵,但至今對學習的機理尚不清楚。人們曾對機器學習給出各種定義。H.A.Simon認為,學習是系統所作的適應性變化,使得系統在下一次完成同樣或類似的任務時更為有效。R.s.Michalski認為,學習是構造或修改對於所經歷事物的表示。從事專家系統研製的人們則認為學習是知識的獲取。這些觀點各有側重,第一種觀點強調學習的外部行為效果,第二種則強調學習的內部過程,而第三種主要是從知識工程的實用性角度出發的。

  機器學習在人工智慧的研究中具有十分重要的地位。一個不具有學習能力的智慧系統難以稱得上是一個真正的智慧系統,但是以往的智慧系統都普遍缺少學習的能力。例如,它們遇到錯誤時不能自我校正;不會透過經驗改善自身的效能;不會自動獲取和發現所需要的知識。它們的推理僅限於演繹而缺少歸納,因此至多隻能夠證明已存在事實、定理,而不能發現新的定理、定律和規則等。隨著人工智慧的深入發展,這些侷限性表現得愈加突出。正是在這種情形下,機器學習逐漸成為人工智慧研究的核心之一。它的應用已遍及人工智慧的各個分支,如專家系統、自動推理、自然語言理解、模式識別、計算機視覺、智慧機器人等領域。其中尤其典型的是專家系統中的知識獲取瓶頸問題,人們一直在努力試圖採用機器學習的方法加以克服。

  機器學習的研究是根據生理學、認知科學等對人類學習機理的瞭解,建立人類學習過程的計算模型或認識模型,發展各種學習理論和學習方法,研究通用的學習演算法並進行理論上的分析,建立面向任務的具有特定應用的學習系統。這些研究目標相互影響相互促進。

  機器學習已經有了十分廣泛的應用例如搜尋引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別、戰略遊戲和機器人運用。

  自從1980年在卡內基-梅隆大學召開第一屆機器學術研討會以來,機器學習的研究工作發展很快,已成為中心課題之一。

  目前,機器學習領域的研究工作主要圍繞以下三個方面進行:

  (1)面向任務的研究 研究和分析改進一組預定任務的執行效能的學習系統。

  (2)認知模型 研究人類學習過程並進行計算機模擬。

  (3)理論分析 從理論上探索各種可能的學習方法和獨立於應用領域的演算法。

  機器學習是繼專家系統之後人工智慧應用的又一重要研究領域,也是人工智慧和神經計算的核心研究課題之一。現有的計算機系統和人工智慧系統沒有什麼學習能力,至多也只有非常有限的學習能力,因而不能滿足科技和生產提出的新要求。本章將首先介紹機器學習的定義、意義和簡史,然後討論機器學習的主要策略和基本結構,最後逐一研究各種機器學習的方法與技術,包括機械學習、基於解釋的學習、基於事例的學習、基於概念的學習、類比學習和基於訓練神經網路的學習等。對機器學習的討論和機器學習研究的進展,必將促使人工智慧和整個科學技術的進一步發展 。

  機器學習於1986年進入新階段,重要表現在下列諸方面:

  (1) 機器學習已成為新的邊緣學科並在高校形成一門課程。它綜合應用心理學、生物學和神經生理學以及數學、自動化和電腦科學形成機器學習理論基礎。

  (2) 結合各種學習方法,取長補短的多種形式的整合學習系統研究正在興起。特別是連線學習符號學習的耦合可以更好地解決連續性訊號處理中知識與技能的獲取與求精問題而受到重視。

  (3) 機器學習與人工智慧各種基礎問題的統一性觀點正在形成。例如學習與問題求解結合進行、知識表達便於學習的觀點產生了通用智慧系統SOAR的組塊學習。類比學習與問題求解結合的基於案例方法已成為經驗學習的重要方向。

  (4) 各種學習方法的應用範圍不斷擴大,一部分已形成商品。歸納學習的知識獲取工具已在診斷分型別專家系統中廣泛使用。連線學習在聲圖文識別中佔優勢。分析學習已用於設計綜合型專家系統。遺傳演算法與強化學習在工程控制中有較好的應用前景。與符號系統耦合的神經網路連線學習將在企業的智慧管理與智慧機器人運動規劃中發揮作用。

  (5) 與機器學習有關的學術活動空前活躍。國際上除每年一次的機器學習研討會外,還有計算機學習理論會議以及遺傳演算法會議。

  學習是一項複雜的智慧活動,學習過程與推理過程是緊密相連的,按照學習中使用推理的多少,機器學習所採用的策略大體上可分為4種——機械學習、透過傳授學習、類比學習和透過事例學習。學習中所用的推理越多,系統的能力越強。

  機器學習系統的基本結構。環境向系統的學習部分提供某些資訊,學習部分利用這些資訊修改知識庫,以增進系統執行部分完成任務的效能,執行部分根據知識庫完成任務,同時把獲得的資訊反饋給學習部分。在具體的應用中,環境,知識庫和執行部分決定了具體的工作內容,學習部分所需要解決的問題完全由上述3部分確定。下面我們分別敘述這3部分對設計學習系統的影響。

  影響學習系統設計的最重要的因素是環境向系統提供的資訊。或者更具體地說是資訊的質量。知識庫裡存放的是指導執行部分動作的一般原則,但環境向學習系統提供的資訊卻是各種各樣的。如果資訊的質量比較高,與一般原則的差別比較小,則學習部分比較容易處理。如果向學習系統提供的是雜亂無章的指導執行具體動作的具體資訊,則學習系統需要在獲得足夠資料之後,刪除不必要的細節,進行總結推廣,形成指導動作的一般原則,放入知識庫,這樣學習部分的任務就比較繁重,設計起來也較為困難。

  因為學習系統獲得的資訊往往是不完全的,所以學習系統所進行的推理並不完全是可靠的,它總結出來的規則可能正確,也可能不正確。這要透過執行效果加以檢驗。正確的規則能使系統的效能提高,應予保留;不正確的規則應予修改或從資料庫中刪除。

  知識庫是影響學習系統設計的第二個因素。知識的表示有多種形式,比如特徵向量、一階邏輯語句、產生式規則、語義網路和框架等等。這些表示方式各有其特點,在選擇表示方式時要兼顧以下4個方面:

  (1)表達能力強。(2)易於推理。(3)容易修改知識庫。(4)知識表示易於擴充套件。

  對於知識庫最後需要說明的一個問題是學習系統不能在全然沒有任何知識的情況下憑空獲取知識,每一個學習系統都要求具有某些知識理解環境提供的資訊,分析比較,做出假設,檢驗並修改這些假設。因此,更確切地說,學習系統是對現有知識的擴充套件和改進。

  執行部分是整個學習系統的核心,因為執行部分的動作就是學習部分力求改進的動作。同執行部分有關的問題有3個:複雜性、反饋和透明性。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69920915/viewspace-2767942/,如需轉載,請註明出處,否則將追究法律責任。

相關文章