機器學習、資料探勘及其他

broadviewbj發表於2011-08-19

機器學習、資料探勘及其他

在本書中,我們不斷地提及“智慧”,到底什麼是“智慧”?我們說的是人工智慧嗎?或者是機器學習?它跟資料探勘和軟計算有什麼關係?在學術界,對於本書中所介紹的內容的精確定義也已經爭論了好幾年。從實踐的角度看,這些概念並沒有實質性的區別,更多的是指應用環境的不同。本書融合了上述所有領域的精華,讓我們逐個來看看吧。

以其首字母縮寫AI而廣為人知的人工智慧是一個起源於20世紀50年代的計算領域。最初,AI的目標是極具野心的,試圖開發出能像人類一樣思考的機器(Russell and Norvig, 2002; Buchanan, 2005)。隨著時間的推移,目標變得更加可行和具體。遙不可及的目標不得不屈服於殘酷的現實,但是我們之前提及的很多領域都源自人工智慧,比如機器學習、資料探勘、軟計算等。

現在,即使是最先進的計算智慧系統也無法理解四歲小孩所閱讀的小故事。所以,如果我們無法讓計算機“思考”,是否能讓計算機“學習”呢?可以教會計算機根據動物的特徵來判斷物種嗎?識別不良的次級房貸呢?更復雜的事情,諸如語音識別並用自然語言答覆,計算機能做到嗎?所有這些問題的答案都是肯定的。然而你有可能會好奇,“這些問題到底說明了什麼?”。解決上面這些問題,一個最簡單的方法就是在計算機中構建一個龐大的資料表,把所有可能的問題的答案都存放在裡面,然後在回答問題時只需在表中搜尋現成的答案即可。

當然,這個查詢資料表的方法是可行的,但其中也有一些問題。首先,在實際的產品系統中,包含所有問題和答案的表肯定是非常大的。所以,從效率的角度考慮,這肯定不是一個最優的解決方案。其次,如果資料庫中沒有某個問題的答案,就無法給出回答,如果真有使用者問這些問題,你就只能用“敏感詞”來搪塞他了。最後,還必須安排人來構建和維護這個查詢表,而且隨著表的增長,所需的人數也會不斷增長,這估計會讓公司的財務部門比較惱火。所以,查詢表並不是一個好辦法,我們需要更好的解決方案。

機器學習指的是軟體系統能從已有的經驗中抽象出普遍的規則,然後利用這些規則回答各種問題,包括曾經遇到過的和不曾見過的。有些演算法對於人類是透明的,意思就是說,人類可以理解演算法所抽象出來的規則。透明演算法的典型例子有決策樹,以及所有基於規則的學習方法。還有一類演算法對人類是不透明的,例如,神經網路和支援向量機(SVM)就屬於這一類演算法。

時刻要記住,跟人類智慧一樣,機器智慧也是不可靠的。在智慧應用領域,你將學會如何處理不確定性和模糊性。就像真實世界一樣,所有問題的答案都有一個可信度,而不是絕對可靠的。雖然在我們的日常生活中,我們總是簡單地假設某些事情是一定會發生的。正因為如此,在使用智慧應用時,我們需要解決可信度、有效性以及錯誤代價等方面的問題。

 機器學習、資料探勘及其他

本文節選自《智慧WEB演算法》一書。

圖書詳細資訊:http://space.itpub.net/?uid-13164110-action-viewspace-itemid-705377

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/13164110/viewspace-705379/,如需轉載,請註明出處,否則將追究法律責任。

相關文章