機器學習和資料探勘的推薦書單

天才白痴夢發表於2015-10-26

有了這些書,再也不愁下了班沒妹紙該咋辦了。慢慢來,認真學,揭開機器學習和資料探勘這一神祕的面紗吧!

機器學習實戰》:本書第一部分主要介紹機器學習基礎,以及如何利用演算法進行分類,並逐步介紹了多種經典的監督學習演算法,如k近鄰演算法、樸素貝葉斯演算法、Logistic迴歸演算法、支援向量機、AdaBoost整合方法、基於樹的迴歸演算法和分類迴歸樹(CART)演算法等。第三部分則重點介紹無監督學習及其一些主要演算法:k均值聚類演算法、Apriori演算法、FP-Growth演算法。第四部分介紹了機器學習演算法的一些附屬工具。

全書通過精心編排的例項,切入日常工作任務,摒棄學術化語言,利用高效的可複用Python程式碼來闡釋如何處理統計資料,進行資料分析及視覺化。通過各種例項,讀者可從中學會機器學習的核心演算法,並能將其運用於一些策略性任務中,如分類、預測、推薦。另外,還可用它們來實現一些更高階的功能,如彙總和簡化等。

之前看過一部分這本書,但是實習工作涉及到用Java程式碼處理資料,所以暫時先擱一下,目前正在李航的那本書。

資料探勘-實用機器學習技術》:本書介紹資料探勘的基本理論與實踐方法。主要內容包括:各種模型(決策樹,關聯規則、線性模型、聚類、貝葉斯網以及神經網路)以及在實踐中的運用,所存任缺陷的分析。安全地清理資料集、建立以及評估模型的預測質量的方法,並且提供了一個公開的資料探勘工作平臺Weka。Weka系統擁有進行資料探勘仟務的圖形使用者介面,有助於理解模型,是一個實用並且深受歡迎的工具。

資料探勘:概念與技術》:本書全面地講述資料探勘領域的重要知識和技術創新。在第1版內容相當全面的基礎上,第2版展示了該領域的最新研究成果,例如挖掘流、時序和序列資料以及挖掘時間空間、多媒體、文字和Web資料。本書可作為資料探勘和知識發現領域的教師、研究人員和開發人員的一本必讀書。

《統計學習基礎 資料探勘、推理與預測》:儘管應用的是統計學方法,但強調的是概念,而不是數學。許多例子附以彩圖。《統計學習基礎:資料探勘、推理與預測》內容廣泛,從有指導的學習(預測)到無指導的學習,應有盡有。包括神經網路、支援向量機、分類樹和提升等主題,是同類書籍中介紹得最全面的。計算和資訊科技的飛速發展帶來了醫學、生物學、財經和營銷等諸多領域的海量資料。理解這些資料是一種挑戰,這導致了統計學領域新工具的發展,並延伸到諸如資料探勘、機器學習和生物資訊學等新領域。

機器學習》(Mitchell):展示了機器學習中核心的演算法和理論,並闡明瞭演算法的執行過程。《機器學習》綜合了許多的研究成果,例如統計學、人工智慧、哲學、資訊理論、生物學、認知科學、計算複雜性和控制論等,並以此來理解問題的背景、演算法和其中的隱含假定。《機器學習》可作為計算機專業 本科生、研究生教材,也可作為相關領域研究人員、教師的參考書。

統計學習方法》:本書全面系統地介紹了統計學習的主要方法,特別是監督學習方法,包括感知機、k近鄰法、樸素貝葉斯法、決策樹、邏輯斯諦迴歸與最大熵模型、支援向量機、提升方法、em演算法、隱馬爾可夫模型和條件隨機場等。除第1章概論和最後一章總結外,每章介紹一種方法。敘述從具體問題或例項入手,由淺入深,闡明思路,給出必要的數學推導,便於讀者掌握統計學習方法的實質,學會運用。為滿足讀者進一步學習的需要,書中還介紹了一些相關研究,給出了少量習題,列出了主要參考文獻。

機器學習導論》:對機器學習的定義和應用例項進行了介紹,涵蓋了監督學習。貝葉斯決策理論。引數方法、多元方法、維度歸約、聚類、非引數方法、決策樹。線性判別式、多層感知器,區域性模型、隱馬爾可夫模型。分類演算法評估和比較,組合多學習器以及增強學習等。

《機器學習及其應用》:全書共分14章,內容分別涉及因果推斷、流形學習與降維、遷移學習、類別不平衡學習、演化聚類、多標記學習、排序學習、半監督學習等技術和協同過濾、社群推薦、機器翻譯等應用,以及網際網路應用對機器學習技術需求的探討。

模式分類》第二版:除了保留了第1版的關於統計模式識別和結構模式識別的主要內容以外,讀者將會發現新增了許多近25年來的新理論和新方法,其中包括神經網路、機器學習、資料探勘、進化計算、不變數理論、隱馬爾可夫模型、統計學習理論和支援向量機等。

推薦系統實踐》:過大量程式碼和圖表全面系統地闡述了和推薦系統有關的理論基礎,介紹了評價推薦系統優劣的各種標準(比如覆蓋率、滿意度)和方法(比如AB測試),總結了當今網際網路領域中各種和推薦有關的產品和服務。

《深入搜尋引擎:海量資訊的壓縮、索引和查詢》:理論和實踐並重,深入淺出地給出了海量資訊資料處理的整套解決方案,包括壓縮、索引和查詢的方方面面。其最大的特色在於不僅僅滿足資訊檢索理論學習的需要,更重要的是給出了實踐中可能面對的各種問題及其解決方法。

概率論與數理統計》:這本書不用過多介紹了吧,普遍大學裡大一時期的教科書,只恨當年沒聽課啊,現在正在慢慢啃。。。

大資料:網際網路大規模資料探勘與分散式處理》:主要內容包括分散式檔案系統、相似性搜尋、搜尋引擎技術、頻繁項集挖掘、聚類演算法、廣告管理及推薦系統。

Web資料探勘》:資訊檢索領域的書籍,該書深入講解了從大量非結構化Web資料中提取和產生知識的技術。書中首先論述了Web的基礎(包括Web資訊採集機制、Web標引機制以及基於關鍵字或基於相似性搜尋機制),然後系統地描述了Web挖掘的基礎知識,著重介紹基於超文字的機器學習和資料探勘方法,如聚類、協同過濾、監督學習、半監督學習,最後講述了這些基本原理在Web挖掘中的應用。《Web資料探勘》為讀者提供了堅實的技術背景和最新的知識。

資料之巔》:對大資料追根溯源,提出當前資訊科技的發展,已經讓中國獲得了後發優勢,中國要在大資料時代的全球競爭中勝出,必須把大資料從科技符號提升成為文化符號,在全社會倡導資料文化。

深入淺出統計學》:本書涵蓋的知識點包括:資訊視覺化、概率計算、幾何分佈、二項分佈及泊松分佈、正態分佈、統計抽樣、置信區間的構建、假設檢驗、卡方分佈、相關與迴歸等等,完整涵蓋AP考試範圍。

矩陣分析》:本書從數學分析的角度論述矩陣分析的經典方法和現代方法,取材新,有一定的深度,並給出在多元微積分、複分析、微分方程、量優化、逼近理論中的許多重要應用。主要內容包括:特徵值、特徵向量和相似性,酉等價和正規矩陣,標準形,Hermite矩陣和對稱矩陣,向量範數和矩陣範數,特徵值和估計和擾動,正定矩陣,非負矩陣。

相關文章