大資料————決策樹(decision tree)
決策樹(decision tree):是一種基本的分類與迴歸方法,主要討論分類的決策樹。
在分類問題中,表示基於特徵對例項進行分類的過程,可以認為是if-then的集合,也可以認為是定義在特徵空間與類空間上的條件機率分佈。
決策樹通常有三個步驟:特徵選擇、決策樹的生成、決策樹的修剪。
用決策樹分類:從根節點開始,對例項的某一特徵進行測試,根據測試結果將例項分配到其子節點,此時每個子節點對應著該特徵的一個取值,如此遞迴的對例項進行測試並分配,直到到達葉節點,最後將例項分到葉節點的類中。
決策樹學習的目標:根據給定的訓練資料集構建一個決策樹模型,使它能夠對例項進行正確的分類。
決策樹學習的本質:從訓練集中歸納出一組分類規則,或者說是由訓練資料集估計條件機率模型。
決策樹學習的損失函式:正則化的極大似然函式
決策樹學習的測試:最小化損失函式
決策樹學習的目標:在損失函式的意義下,選擇最優決策樹的問題。
資料探勘中決策樹是一種經常要用到的技術,可以用於分析資料,同樣也可以用來作預測。一個決策樹包含三種型別的節點:
決策節點:通常用矩形框來表示
機會節點:通常用圓圈來表示
終結點:通常用三角形來表示
剪枝是決策樹停止分支的方法之一,剪枝有分預先剪枝和後剪枝兩種。預先剪枝是在樹的生長過程中設定一個指標,當達到該指標時就停止生長,這樣做容易產生“視界侷限”,就是一旦停止分支,使得節點N成為葉節點,就斷絕了其後繼節點進行“好”的分支操作的任何可能性。不嚴格的說這些已停止的分支會誤導學習演算法,導致產生的樹不純度降差最大的地方過分靠近根節點。後剪枝中樹首先要充分生長,直到葉節點都有最小的不純度值為止,因而可以克服“視界侷限”。然後對所有相鄰的成對葉節點考慮是否消去它們,如果消去能引起令人滿意的不純度增長,那麼執行消去,並令它們的公共父節點成為新的葉節點。這種“合併”葉節點的做法和節點分支的過程恰好相反,經過剪枝後葉節點常常會分佈在很寬的層次上,樹也變得非平衡。後剪枝技術的優點是克服了“視界侷限”效應,而且無需保留部分樣本用於交叉驗證,所以可以充分利用全部訓練集的資訊。但後剪枝的計算量代價比預剪枝方法大得多,特別是在大樣本集中,不過對於小樣本的情況,後剪枝方法還是優於預剪枝方法的。
大資料知識點:
一、大資料概述:1.大資料及特點分析;2.大資料關健技術;3.大資料計算模式;4.大資料應用例項
二、大資料處理架構Hadoop:1.Hadoop專案結構;2.Hadoop安裝與使用;3.Hadoop叢集的部署與使用;4.Hadoop 代表性元件
三、分散式檔案系統HDFS :1.HDFS體系結構;2.HDFS儲存;3.HDFS資料讀寫過程
四、分散式資料庫HBase :1.HBase訪問介面;2.HBase資料型別;3.HBase實現原理;4.HBase執行機制;5.HBase應用
五、MapReduce :1.MapReduce體系結構;2.MapReduce工作流程;3.資源管理排程框架YARN ;4.MapReduce應用
六、Spark :1.Spark生態與執行架構;2.Spark SQL;3.Spark部署與應用方式
七、IPython Notebook執行Python Spark程式:1.Anaconda;2.IPython Notebook使用Spark;3.使用IPython Notebook在Hadoop YARN模式執行
八、Python Spark整合開發環境 :1.Python Spark整合開發環境部署配置;2.Spark資料分析庫MLlib的開發部署
九、Python Spark決策樹二分類與多分類 :1.決策樹原理;2.大資料問題;3.決策樹二分類;4.決策樹多分類
十、Python Spark支援向量機 :1.支援向量機SVM 原理與演算法;2.Python Spark SVM程式設計
十一、Python Spark 貝葉斯模型 :1.樸素貝葉斯模型原理;2.Python Spark貝葉斯模型程式設計
十二、Python Spark邏輯迴歸 :1.邏輯迴歸原理;2.Python Spark邏輯迴歸程式設計
十三、Python Spark迴歸分析 :1.大資料分析;2.資料集介紹;3.Python Spark迴歸程式設計
十四、Spark ML Pipeline 機器學習流程分類 :1.機器學習流程元件:StringIndexer、OneHotEncoder、VectorAssembler等
2.使用Spark ML Pipeline 機器學習流程分類程式設計
十五、Python Spark 建立推薦引擎 :1.推薦演算法;2.推薦引擎大資料分析使用場景;3.推薦引擎設計
十六、專案實踐:1.日誌分析系統與日誌挖掘專案實踐;2.推薦系統專案實踐
學習和關注人工智慧技術與諮詢,更多詳情可諮詢175-3102-1189(v同號)。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70021344/viewspace-2919306/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Decision tree——決策樹
- 決策樹(Decision Tree)
- 分類演算法-決策樹 Decision Tree演算法
- 機器學習之 決策樹(Decision Tree)python實現機器學習Python
- 人工智慧之機器學習基礎——決策樹(Decision Tree)人工智慧機器學習
- Decision Tree
- 機器學習演算法系列(十七)-決策樹學習演算法(Decision Tree Learning Algorithm)機器學習演算法Go
- 決策支援系統(Decision Support System,DSS)
- Machine Learning (10) - Decision TreeMac
- 『資料結構』樹(Tree)資料結構
- 決策樹
- 決策樹模型(3)決策樹的生成與剪枝模型
- js資料結構--樹(tree)JS資料結構
- 決策樹示例
- 大資料如何助力企業決策?大資料
- 4. 決策樹
- Python機器學習:決策樹001什麼是決策樹Python機器學習
- 機器學習演算法系列(二十)-梯度提升決策樹演算法(Gradient Boosted Decision Trees / GBDT)機器學習演算法梯度
- 分類——決策樹模型模型
- 決策樹演算法演算法
- ML《決策樹(三)CART》
- 大資料、厚資料與富資料如何支援業務決策? - Dave大資料
- 22國學者在南京探討“群決策”:大資料將助力高效決策大資料
- 機器學習:決策樹機器學習
- 關於決策樹的理解
- 決策樹學習總結
- 決策樹和隨機森林隨機森林
- [史丹佛大學2014機器學習教程筆記]第六章-決策界限(decision boundary)機器學習筆記
- Machine Learning (11) - 關於 Decision Tree 的小練習Mac
- 資料驅動決策:決策智慧與設計思維
- 決策樹模型(2)特徵選擇模型特徵
- 機器學習——決策樹模型機器學習模型
- 機器學習之決策樹機器學習
- ML《決策樹(一)ID3》
- ML《決策樹(二)C4.5》
- 【Python機器學習實戰】決策樹和整合學習(二)——決策樹的實現Python機器學習
- iview Tree資料格式問題,無限遞迴樹處理資料View遞迴
- 02決策樹-初識與構建