決策邊界視覺化,讓你的分類合理有序
作者——Navoneel Chakrabarty
在資料科學領域,分類問題是一個非常普遍和重要的問題。例如:糖尿病視網膜病變、情緒分析、數字識別、癌症型別預測(惡性或良性)等。這些問題往往通過機器學習或深度學習來解決。像糖尿病視網膜病變或青光眼檢測這樣的專案中,紋理分析經常被使用,而不是傳統的影像處理或深度學習等。雖然根據研究論文,深度學習在處理糖尿病視網膜病變方面有著極強的優越性。
補充:紋理分析指通過一定的提取出紋理特徵引數,從而獲得紋理的定量或定性描述的處理過程·紋理分析方法按其性質而言,可分為兩大類:統計分析方法和結構分析方法。紋理分析在遙感影像、 X、細胞和處理方面有廣泛的應用。關於紋理,還沒有一個統一的數學模型。它起源於表徵紡織品表面性質的紋理概念,可以用來描述任何物質組成成分的排列情況,例如醫學上X 射線照片中的、血管紋理、航天(或航空)地形照片中的巖性紋理等。影像處理中的視覺紋理通常理解為某種基本模式(色調基元)的重複排列。
現在,我們再回到主題。相關研究論文如下:
"糖尿病視網膜病變檢測的深度學習方法"連結:https://ieeexplore.ieee.org/document/8596839
在分類問題中,一個特定類的預測往往要涉及多個類。換句話說,它還可以以這樣一種方式構建:將特定例項(特徵空間幾何中的資料點)儲存在特定區域下(某一類),並且與其他區域分離(其他類)。這種與其他區域的分離的"現象"我們稱之為決策邊界的視覺化。在特徵空間中決策邊界的視覺化是在散點圖上完成的。其中每個點表示資料集的一個資料點,軸線表示特徵。決策邊界將資料點劃分為多個區域,這些區域就是(我前面所談及的)資料點所屬的類。
決策邊界的重要性/意義:
在使用資料集訓練機器學習模型之後,我們通常需要視覺化特徵空間中資料點的類。散點圖上的決策邊界就是出於這個目的。而散點圖更是包含著屬於不同類別的資料點(用顏色或形狀表示),決策邊界可以通過多種不同的策略繪製:
單線決策邊界:在散點圖上繪製決策邊界的基本策略是找到一條將資料點分隔成不同類區域的單線。現在,利用訓練過的模型找到與機器學習演算法相關的引數,進而找到這條直線。然後利用得到的引數和機器學習演算法找到直線座標。如果你不知道ML演算法的工作原理,那麼你將無法繼續進行下去。
基於輪廓的決策邊界:另一種策略是繪製輪廓,這些輪廓是用匹配或緊密匹配的顏色包圍資料點的區域——描繪資料點所屬的類,以及描繪預測類的輪廓。這是最常用的策略,因為它不使用模型訓練後得到的機器學習演算法的引數和相關計算。但另一方面,我們並不能很好地用一條直線來分離資料點,也就是說這條直線只能通過訓練後得到的引數及其座標計算得到。
單線決策邊界的範例演練:
在這裡,我將演示基於邏輯迴歸的機器學習模型的單線決策邊界。
進入邏輯迴歸假設
其中z被定義為:
theta_1、theta_2 theta_3,....其中,theta_n為邏輯迴歸的引數,x_1、x_2、…、x_n為特徵。
因此,h(z)是一個Sigmoid函式,其範圍是從0到1(包括0和1)。
在繪製決策邊界時,取h(z) = Logistic迴歸中使用的閾值,通常為0.5。即:
然後:
現在,在繪製決策邊界時,需要考慮兩個特徵,並沿散點圖的x軸和y軸繪製。所以,
也就是說
其中x_1是資料集的原始特徵
因此,得到2個x ' _1的值以及2個相應的x ' _2的值。x ' _1是單線決策邊界的x極值,x ' _2是單線決策邊界的y極值。
在虛構資料集上的應用:
該資料集包含100名學生在2次考試中獲得的分數和標籤(1,0),該標籤指示該學生是否將被大學錄取(用1和0表示)。相關資料集連結:https://github.com/navoneel1092283/logistic_regression.git
問題陳述:"根據在兩次考試中獲得的分數,用邏輯迴歸預測該學生是否會被大學錄取。"
在這裡,兩門考試的分數將是考慮的兩個特徵。
下面是具體的實現方法:
相關連結:https://hackernoon.com/logistic-regression-in-python-from-scratch-954c0196d258
對資料集進行邏輯迴歸:
得到(引數)向量,
獲取資料點的預測或預測類:
繪製單線決策邊界:
得到單線決策邊界
這樣,任何基於邏輯迴歸的機器學習模型都可以繪製出單線決策邊界。對於基於其他機器學習演算法的模型而言,則必須知道相應的假設等等。
基於輪廓的決策邊界的範例演練:
利用剛才的資料集和訓練模型,繪製基於輪廓的決策邊界。
得到基於輪廓的決策邊界,其中黃色->允許,藍色->不允許
這種方法顯然更方便,因為機器學習演算法不需要假設,也不需要數學。所需要的只是高階Python程式設計的訣竅。
因此,它是繪製任意機器學習模型決策邊界的一種通用方法。
在現實生活中和一些高階專案中,都會涉及到許多特徵。那麼,如何在二維散點圖中繪製決策邊界呢?
面對這種情況,我認為有多種解決辦法:
1.利用隨機森林分類器等給特徵進行重要性評分,得到2個最重要的特徵,然後在散點圖上繪製決策邊界。
2.主成分分析(PCA)或線性判別分析(LDA)等降維技術可用於將N個特徵嵌入到2個特徵中,從而將N個特徵的資訊解釋或減少為2個特徵(n_components = 2)。然後再基於這兩個特徵在散點圖上繪製決策邊界。
這就是決策邊界視覺化。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545819/viewspace-2564384/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 視覺化學習:利用向量判斷多邊形邊界視覺化
- 「影像分類」 實戰影像分類網路的視覺化視覺化
- 視覺化影像處理 | 視覺化訓練器 | 影像分類視覺化
- 分類——決策樹模型模型
- 機器學習西瓜書吃瓜筆記之(二)決策樹分類 附一鍵生成決策樹&視覺化python程式碼實現機器學習筆記視覺化Python
- 直播遊戲的合理使用與侵權邊界在哪?遊戲
- uml類圖中類版型區分--邊界類,控制類,實體類
- 二分查詢左邊界,右邊界,>=,>,<=,<
- 掌握Python庫的Bokeh,就能讓你的互動炫目視覺化Python視覺化
- 獲獎的資料視覺化示例 讓人視覺震撼視覺化
- CNN視覺化技術總結(三)--類視覺化CNN視覺化
- 實體類,邊界類和控制類
- 關於視覺化程式設計分類的民間智慧 – drossbucket視覺化程式設計ROS
- 一學就會!快來領取你的Smartbi資料視覺化圖表分類指南視覺化
- 不要讓“追求完美”阻礙你做決策
- 智慧公交視覺化大屏決策管理系統助力城市交通視覺化
- 【二分】【邊界判定】
- 乾貨|手把手教導!3分鐘讓你快速入門地圖視覺化地圖視覺化
- 分類演算法-決策樹 Decision Tree演算法
- tig — 讓 git 命令列視覺化Git命令列視覺化
- 無邊界網路的劃分建立
- 視覺化的linux工具,讓運維更高效視覺化Linux運維
- 【機器學習】實現層面 決策樹 並用graphviz視覺化樹機器學習視覺化
- 智慧城市交通大屏視覺化決策雲平臺 助力城市文明交通視覺化
- Maya 2024:塑造奇幻領域,視覺創新無邊界 mac/win版視覺Mac
- 劃分微服務邊界的5個特徵微服務特徵
- 情指一體化資訊化建設解決方案,警務視覺化輔助決策系統開發視覺化
- 大屏視覺化知多少?3分鐘帶你快速瞭解視覺化
- 數字孿生流域GIS智慧水利Web3D視覺化決策系統Web3D視覺化
- $\Beta$分佈推導與視覺化視覺化
- DRF類檢視讓你的程式碼DRY起來
- 計算機視覺經典任務分類計算機視覺
- 突破渠道價值邊界, OPPO 遊戲分品類精細化運營助力長效增長遊戲
- 資料驅動決策,視覺化推動傳統電力發展革命史?視覺化
- 在平時開發的時候,你有考慮過邊界問題嗎?說說你對邊界的理解!
- 說說你對自我認識邊界的理解
- 業務視覺化-讓你的流程圖"Run"起來(2.問題與改進)視覺化流程圖
- 左邊分類和右邊導航的關係