「AI白身境」深度學習中的資料視覺化

dicksonjyl560101發表於2019-05-24

原文網址 : http://blog.itpub.net/29829936/viewspace-2645377/

AI深度學習視覺化

https://www.toutiao.com/a6694017372015034892/

今天是新專欄《AI白身境》的第八篇，所謂白身，就是什麼都不會，還沒有進入角色。

上一節我們已經講述瞭如何用爬蟲爬取資料，那爬取完資料之後就應該是進行處理了，一個很常用的手段是資料視覺化。

通過資料視覺化，可以更加直觀地表徵資料，在深度學習專案中，常需要的資料視覺化操作包括原始圖片資料的視覺化，損失和精度的視覺化等。

作者 | 言有三臧小滿

編輯 | 言有三

01 什麼是資料視覺化？

每每提到資料視覺化，大家腦中可能會浮現很各種圖表、西裝革履的分析師、科幻大片中酷炫的儀表。

其實不用那麼複雜，資料視覺化早就融合進你我的生活，地鐵線路圖、公交時刻表，天氣預報中的氣象地圖等都是很常見的。

為什麼要進行視覺化？

因為人是視覺動物，對於影像的敏感度要比對純數字的敏感度高的多。

人類對影像的處理速度比文字快6萬倍，同時人類右腦記憶影像的速度比左腦記憶抽象文字快100萬倍。資料視覺化正是利用人類天生技能來增強資料處理和組織效率。

舉個簡單的例子，計劃買一套房產作為投資, 想要了解“去年上海房價哪裡漲幅最大”，現以圖作答, 把去年的增長率體現在圖上，以20%作為分界, 增長超過20%的標紅色, 超過越多則越大, 不足的標記成藍色, 如下圖，可以很快get到哪個區域的大幅度漲幅。

視覺化將數字抽象成了更方便我們觀察和感受的圖表，因此需要熟悉使用。

02 低維資料視覺化

資料有不同的維度，我們最常接觸的就是一維，二維的資料，在機器學習任務中，包括損失函式等統計指標。

2.1 散點圖

散點圖，常用於分析離散資料的分佈。比如我們有一個資料集，裡面的圖片有不同的大小，我們可以利用x，y軸分別對應圖片的寬高，從而畫出圖片尺度的空間分佈情況。越密集的地方，說明該尺度型別的圖越多，如下圖所示。

2.2 折線圖

折線圖是用於分析變數隨另一個變數的變化關係，我們平常接觸最多的loss曲線圖，accuracy曲線圖就是這一種，可以看指標隨著訓練過程的變化判斷收斂情況，從而推測模型訓練的好壞，折線圖被廣泛應用於各類分析，如下圖所示。

2.3 直方圖，餅狀圖

這兩種圖，都常用於統計資料的分佈比例以及響應幅度，比如一幅圖片的亮度分佈情況，不同網路層的引數量，計算時間代價。

這幾種圖，適合對有時序變化的一維向量，有統計分佈的一維向量，或者二維影像的尺度等資訊進行視覺化。

03 高維資料視覺化

在機器學習任務中，資料通常是用成百上千維的向量表示，而超過3維的向量，就已經超過了人類的視覺化認知，因此通常需要對資料進行降維。

資料降維方法可以分為線性方法和非線性方法。其中線性方法包括PCA和LDA，而非線性方法有保留區域性特徵、基於全域性特徵等方法，以t-SNE為代表。下面我們主要介紹PCA和t-SNE方法。

3.1 PCA降維

PCA，全稱是Principal components analysis，這是一種分析、簡化資料集的技術。PCA常用於減少資料集的維數，同時保持資料集中對方差貢獻最大的特徵，原理是保留低階主成分，忽略高階主成分，因為低階成分保留了資料最多的資訊。

假定X是原始資料，Y是降維後的資料，W是變換矩陣，Y=XW。假如我們需要降到3 維以便於我們視覺化，那就取Y的前三個主成分作為原始屬性X的代表。

我們採用Google開源的網頁版資料視覺化工具Embedding Projector來進行視覺化，連結如下：

http://projector.tensorflow.org/

選擇MNIST作為視覺化例子，它的原始維度為10000×784，即10000張28×28的影像。

利用這個工具我們進行PCA的視覺化，降低到3個維度後，我們可以選擇某個數字進行視覺化。下圖就是數字9的分佈，可以看到，總共有1009個樣本，資料的分佈在物理空間上具有一定的聚類特性。

還可以用不同的顏色檢視全體資料的分佈，從這裡可以更好的看出不同類的分佈規律。

3.2 t-SNE降維

SNE全稱是Stochastic Neighbor Embedding，它將資料點之間高維的歐氏距離轉換為表示相似度的條件概率，目標是將高維資料對映到低維後，儘量保持資料點之間的空間結構，從而那些在高維空間裡距離較遠的點，在低維空間中依然保持較遠的距離。

t-SNE即t-distributed stochastic neighbor embedding，t-SNE用聯合概率分佈替代了SNE中的條件概率分佈，解決了SNE的不對稱問題。通過引入t分佈，解決了同類別之間簇的擁擠問題。

t-SNE方法實質上是一種聚類的方法，對於一個空間中的點，周圍的其他點都是它的“鄰居”，方法就是要試圖使所有點具有相同數量的“鄰居”。

t-SNE經過學習收斂後，通過投影到2維或者3維的空間中可以判斷一個資料集有沒有很好的可分性，即是否同類之間間隔小，異類之間間隔大。如果在低維空間中具有可分性，則資料是可分的，如果不具有可分性，可能是資料不可分，也可能僅僅是因為不能投影到低維空間。

下圖是t-SNE視覺化結果圖，可以看出，數字都有很明顯的聚類效果。

在進行一個機器學習任務之前，通過視覺化來對資料集進行更深刻的認識，有助於預估任務的難度，在遇到困難後也會更加容易找到解決方案。

04 python資料視覺化專案

考慮到python是第一大機器學習程式語言，同時開源專案居多，所以我們只關心python相關的工具，而且python也基本可以滿足需求。

視覺化的專案太多了，下面基於python和GitHub的資料，隨便推薦幾款。

1. tensorboard和tensorboardX，想必不需要多做介紹，後者大家可能不熟悉，被開發用來支援chainer, mxnet, numpy，4000+star。

https://github.com/lanpa/tensorboardX

2. visdom，支援numpy和torch的工具，常用於pytorch資料視覺化，很強大，5000+star。

https://github.com/facebookresearch/visdom

3. seaborn：一款基於matplotlib的工具，簡單來說，就是有更高的API，畫出的圖也好看，5000+star，主要處理低維資料。

https://github.com/mwaskom/seaborn

4. holoviews：很酷炫的工具，與season差不多，1000+star。

https://github.com/ioam/holoviews

5. missingno：一款缺失資料視覺化工具，非常適合分析資料集的完整性，1000+star。

https://github.com/ResidentMario/missingno

就這麼多，以後再集中講視覺化工具。

總結

資料視覺化抽象了資料本身真正的價值，熟練掌握視覺化對於分析資料的特徵和深度學習模型的效能是必要的技能。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/29829936/viewspace-2645377/，如需轉載，請註明出處，否則將追究法律責任。

【Tensorflow_DL_Note3】深度學習中的資料處理及其視覺化
2018-04-17
深度學習視覺化
「深度學習系列」CNN模型的視覺化
2019-08-27
深度學習CNN模型視覺化
深度學習（視覺化卷積核）
2024-10-02
深度學習視覺化卷積
計算機視覺中的深度學習
2021-09-09
計算機視覺深度學習
視覺化中的資料
2019-02-27
視覺化
資料視覺化Seaborn從零開始學習教程（三）資料分佈視覺化篇
2019-03-01
視覺化
機器視覺軟體中的深度學習技術
2018-04-26
視覺深度學習
（在模仿中精進資料視覺化03）OD資料的特殊視覺化方式
2020-10-18
視覺化
中國大學排名資料分析與視覺化
2024-05-29
視覺化
深度學習在視覺搜尋和匹配中的應用
2020-09-27
深度學習視覺
Flutter中的資料視覺化charts家族
2019-12-27
Flutter視覺化
【Python學習教程】常用的Python資料視覺化庫彙總！
2021-10-26
Python視覺化
【Python學習教程】常用的8個Python資料視覺化庫！
2021-10-27
Python視覺化
資料視覺化的秘密
2020-02-06
視覺化
資料視覺化的作用
2020-12-11
視覺化
從零開始學習時空資料視覺化（序）
2019-02-25
視覺化
深度強化學習資料（視訊+PPT+PDF下載）
2018-06-22
強化學習
Echarts檢視視覺化-學習筆記(努力更新中)
2020-12-25
Echarts視覺化筆記
計算機視覺與深度學習公司
2020-04-06
計算機視覺深度學習
計算機視覺2-> 深度學習 | anaconda+cuda+pytorch環境配置
2022-01-14
計算機視覺深度學習PyTorch
無需重新學習，使用 Kibana 查詢/視覺化 SLS 資料
2024-05-22
視覺化
資料視覺化【十五】
2020-10-14
視覺化
資料看板視覺化
2022-12-15
視覺化
Matlab資料視覺化
2021-04-08
Matlab視覺化
（資料科學學習手札64）在jupyter notebook中利用kepler.gl進行空間資料視覺化
2019-07-06
資料科學視覺化
從零開始學機器學習——準備和視覺化資料
2024-09-27
機器學習視覺化
資料視覺化的藝術
2018-05-22
視覺化
資料視覺化的基本原理——視覺通道
2019-03-03
視覺化
Python資料科學（八）- 資料探索與資料視覺化
2019-03-02
Python資料科學視覺化
27 張 AI 速查手冊！涵蓋神經網路、機器學習、資料視覺化等
2019-04-29
AI神經網路機器學習視覺化
資料視覺化基本原理——視覺化模型
2019-03-01
視覺化模型
DKHadoop大資料視覺化平臺監控功能深度解析
2019-01-14
Hadoop大資料視覺化
Django 視覺化Web展示學習
2018-07-20
Django視覺化Web
視覺化學習：圖形系統中的顏色表示
2023-12-28
視覺化
視覺化學習：WebGL的基礎使用
2023-12-07
視覺化Web
史丹佛—深度學習和計算機視覺
2020-04-06
深度學習計算機視覺
深度學習在計算機視覺各項任務中的應用
2019-01-23
深度學習計算機視覺
資料視覺化如何選擇合適的視覺化圖表？
2022-11-30
視覺化

「AI白身境」深度學習中的資料視覺化

01 什麼是資料視覺化？

02 低維資料視覺化

03 高維資料視覺化

04 python資料視覺化專案

總結

相關文章