勁（很）霸（不）酷（好）炫（用）的NLP視覺化包：Dodorio 使用指北

幾塊紅布發表於2023-04-24

原文網址 : https://www.cnblogs.com/LAKan/p/17336902.html

視覺化

朋友們，朋友們，事情是這樣的。最近心血來潮，突然想起很久以前看過的一個NLP視覺化包。它的效果是下面這個樣子：

在此之前，已經有一些文章從論文的角度對這個包進行了介紹，詳情請見

當時我第一眼就被這個包的效果折服了，想著這麼有意思的東西，我高低得去試一試，於是我懷著好奇的心點進了這個專案的github主頁，作者給出的使用介紹很簡單：

首先，複製專案

git clone git@github.com:poloclub/dodrio.git
然後，進入專案目錄，安裝依賴

npm install
最後，直接執行即可

npm run dev

該專案會預設在localhost:5000建立一個本地服務，一旦執行完成且資料無誤，就可以在本地看到上面炫酷的介面。

但事情遠遠沒有那麼簡單，作者提供的模型只能解釋其預先選擇好的模型與資料集，要想真正用到自己的專案上，還需要對專案進行一定程度的客製化。於是大約在一年前，我嘗試按照作者寫在Readme中的方法，嘗試將自己的模型與自己的資料集使用這個包進行視覺化。殊不知，這對於我來說是噩夢的開始。在實驗過程中，我遇到的困難包括且不僅限於以下幾點：

該專案需要安裝許多的依賴包，許多包存在著過期、更新等問題。同時，在本地部署時還會由於網路問題導致許多依賴無法正常安裝。最重要的是，由於該包使用的Transformers版本是3.3.1，Python版本高於3.7將無法正常地安裝與使用。
在遠端伺服器（例如Google Colab）等部署時，就不用擔心出現網路問題導致的安裝依賴失敗，但由於服務是部署在本地，所以還需要使用nagrok、localtunnel等工具進行對映。
在data-generation.py中，除了修改模型與資料集外，一些函式的用法與位置也發生了改變，因此需要自己慢慢摸索與除錯。
... ... ... ...

總之，之前嘗試了很久之後還是沒有結果，遂放棄。但是最近機緣巧合之中又接觸到了這個包，恰逢《灌籃高手》上映，滿腔熱血無處釋放，遂決定與這個磨人的包一教高下。

直言結論，仍然可以使用，並且可以針對本地模型與本地資料集進行客製化，以下列舉除錯過程中的一些重點：

首先確保環境中的Transformers==3.3.1，其次，請pip install umap-learn而不是pip install umap，並在dodrio-data-gen.py的開頭使用import umap.umap_ as umap代替import umap
程式碼中存在大量的從checkpoint中匯入模型，請根據實際需求註釋掉或修改路徑。
在執行dodrio-data-gen.py前，要先在其同級目錄下建立outputs資料夾，同時，在outputs資料夾下建立你的模型名-attention-data資料夾（用來儲存attention權重）
在執行dodrio-data-gen.py時，可能會遇到各種各樣的報錯，對此，耐心尋找原因，都不難改。
成功執行完dodrio-data-gen.py後，會在目錄下生成如下所示的這些檔案：
最重要的是！！！！！！！專案從json檔案中抽取資料時，在多個svelte檔案中預設選擇第1562個元素，但大多數情況下你的資料集中不一定有第1562項，因此你需要去多個檔案中手動修改（當然也可以透過寫config檔案修改，但我是java小白，所以煩請大佬指導）

處理完以上這些步驟，就可以生成基於你自己模型與資料集的炫酷視覺化影像了，效果如下：

## 好了，說了那麼多，如果還是看不懂怎麼辦，這裡附上我自己的傻瓜式教程：

Step 1. 下載專案（或者直接使用遠端伺服器也可以）

git clone git@github.com:poloclub/dodrio.git

Step 2. 安裝依賴

npm install

Step 3. 檢查你的環境

首先，要保證Python版本最好不大於3.7，以便安裝Transformers==3.3.1，然後，安裝一些必要的Python包，缺啥補啥，這個沒什麼好說的，注意要安裝umap-learn而不是umap

Step 4. 進入dodrio資料夾修改data-generation/dodorio-data-gen.py檔案：

首先，line65、line66、line71，line73分別修改你的標籤數量、標籤名、資料集名、要載入的Tokenizer；其次，line876左右，修改你的資料集地址，最好按照原資料集格式對你的資料集進行處理，我是這樣做的：

點選檢視程式碼

dataset_test = load_dataset('seamew/ChnSentiCorp', split='train[:20%]')
dataset_test = dataset_test.rename_columns({"text": "sentence"})
idx = range(len(dataset_test))
dataset_test = dataset_test.add_column("idx", idx)

其次，在dodorio-data-gen.py中，有許多:

點選檢視程式碼

checkpoint = torch.load('./outputs/saved-bert-'  + dataset_name + '.pt')
my_model.load_state_dict(checkpoint['model'])

如果你本地有checkpoint，那麼就改成你自己的地址，如果沒有，就直接註釋掉，程式碼中有較多處，建議直接搜尋並修改。

Step 5. 在執行dodrio-data-gen.py前，要先在其同級目錄下建立outputs資料夾，同時，在outputs資料夾下建立你的模型名-attention-data資料夾（用來儲存attention權重）。到這裡為止，你應該已經成功執行完了dodrio-data-gen.py檔案，那麼你會發現其同級目錄下多出了這些檔案：

然後，將生成的所有檔案以及所有資料夾移到dodrio/public/data下。

Step 6. 然後，最重要的一步，開啟dodrio/Main.svelte，修改檔案中的檔案路徑（與你上一步中生成的檔名稱對應）：

Step 7. 恭喜你到了這一步，接下來，要修改這個粗心作者犯下的錯誤。在專案中，作者將示例檔案的ID固定成了1562，但往往我們使用的樣本並沒有1562這個樣本，於是請你點選進入longest-300-id.json檔案中，檢視你的資料集包含哪些樣本，及其ID為多少，選擇一個你想測試的句子，記住它的ID。這裡我假設想要測試的句子ID為1。、

去github中搜尋所有存在Instence以及1562的欄位，然後將所有的1562替換成1即可。

30套酷炫視覺化大屏模板，不敲程式碼可直接套用，拿走不謝
2021-11-08
視覺化
三個3D視覺化案例：不只酷炫，實用最重要
2021-11-11
3D視覺化
別動不動就畫折線圖了，教你4種酷炫視覺化方法
2020-04-06
視覺化
使用動畫曲線編輯器打造炫酷的3D視覺化ACE
2023-12-14
動畫3D視覺化
怎樣製作出美觀酷炫的視覺化大屏報表？
2020-06-17
視覺化
如何做出酷炫且實用的視覺化大屏？Excel和PPT該淘汰了
2020-11-20
視覺化Excel
炫酷視覺化地圖無需程式碼，只需Smartbi便可完成
2022-06-01
視覺化地圖
那些炫酷高階的視覺化大屏，是如何開發出來的？
2020-12-11
視覺化
40份炫酷視覺化大屏模板，一個程式碼都不敲，半天學不會來找我
2021-09-08
視覺化
不需要Excel的視覺化大屏，究竟可以多炫酷？附20份模板
2021-09-15
Excel視覺化
大屏難做？快把這4張銀行酷炫視覺化大屏收好！
2022-03-14
視覺化
那個“炫酷狂拽”的資料視覺化利器AntV 11.22版全新發布啦
2019-11-27
視覺化
160行程式碼實現動態炫酷的視覺化圖表 - 排行榜
2019-08-19
行程視覺化
Python繪製六種視覺化圖表詳解，三維圖最炫酷！你覺得呢？
2019-02-16
Python視覺化
使用flutter打造炫酷的list
2019-06-13
Flutter
圖撲 3D 視覺化國風設計 | 科技與文化碰撞炫酷”火花“
2022-07-26
3D視覺化
視覺化大屏炫酷高檔，結合智慧樓宇，會變成什麼樣？
2021-04-09
視覺化
神奇濾鏡，打造炫酷視覺效果——Alien Skin Eye Candy 7外掛
2023-05-08
視覺
學會這2招，不用設計師，一樣能做出精美炫酷的視覺化大屏模板
2021-06-25
視覺化
4 款酷炫的終端應用
2018-08-08
用WPF做炫酷的透明窗體
2018-12-23
android炫酷的textview
2018-08-28
AndroidTextView
NLP（十二）依存句法分析的視覺化及圖分析
2019-07-29
視覺化
想要做出酷炫圖表？來看看這5個資料視覺化工具
2022-02-08
視覺化
Kubeapps視覺化管理Helm Chart包
2024-11-29
APP視覺化
用echart玩點好玩的--酷炫熱力圖
2019-03-19
HuggingFace在NLP和計算機視覺中的應用 - Reddit
2022-04-20
計算機視覺
程式設計師必看：13個GitHub開源又炫酷的計算機視覺專案
2021-05-24
程式設計師Github計算機視覺
使用Flutter來完成Uplabs上炫酷的互動
2019-05-12
Flutter
24.Flutter:使用CustomPaint構建酷炫的Widget
2019-03-22
FlutterAI
視覺化大屏用什麼軟體做，用什麼軟體製作視覺化大屏比較好
2023-02-14
視覺化
動手做一個酷炫（並不）的計算器(一）
2018-04-10
動手做一個酷炫（並不）的計算器(二）
2018-04-11
高手 Linux 程式碼炫酷秀（含演示視訊）
2019-01-11
Linux
SVG動畫應用-酷炫的圖片展示效果
2018-12-06
SVG動畫
七款酷炫的 Mac 屏保
2019-03-13
Mac
還在用餅狀圖？來瞧瞧這些炫酷的百分比視覺化新圖形（附程式碼實現）⛵
2022-11-26
視覺化
前端炫酷特效合集
2022-12-18
前端特效

勁（很）霸（不）酷（好）炫（用）的NLP視覺化包：Dodorio 使用指北

## 好了，說了那麼多，如果還是看不懂怎麼辦，這裡附上我自己的傻瓜式教程：

相關文章