Python 短文字自動識別個體是否有自殺傾向

pythondict發表於2019-11-10

原文網址 : https://learnku.com/articles/36236

上一篇文章，我們以微博樹洞為例，講解了怎麼自動爬取單個微博的評論。今天我們就要用上這些資料做一個自殺傾向分類器，這樣的分類器如果應用得當，將可以幫助成千上萬誤入歧途的人們挽回生命。

為了簡化問題，我們將短文字分為兩種類別中的一種，即要麼是正常微博、要麼是自殺傾向微博。這樣，有了上次的微博樹洞，訓練集和測試集就非常好獲得了。由於是短文字二分類問題，可以使用scikit-learn的SVM分類模型。

不過要注意的是，我們的分類器並不能保證分類出來的結果百分百正確，畢竟心理狀態是很難通過文字準確識別出來的，我們只能通過文字，大致判斷其抑鬱情況並加以介入。實際上這是一個寧可錯殺一百，不可放過一個的問題。畢竟放過一個，可能就有一條生命悄然流逝。

本文原始碼： https://github.com/Ckend/suicide-detect-sv... 歡迎一同改進這個專案，在訓練集和模型方面，改進的空間還相當大。如果你訪問不了github，請關注文章最下方公眾號，回覆自殺傾向檢測獲得本專案完整原始碼。

資料集整體上分兩個部分，一部分是訓練集、一部分是測試集。其中，訓練集和測試集中還要分為正常微博短文字和自殺傾向短文字。

將上一篇爬取微博樹洞的文章中得到的資料進行人工篩選後，挑出300條作為訓練集（有點少，其實業界至少也要3000條以上），再根據上次的微博爬蟲隨意爬取10000條微博作為訓練集的正常微博類。另外再分別蒐集自殺傾向微博和普通微博各50條作為測試集。

每條微博按行儲存在txt檔案裡。訓練集中，正常微博命名為normal.txt, 自殺傾向微博命名為die.txt。測試集存放在字尾為_test.txt的檔案中：

Python 短文字自動識別個體是否有自殺傾向

此外，接下來我們會使用到一個機器學習工具包叫scikit-learn(sklearn)，其打包好了許多機器學習模型和預處理的方法，方便我們構建分類器，在CMD/Terminal輸入以下命令安裝：

pip install -U scikit-learn

如果你還沒有安裝Python，請看這篇文章安裝Python，然後再執行上述命令安裝sklearn.

我們使用一個典型的中文自然語言預處理方法：對文字使用結巴分詞後將其數字化。

由於具有自殺傾向的微博中，其實類似於"死"、"不想活"、"我走了"等這樣的詞語比較常見，因此我們可以用TF-IDF將字串數字化。如果你不瞭解TF-IDF，請看這篇文章：文字處理之 tf-idf 演算法及其實踐

數字化的部分程式碼如下。

print('(2) doc to var...')
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer

# CountVectorizer考慮每種詞彙在該訓練文字中出現的頻率，得到計數矩陣
count_v0= CountVectorizer(analyzer='word',token_pattern='\w{1,}')
counts_all = count_v0.fit_transform(all_text)

count_v1= CountVectorizer(vocabulary=count_v0.vocabulary_)
counts_train = count_v1.fit_transform(train_texts) 
print("the shape of train is "+repr(counts_train.shape)  )
count_v2 = CountVectorizer(vocabulary=count_v0.vocabulary_)
counts_test = count_v2.fit_transform(test_texts)
print("the shape of test is "+repr(counts_test.shape)  )

# 儲存數字化後的詞典
joblib.dump(count_v0.vocabulary_, "model/die_svm_20191110_vocab.m")

counts_all = count_v2.fit_transform(all_text)
print("the shape of all is "+repr(counts_all.shape))

# 將計數矩陣轉換為規格化的tf-idf格式
tfidftransformer = TfidfTransformer()  
train_data = tfidftransformer.fit(counts_train).transform(counts_train)
test_data = tfidftransformer.fit(counts_test).transform(counts_test)
all_data = tfidftransformer.fit(counts_all).transform(counts_all)

使用scikit-learn的SVM分類模型，我們能很快滴訓練並構建出一個分類器：

print('(3) SVM...')
from sklearn.svm import SVC

# 使用線性核函式的SVM分類器，並啟用概率估計（分別顯示分到兩個類別的概率如：[0.12983359 0.87016641]）
svclf = SVC(kernel = 'linear', probability=True) 

# 開始訓練
svclf.fit(x_train,y_train)
# 儲存模型
joblib.dump(svclf, "model/die_svm_20191110.m")

這裡我們忽略了SVM原理的講述，SVM的原理可以參考這篇文章：支援向量機（SVM）——原理篇

測試的時候，我們要分別計算模型對兩個類別的分類精確率和召回率。scikit-learn提供了一個非常好用的函式classification_report來計算它們：

# 測試集進行測試
preds = svclf.predict(x_test)
y_preds = svclf.predict_proba(x_test)

preds = preds.tolist()
for i,pred in enumerate(preds):
    # 顯示被分錯的微博
    if int(pred) != int(y_test[i]):
        try:
            print(origin_eval_text[i], ':', test_texts[i], pred, y_test[i], y_preds[i])
        except Exception as e:
            print(e)

# 分別檢視兩個類別的準確率、召回率和F1值
print(classification_report(y_test, preds))

結果：

Python 短文字自動識別個體是否有自殺傾向

對自殺傾向微博的分類精確率為100%，但是查全率不夠，它只找到了50條裡的60%，也就是30條自殺傾向微博。

對於正常微博的分類，其精確率為71%，也就是說有部分正常微博被分類為自殺傾向微博，不過其查全率為100%，也就是不存在不被分類的正常微博。

這是建立在訓練集還不夠多的情況下的結果。我們的自殺傾向微博的資料僅僅才300條，這是遠遠不夠的，如果能增加到3000條，相信結果會改進不少，尤其是對於自殺傾向微博的查全率有很大的幫助。預估最終該模型的精確率和召回率至少能達到95%。

本文原始碼： https://github.com/Ckend/suicide-detect-sv... 歡迎一同改進這個專案。如果你訪問不了github，請關注文章最下方公眾號，回覆自殺傾向檢測獲得本專案完整原始碼。

如果你喜歡今天的Python 教程，請持續關注Python實用寶典，如果對你有幫助，麻煩在下面點一個贊/在看哦有任何問題都可以在下方留言區留言，我們會耐心解答的！

Python 短文字自動識別個體是否有自殺傾向

自動識別是否穿著工作服
2024-10-01
論一個自毀傾向社群的形成
2019-07-11
hanlp中文智慧分詞自動識別文字提取例項
2018-11-30
HanLP分詞
BIM自動識別三維地圖-Revit模型自動識別三維地圖-IFC模型自動識別三維地圖製作
2022-04-14
地圖模型
python自動製作gif並新增文字
2018-05-29
Python
【終極指南】使用Python視覺化分析文字情感傾向
2024-05-28
Python視覺化
NVO.US：研究顯示諾和諾德司美格魯肽與自殺傾向關聯
2024-08-21
手把手教你 python 人臉識別自動開機
2020-04-24
Python
API智慧識別平臺，API介面自動識別
2022-03-24
API
自動識別Android不合理的記憶體分配
2020-04-06
Android記憶體
Nginx 同一個域名自動識別 pc h5
2020-12-22
NginxH5
12306自動搶票及自動識別驗證碼功能（二）
2019-01-10
短視訊直播原始碼，自動對上傳的圖片進行識別
2022-02-24
原始碼
appium server 是否有這樣的功能，自動註冊
2020-06-13
APPServer
【python介面自動化】初識unittest框架
2021-05-31
Python框架
短影片好做嗎？學會自媒體短影片製作需要哪些知識？
2020-09-01
自動化測試與軟體測試有什麼區別？Python入門教程
2021-09-03
Python
判斷一個有向圖是否有環
2018-05-10
Kubernetes是否存在“殺敵一千，自損八百”的問題？
2019-02-09
自動識別PC端、移動端，並跳轉
2020-10-24
短影片app原始碼，圖形和簡訊驗證碼的自動識別獲取
2023-11-17
APP原始碼
如何自動地向知識圖譜中新增屬性？
2019-01-15
裝置漏油檢測識別系統漏油自動識別系統
2024-11-13
自媒體（6）-短影片剪輯
2024-06-14
自媒體（5）--短影片基礎
2024-06-10
python與nodejs寫爬蟲你更傾向於哪個一個？
2023-01-06
PythonNodeJS爬蟲
如何自動生成文字摘要
2021-09-09
工地揚塵自動監測識別系統
2024-10-10
AppUI 自動化中的影像識別的使用
2020-11-30
APPUI
ocr文字識別軟體怎麼識別手機上的照片文字？
2022-01-05
訊飛有一個可以根據描述文字自動生成PPT的AI介面，有趣
2024-06-13
AI
Arctime自動分軸怎麼用？ Arctime語音識別自動加字幕的技巧
2020-07-02
Python3自動生成MySQL資料字典的markdown文字
2020-05-06
PythonMySql
【必看】Python自動化測試框架，Python入門知識！
2021-07-16
Python框架
介面自動化與ui自動化區別
2024-09-26
UI
“我想殺死兩個孩子再自殺”產後抑鬱的媽媽有多可怕！
2018-08-24
自媒體知識乾貨：自媒體人必備的網站，你值得擁有
2021-12-22
網站
短視訊系統原始碼，動態輸入文字到達行上限自動換行
2021-11-17
原始碼

Python 短文字自動識別個體是否有自殺傾向

相關文章