使用python抓取婚戀網使用者資料並用決策樹生成自己擇偶觀

下弦月發表於2016-04-14

最近在看《機器學習實戰》的時候萌生了一個想法，自己去網上爬一些資料按照書上的方法處理一下，不僅可以加深自己對書本的理解，順便還可以在github拉拉人氣。剛好在看決策樹這一章，書裡面的理論和例子讓我覺得這個理論和選擇物件簡直不能再貼切，看完長相看學歷，看完學歷看收入。如果可以從婚戀網站上爬取女性的資料資訊，手動給她們打標籤，並根據這些資料構建決策樹，不就可以找出自己的擇偶模式了嗎！github專案：huatian-funny，下面就詳細的闡釋一下。

資料爬取

之前在世紀佳緣上爬取過類似的資料，總體的感覺是上面的使用者資料要麼基本不填要麼一看就很假，周圍的一些老司機建議可以在花田網上看下，資料質量確實高很多，唯一的缺點就是上面的資料不給爬，搜尋使用者的API需要登入，而且只顯示三十多個使用者的資訊。剛好我需要的資料也很少，就把搜尋條件劃分的很細，每次取到的資料很小，但最終彙集的數量還是相當可觀的，最終獲取了位置在上海年齡22-27共計2000個左右的使用者資料。填寫好spider.py中的使用者名稱和密碼，直接執行這個檔案就可以爬取資料，因為資料量不大，很快就可以執行完畢，儲存在mongodb中的資料如下：

爬蟲用到的工具是requests，流程上也很簡單，先傳送登陸請求獲取cookie，然後呼叫搜尋API獲取資料，拿到的資料是json格式，不需要任何轉換直接儲存mongodb，非常的方便，唯一想吐槽的就是花田搜尋API介面竟然用的是POST方式，太沒有專業水準了。稍微提一下如何用request獲取cookie，用Session構建一個session物件，用這個物件傳送登陸請求後，之後的請求都會自動帶上登陸返回的cookie，使用起來非常的簡單。

1 from requests import Session
2 
3 session = Session()
4 session.post(login_url, data=post_data, headers=POST_HEADERS)
5 response = session.get(search_url, headers=GET_HEADERS)

1 from requests import Session

3 session = Session()

4 session.post(login_url, data=post_data, headers=POST_HEADERS)

5 response = session.get(search_url, headers=GET_HEADERS)

給使用者打標籤

由於決策樹屬於監督學習，需要一個給定的標籤，因此需要自己根據使用者的外貌、年齡、學歷等多個維度的判斷給出一個標籤，最後生成的決策樹在一定程度上就可以反映自己的擇偶標準。針對女性的標籤很簡單粗暴，只有滿意和不滿意兩種，有興趣的同學可以按照真實的情況設定更多的標籤，例如優秀、一般、備胎、不合格等等。因為外貌是選擇物件過程中一個必不可少的要素，把相貌量化至關重要，因為沒有相關的工具根據頭像進行評分，只能個人主觀進行量化，採用了當下非常流行的十分制。

為了增加打標籤的效率，專門寫了一個桌面視窗，執行mark.py即可，執行結果如下。（tkinter是一個坑，調程式碼的時間夠我把整個資料集看好幾遍了，不過真的用起來的時候還是挺有意思的）

備註：因為剛開始看的很多使用者只有頭像、年齡、身高、工資、學歷這五個資訊，所以整個過程中只參考了這五個維度進行評價，下面的決策樹也是根據這五個維度進行處理。

訓練資料

決策樹

機器學習中，決策樹是一個預測模型，它代表的是物件屬性與物件值之間的一種對映關係。樹中每個節點表示某個物件，而每個分叉路徑則代表的某個可能的屬性值，而每個葉結點則對應從根節點到該葉節點所經歷的路徑所表示的物件的值。決策樹僅有單一輸出，若欲有複數輸出，可以建立獨立的決策樹以處理不同輸出。從資料產生決策樹的機器學習技術叫做決策樹學習, 通俗點說就是決策樹，說白了，這是一種依託於分類、訓練上的預測樹，根據已知預測、歸類未來。

理論方面我可以參考《機器學習實戰》第三章或者這篇部落格，很淺顯易懂的解釋了具體的原理，我就不贅述了。

結果展示

程式碼參考的是《機器學習實戰》，針對現實自己做了一些優化調整，和原來的程式碼不是完全相同，執行train.py就可以顯示出結果，如下：

因為線很擠，調了很久只能拿到這個效果了。到這兒已經很清晰明瞭的闡明瞭主題，我就是一個外貌黨，顏值高的pass，顏值低的忽略，不高不低的考慮的相當糾結。有興趣的同學可以自己試一試。

PS1：其實不太想承認自己是一個外貌協會成員，人醜顏控註定孤獨一生。

PS2：因為打標籤的過程有些隨意，所以有一部分不準確。

PS3：沒有相親的打算，不約。

打賞支援我寫出更多好文章，謝謝！
打賞作者

打賞支援我寫出更多好文章，謝謝！

使用python抓取婚戀網使用者資料並用決策樹生成自己擇偶觀

決策樹模型(3)決策樹的生成與剪枝
2024-03-28
模型
婚戀網站遭信任危機實名制破解之策
2019-05-10
網站
決策樹模型(2)特徵選擇
2024-03-26
模型特徵
大資料————決策樹（decision tree）
2022-10-20
大資料
Python機器學習：決策樹001什麼是決策樹
2020-12-24
Python機器學習
Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL
2019-01-04
Python爬蟲網頁資料庫MySql
脈脈：當代職場人婚戀大觀
2020-05-20
用python抓取智聯招聘資訊並存入excel
2018-05-08
PythonExcel
婚戀系統原始碼，如何成功獲取使用者的定位
2021-12-10
原始碼
【機器學習】實現層面決策樹並用graphviz視覺化樹
2020-10-28
機器學習視覺化
決策樹
2024-07-27
Python中使用mechanize庫抓取網頁上的表格資料
2024-03-15
Python網頁
決策樹中結點的特徵選擇方法
2018-05-09
特徵
Go抓取網頁資料並存入MySQL和返回json資料
2019-02-16
Go網頁MySqlJSON
python 使用最大生成樹解決營救問題
2020-11-28
Python
決策樹示例
2021-01-16
如何用Python爬資料？（一）網頁抓取
2018-06-27
Python網頁
Python爬蟲抓取知乎所有使用者資訊
2018-03-14
Python爬蟲
【Python機器學習實戰】決策樹和整合學習（二）——決策樹的實現
2021-08-25
Python機器學習
python爬取股票最新資料並用excel繪製樹狀圖
2021-02-28
PythonExcel
樹立自己的觀念
2024-05-09
（資料科學學習手札59）從抓取資料到生成shp檔案並展示
2019-06-05
資料科學
機器學習西瓜書吃瓜筆記之(二)決策樹分類附一鍵生成決策樹&視覺化python程式碼實現
2020-10-13
機器學習筆記視覺化Python
python簡書資料抓取
2018-08-25
Python
4. 決策樹
2020-10-26
Decision tree——決策樹
2020-04-30
決策樹（Decision Tree）
2021-07-13
機器學習——決策樹模型：Python實現
2020-11-09
機器學習模型Python
《七夕婚戀觀報告》揭祕：超八成東北姑娘沒有房不結婚？
2020-08-26
python爬取基金股票最新資料，並用excel繪製樹狀圖
2021-03-02
PythonExcel
使用python3抓取pinpoint應用資訊入庫
2019-02-15
Python
使用Scrapy抓取新浪微博使用者資訊
2019-02-16
分類——決策樹模型
2020-10-23
模型
決策樹演算法
2022-03-07
演算法
ML《決策樹（三）CART》
2020-12-30
MySQL資料庫索引選擇使用B+樹
2020-04-04
MySql資料庫索引
使用 SVM 和決策樹進行整合學習
2024-03-11
網頁資料抓取之噹噹網
2020-12-21
網頁
toapi：抓取任意網頁內容並提供 HTTP API獲取資料
2024-05-07
API網頁HTTP

使用python抓取婚戀網使用者資料並用決策樹生成自己擇偶觀

資料爬取

給使用者打標籤

訓練資料

決策樹

結果展示

打賞支援我寫出更多好文章，謝謝！

相關文章