基於微博資料用 Python 打造一顆“心”

劉志軍發表於2017-02-15

一年一度的虐狗節終於過去了，朋友圈各種曬，曬自拍，曬娃，曬美食，秀恩愛的。程式設計師在曬什麼，程式設計師在加班。但是禮物還是少不了的，送什麼好？作為程式設計師，我準備了一份特別的禮物，用以往發的微博資料打造一顆“愛心”，我想她一定會感動得哭了吧。哈哈

準備工作

有了想法之後就開始行動了，自然最先想到的就是用 Python 了，大體思路就是把微博資料爬下來，資料經過清洗加工後再進行分詞處理，處理後的資料交給詞雲工具，配合科學計算工具和繪圖工具製作成影像出來，涉及到的工具包有：

requests 用於網路請求爬取微博資料，結巴分詞進行中文分詞處理，詞雲處理庫 wordcloud，圖片處理庫 Pillow，科學計算工具 NumPy ，類似於 MATLAB 的 2D 繪相簿 Matplotlib

工具安裝

安裝這些工具包時，不同系統平臺有可能出現不一樣的錯誤，wordcloud，requests，jieba 都可以通過普通的 pip 方式線上安裝，

pip install wordcloud
pip install requests
pip install jieba複製程式碼

在Windows 平臺安裝 Pillow，NumPy，Matplotlib 直接用 pip 線上安裝會出現各種問題，推薦的一種方式是在一個叫 Python Extension Packages for Windows 1 的第三方平臺下載相應的 .whl 檔案安裝。可以根據自己的系統環境選擇下載安裝 cp27 對應 python2.7，amd64 對應 64 位系統。下載到本地後進行安裝

pip install Pillow-4.0.0-cp27-cp27m-win_amd64.whl
pip install scipy-0.18.0-cp27-cp27m-win_amd64.whl
pip install numpy-1.11.3+mkl-cp27-cp27m-win_amd64.whl
pip install matplotlib-1.5.3-cp27-cp27m-win_amd64.whl複製程式碼

其他平臺可根據錯誤提示 Google 解決。或者直接基於 Anaconda 開發，它是 Python 的一個分支，內建了大量科學計算、機器學習的模組。

獲取資料

新浪微博官方提供的 API 是個渣渣，只能獲取使用者最新發布的5條資料，退而求其次，使用爬蟲去抓取資料，抓取前先評估難度，看看是否有人寫好了，在GitHub逛了一圈，基本沒有滿足需求的。倒是給我提供了一些思路，於是決定自己寫爬蟲。使用 m.weibo.cn/ 移動端網址去爬取資料。發現介面 m.weibo.cn/index/my?fo… 可以分頁獲取微博資料，而且返回的資料是 json 格式，這樣就省事很多了，不過該介面需要登入後的 cookies 資訊，登入自己的帳號就可以通過 Chrome 瀏覽器找到 Cookies 資訊。

實現程式碼：

def fetch_weibo():
    api = "http://m.weibo.cn/index/my?format=cards&page=%s"
    for i in range(1, 102):
        response = requests.get(url=api % i, cookies=cookies)
        data = response.json()[0]
        groups = data.get("card_group") or []
        for group in groups:
            text = group.get("mblog").get("text")
            text = text.encode("utf-8")
            text = cleanring(text).strip()
            yield text複製程式碼

檢視微博的總頁數是101，考慮到一次性返回一個列表物件太費記憶體，函式用 yield 返回一個生成器，此外還要對文字進行資料清洗，例如去除標點符號，HTML 標籤，“轉發微博”這樣的字樣。

儲存資料

資料獲取之後，我們要把它離線儲存起來，方便下次重複使用，避免重複地去爬取。使用 csv 格式儲存到 weibo.csv 檔案中，以便下一步使用。資料儲存到 csv 檔案中開啟的時候可能為亂碼，沒關係，用 notepad++檢視不是亂碼。

def write_csv(texts):
    with codecs.open('weibo.csv', 'w') as f:
        writer = csv.DictWriter(f, fieldnames=["text"])
        writer.writeheader()
        for text in texts:
            writer.writerow({"text": text})

def read_csv():
    with codecs.open('weibo.csv', 'r') as f:
        reader = csv.DictReader(f)
        for row in reader:
            yield row['text']複製程式碼

分詞處理

從 weibo.csv 檔案中讀出來的每一條微博進行分詞處理後再交給 wordcloud 生成詞雲。結巴分詞適用於大部分中文使用場景，使用停止詞庫 stopwords.txt 把無用的資訊（比如：的，那麼，因為等）過濾掉。

def word_segment(texts):
    jieba.analyse.set_stop_words("stopwords.txt")
    for text in texts:
        tags = jieba.analyse.extract_tags(text, topK=20)
        yield " ".join(tags)複製程式碼

生成圖片

資料分詞處理後，就可以給 wordcloud 處理了，wordcloud 根據資料裡面的各個詞出現的頻率、權重按比列顯示關鍵字的字型大小。生成方形的影像，如圖：

是的，生成的圖片毫無美感，畢竟是要送人的也要拿得出手才好炫耀對吧，那麼我們找一張富有藝術感的圖片作為模版，臨摹出一張漂亮的圖出來。我在網上搜到一張“心”型圖：

生成圖片程式碼：

def generate_img(texts):
    data = " ".join(text for text in texts)
    mask_img = imread('./heart-mask.jpg', flatten=True)
    wordcloud = WordCloud(
        font_path='msyh.ttc',
        background_color='white',
        mask=mask_img
    ).generate(data)
    plt.imshow(wordcloud)
    plt.axis('off')
    plt.savefig('./heart.jpg', dpi=600)複製程式碼

需要注意的是處理時，需要給 matplotlib 指定中文字型，否則會顯示亂碼，找到字型資料夾：C:\Windows\Fonts\Microsoft YaHei UI複製該字型，拷貝到 matplotlib 安裝目錄：C:\Python27\Lib\site-packages\matplotlib\mpl-data\fonts\ttf 下

差不多就這樣。

當我自豪地把這張圖發給她的時候，出現了這樣的對話：

這是什麼？
我：愛心啊，親手做的
這麼專業，好感動啊，你的眼裡只有 python ，沒有我（哭笑）
我：明明是“心”中有 python 啊

我好像說錯了什麼，哈哈哈。

完整程式碼可以在公眾號回覆"h"下載。

本文首發於公眾號『一個程式設計師的微站』（id:VTtalk），分享 Python 乾貨和有溫度的內容
部落格地址：foofish.net/python-hear…

PHP基於laravel框架獲取微博資料之一模擬新浪微博登入
2019-02-16
PHPLaravel框架
基於JSP的微博
2019-02-14
JS
PHP 基於laravel框架獲取微博資料之二使用者資料的使用
2019-02-16
PHPLaravel框架
一個批次爬取微博資料的神器
2024-08-30
Python 超簡單爬取微博熱搜榜資料
2020-05-13
Python
基於文心一言的生成式資料分析技術探索
2024-04-15
Python 超簡單爬取新浪微博資料 (高階版)
2020-05-16
Python
Python遙感影像疊加分析：基於一景資料提取另一資料
2024-06-17
Python
Python實現微博爬蟲，爬取新浪微博
2020-12-14
Python爬蟲
打造實時資料整合平臺——DataPipeline基於Kafka Connect的應用實踐
2018-04-26
APIKafka
一款基於 Java 開發的微信資料分析工具！
2024-11-18
Java
基於Python實現互動式資料視覺化的工具(用於Web)
2019-05-09
Python視覺化Web
博文推薦｜使用 Pulsar IO 打造流資料管道
2021-12-06
誰還沒有顆少女心~
2024-05-21
[python] 基於Tablib庫處理表格資料
2023-11-30
Python
基於 Flink CDC 打造企業級實時資料整合方案
2023-11-23
打造基於 PostgreSQL/openGauss 的分散式資料庫解決方案
2021-12-03
SQL分散式資料庫
selenium + xpath爬取csdn關於python的博文博主資訊
2020-12-19
Python
使用 python 打造一個微信聊天機器人
2020-05-02
Python機器人
『無為則無心』Python基礎 — 11、Python中的資料型別轉換
2021-06-28
Python資料型別
「玩轉Python」打造十萬博文爬蟲篇
2019-07-30
Python爬蟲
GitHub 上這款新浪微博爬蟲專案，‌讓你輕鬆掌握微博資料！‌
2024-08-31
Github爬蟲
新浪微博&艾漫資料：2019明星白皮書
2019-12-26
微博-指定話題當日資料爬取
2024-06-12
基於 Blazor 打造一款實時字幕
2021-07-26
Blazor
python實現微博個人主頁的資訊爬取
2021-01-03
Python
基於MaxCompute打造輕盈的人人車移動端資料平臺
2019-02-19
Python運用於資料分析的簡單教程
2018-07-22
Python
基於python的大資料分析-資料處理（程式碼實戰）
2019-08-30
Python大資料
基於 EventBridge 構建資料庫應用整合
2022-04-14
資料庫
Python 基於 xlsxwriter 實現百萬資料匯出 excel
2024-03-29
PythonExcel
用 Python 進行資料分析 pandas (一)
2019-06-04
Python
基於Flutter的仿微信聊天應用
2020-02-13
Flutter
新浪微博資料中心：2019微博電影白皮書（附下載）
2020-03-05
基於python的大資料分析-pandas資料儲存（程式碼實戰）
2019-08-28
Python大資料
基於python的大資料分析-pandas資料讀取（程式碼實戰）
2019-08-29
Python大資料
基於DataX的資料同步（下）-應用DataX進行資料同步
2021-12-30
『無為則無心』Python基礎 — 8、Python中的資料型別（數值、布林、字串）
2021-06-26
Python資料型別字串
用VSCode基於Bazel打造Apple生態開發環境
2023-05-10
VSCodeAPP開發環境