基於微博資料用 Python 打造一顆“心”

劉志軍發表於2017-02-15

一年一度的虐狗節終於過去了,朋友圈各種曬,曬自拍,曬娃,曬美食,秀恩愛的。程式設計師在曬什麼,程式設計師在加班。但是禮物還是少不了的,送什麼好?作為程式設計師,我準備了一份特別的禮物,用以往發的微博資料打造一顆“愛心”,我想她一定會感動得哭了吧。哈哈

準備工作

有了想法之後就開始行動了,自然最先想到的就是用 Python 了,大體思路就是把微博資料爬下來,資料經過清洗加工後再進行分詞處理,處理後的資料交給詞雲工具,配合科學計算工具和繪圖工具製作成影像出來,涉及到的工具包有:

requests 用於網路請求爬取微博資料,結巴分詞進行中文分詞處理,詞雲處理庫 wordcloud,圖片處理庫 Pillow,科學計算工具 NumPy ,類似於 MATLAB 的 2D 繪相簿 Matplotlib

工具安裝

安裝這些工具包時,不同系統平臺有可能出現不一樣的錯誤,wordcloud,requests,jieba 都可以通過普通的 pip 方式線上安裝,

pip install wordcloud
pip install requests
pip install jieba複製程式碼

在Windows 平臺安裝 Pillow,NumPy,Matplotlib 直接用 pip 線上安裝會出現各種問題,推薦的一種方式是在一個叫 Python Extension Packages for Windows 1 的第三方平臺下載 相應的 .whl 檔案安裝。可以根據自己的系統環境選擇下載安裝 cp27 對應 python2.7,amd64 對應 64 位系統。下載到本地後進行安裝

pip install Pillow-4.0.0-cp27-cp27m-win_amd64.whl
pip install scipy-0.18.0-cp27-cp27m-win_amd64.whl
pip install numpy-1.11.3+mkl-cp27-cp27m-win_amd64.whl
pip install matplotlib-1.5.3-cp27-cp27m-win_amd64.whl複製程式碼

其他平臺可根據錯誤提示 Google 解決。或者直接基於 Anaconda 開發,它是 Python 的一個分支,內建了大量科學計算、機器學習的模組 。

獲取資料

新浪微博官方提供的 API 是個渣渣,只能獲取使用者最新發布的5條資料,退而求其次,使用爬蟲去抓取資料,抓取前先評估難度,看看是否有人寫好了,在GitHub逛了一圈,基本沒有滿足需求的。倒是給我提供了一些思路,於是決定自己寫爬蟲。使用 m.weibo.cn/ 移動端網址去爬取資料。發現介面 m.weibo.cn/index/my?fo… 可以分頁獲取微博資料,而且返回的資料是 json 格式,這樣就省事很多了,不過該介面需要登入後的 cookies 資訊,登入自己的帳號就可以通過 Chrome 瀏覽器 找到 Cookies 資訊。

基於微博資料用 Python 打造一顆“心”

實現程式碼:

def fetch_weibo():
    api = "http://m.weibo.cn/index/my?format=cards&page=%s"
    for i in range(1, 102):
        response = requests.get(url=api % i, cookies=cookies)
        data = response.json()[0]
        groups = data.get("card_group") or []
        for group in groups:
            text = group.get("mblog").get("text")
            text = text.encode("utf-8")
            text = cleanring(text).strip()
            yield text複製程式碼

檢視微博的總頁數是101,考慮到一次性返回一個列表物件太費記憶體,函式用 yield 返回一個生成器,此外還要對文字進行資料清洗,例如去除標點符號,HTML 標籤,“轉發微博”這樣的字樣。

儲存資料

資料獲取之後,我們要把它離線儲存起來,方便下次重複使用,避免重複地去爬取。使用 csv 格式儲存到 weibo.csv 檔案中,以便下一步使用。資料儲存到 csv 檔案中開啟的時候可能為亂碼,沒關係,用 notepad++檢視不是亂碼。

def write_csv(texts):
    with codecs.open('weibo.csv', 'w') as f:
        writer = csv.DictWriter(f, fieldnames=["text"])
        writer.writeheader()
        for text in texts:
            writer.writerow({"text": text})

def read_csv():
    with codecs.open('weibo.csv', 'r') as f:
        reader = csv.DictReader(f)
        for row in reader:
            yield row['text']複製程式碼

分詞處理

從 weibo.csv 檔案中讀出來的每一條微博進行分詞處理後再交給 wordcloud 生成詞雲。結巴分詞適用於大部分中文使用場景,使用停止詞庫 stopwords.txt 把無用的資訊(比如:的,那麼,因為等)過濾掉。

def word_segment(texts):
    jieba.analyse.set_stop_words("stopwords.txt")
    for text in texts:
        tags = jieba.analyse.extract_tags(text, topK=20)
        yield " ".join(tags)複製程式碼

生成圖片

資料分詞處理後,就可以給 wordcloud 處理了,wordcloud 根據資料裡面的各個詞出現的頻率、權重按比列顯示關鍵字的字型大小。生成方形的影像,如圖:

基於微博資料用 Python 打造一顆“心”

是的,生成的圖片毫無美感,畢竟是要送人的也要拿得出手才好炫耀對吧,那麼我們找一張富有藝術感的圖片作為模版,臨摹出一張漂亮的圖出來。我在網上搜到一張“心”型圖:

基於微博資料用 Python 打造一顆“心”

生成圖片程式碼:

def generate_img(texts):
    data = " ".join(text for text in texts)
    mask_img = imread('./heart-mask.jpg', flatten=True)
    wordcloud = WordCloud(
        font_path='msyh.ttc',
        background_color='white',
        mask=mask_img
    ).generate(data)
    plt.imshow(wordcloud)
    plt.axis('off')
    plt.savefig('./heart.jpg', dpi=600)複製程式碼

需要注意的是處理時,需要給 matplotlib 指定中文字型,否則會顯示亂碼,找到字型資料夾:C:\Windows\Fonts\Microsoft YaHei UI複製該字型,拷貝到 matplotlib 安裝目錄:C:\Python27\Lib\site-packages\matplotlib\mpl-data\fonts\ttf 下

差不多就這樣。

基於微博資料用 Python 打造一顆“心”

當我自豪地把這張圖發給她的時候,出現了這樣的對話:

這是什麼?
我:愛心啊,親手做的
這麼專業,好感動啊,你的眼裡只有 python ,沒有我 (哭笑)
我:明明是“心”中有 python 啊

我好像說錯了什麼,哈哈哈。

完整程式碼可以在公眾號回覆"h"下載。

本文首發於公眾號『一個程式設計師的微站』(id:VTtalk),分享 Python 乾貨和有溫度的內容
部落格地址:foofish.net/python-hear…

基於微博資料用 Python 打造一顆“心”
一個程式設計師的微站

相關文章