亂燉“簡書交友”資料之程式碼（1）

古柳_Deserts_X發表於2018-06-13

原文網址 : https://juejin.im/post/5b213d00e51d4506b73599ef

上一篇文章亂燉資料之2700餘篇“簡書交友”專題文章資料的花式玩法釋出後，不少人想學習下程式碼，由於此前不曾在GitHub上開源過，流程還不熟悉，再者本專案中很多嘗試性的程式碼，異常雜亂，因而沒有立馬公開。在經過刪減和整理後，將繼續更新出來。

本文主要涉及一些結構化資料的分析，文字資料如詞頻統計、詞雲圖等等。暫且跳過爬蟲部分。程式碼見於 GitHub - DesertsX / JianShuJiaoYou，後續LDA主題模型、word2vec詞向量、文章照片爬取、人臉識別及顏值打分和照片牆等等更新後也會開源在此專案，歡迎star與指正。

另外先預告下，之後打算開個“Kaggle Kernel 學習系列”，GitHub - DesertsX / Kaggle-Kernel-Learning，主要是翻譯和學習下kaggle上優秀的kernels。其中第一篇非常粗糙，還沒潤色、修改排版佈局的notebook可供瀏覽下，也歡迎關注、star和提供寶貴建議： desertsx.github.io/2018/06/09/… desertsx.github.io/2018/06/09/…

結構化資料

文章配圖數

讀取資料

import pandas as pd
df12 = pd.read_csv('JianShuJiaoYou-All-Data.csv', encoding='utf-8')
df12.head(2)複製程式碼

結果如下：

Page    Num Author  Author_Url  Title   Time    Read    Comment Like    Abstract    Artical_Url Image_Url   Artical_Content
0   1   0   劉秀玲 https://www.jianshu.com/u/470f33ea0c92  我要嫁這樣的你 2016-07-25T12:16:39+08:00   109763  4508    5333    你不用太高，比穿三五釐米跟鞋的我看起來不矮就行。我不是小鳥依人的型，累了或者想哭的時候，我願...   https://www.jianshu.com/p/8de3d395734f  ['//upload-images.jianshu.io/upload_images/125...   你不用太高，比穿三五釐米跟鞋的我看起來不矮就行。我不是小鳥依人的型，累了或者想哭的時候，我願...
1   1   1   道長是名思維販子    https://www.jianshu.com/u/92eb338437ee  如果你喜歡一個人，說些什麼話讓對方也喜歡你呢  2017-10-29T11:42:34+08:00   69260   497 3693    NaN https://www.jianshu.com/p/373d67f7cbce  ['//upload-images.jianshu.io/upload_images/299...   你現在有沒有喜歡一個人？複製程式碼

新增Images_Num一列記錄每篇文章配圖數，但發現數字異常，Image_Url中的每一元素是字串而非列表。

def images_num(imageslist):
    return len(imageslist)
df12['Images_Num'] = df12.Image_Url.apply(images_num)
df12.head(1)

df12.Images_Num.hist();複製程式碼

將字串轉化成 list 格式

eval()函式：可以將 list, tuple, dict 與 string 相互轉化

例項：

a = "[[1,2], [3,4], [5,6], [7,8], [9,0]]"
print(a)
print(type(a))
b = eval(a)
print(b)
print(type(b))複製程式碼

輸出結果：

[[1,2], [3,4], [5,6], [7,8], [9,0]]
<class 'str'>
[[1, 2], [3, 4], [5, 6], [7, 8], [9, 0]]
<class 'list'>複製程式碼

統計每篇文章配圖數的正確方式

def images_num(imageslist):
    return len(eval(imageslist))
df12['Images_Num'] = df12.Image_Url.apply(images_num)
df12.head(1)複製程式碼

分佈情況

df12.Images_Num.value_counts()複製程式碼

直方圖分佈情況一目瞭然，文章配圖數最多的高達80+。

df12.Images_Num.hist();複製程式碼

文章長度 / 字數

粗略統計下每篇文章的長度

def artical_length(artical_content):
    return len(artical_content)
df12['Artical_Length'] = df12.Artical_Content.apply(artical_length)
df12.head(1)

df12.Artical_Length.hist();複製程式碼

字數與配圖數

看看文章篇幅和配圖數之間是否存在某種關係。 seaborn.jointplot

import seaborn as sns
sns.jointplot(x="Artical_Length" , y = "Images_Num" ,data = df12);複製程式碼

改個引數看看

sns.jointplot(x="Artical_Length" , y = "Images_Num" ,data = df12, kind="hex");複製程式碼

評論數與點贊數

由皮爾遜相關係數為0.58可知，評論數與點贊數有一定的線性相關性。

sns_joinplot = sns.jointplot(x="Like" , y = "Comment" ,data = df12);
sns_joinplot.savefig('seaborn_Like_Comment_joinplot.png')複製程式碼

閱讀量、評論數與點贊數

python3d畫圖mpl_toolkits.mplot3d Matplotlib 繪圖教程(3D)

from mpl_toolkits.mplot3d import Axes3D
import matplotlib.pyplot as plt
%matplotlib inline

plt.figure(figsize=(12, 7))
ax1 = plt.subplot(111,projection='3d')
x,y,z = df12['Read'],df12['Comment'],df12['Like']
ax1.scatter(x, y, z, s=15)
ax1.set_title('Read-Commnet-Like')
ax1.set_zlabel('Like')
ax1.set_ylabel('Comment')
ax1.set_xlabel('Read')
#plt.show()複製程式碼

多變數

看看閱讀量、評論數、點贊數、文章篇幅與配圖數五個變數之間的相關關係。

Pairplot圖

seaborn.pairplot

import matplotlib.pyplot as plt
data = df12[["Read", "Comment", "Like", "Artical_Length","Images_Num"]]
#plt.figure(figsize=(6,4))
g = sns.pairplot(data, palette="husl");
g.savefig('seaborn_pairplot.png')複製程式碼

Heatmap圖

seaborn-heatmap

sns.heatmap(data=data.corr(), annot=True, linewidths=0, vmin=-0.2, cmap='RdBu_r');

複製程式碼

sns.heatmap( data=data.corr(), annot=True, linewidths=0, vmin=-0.2, cmap='YlGnBu');複製程式碼

文章釋出時間

從Time列分別提取年份、月份、天、小時等等資料。

def split_time_ymd(timestamp):
    ymd = timestamp.split('T')[0]
    return ymd

def split_time_year(timestamp):
    ymd = timestamp.split('T')[0]
    year = ymd.split('-')[0]
    return year

def split_time_month(timestamp):
    ymd = timestamp.split('T')[0]
    month = ymd.split('-')[1]
    return month

def split_time_day(timestamp):
    ymd = timestamp.split('T')[0]
    day = ymd.split('-')[-1]
    return day

def split_time_hour(timestamp):
    timestamp = timestamp.split('T')[1]
    hour = timestamp[:2]
    return hour

df12['YMD'] = df12.Time.apply(split_time_ymd)
df12['Year'] = df12.Time.apply(split_time_year)
df12['Month'] = df12.Time.apply(split_time_month)
df12['Day'] = df12.Time.apply(split_time_day)
df12['Hour'] = df12.Time.apply(split_time_hour)
df12.head(2)

複製程式碼

發文年份

可以和另一專題“今日看點”及一篇舊文裡的資料比較：簡書=雞湯？爬取簡書今日看點：1916篇熱門文章視覺化

df12.Year.value_counts()

# 輸出結果
    2018    1992
    2017     718
    2016       6
    2015       2
    Name: Year, dtype: int64

import matplotlib.pyplot as plt
%matplotlib inline
df12.Year.hist();複製程式碼

發文月份

df12.Month.value_counts()

# 輸出結果
    04    644
    03    471
    05    444
    02    251
    11    237
    08    205
    01    188
    12     93
    10     93
    09     82
    07      8
    06      2
    Name: Month, dtype: int64

df12.Month.hist();複製程式碼

發文日期

df12.Day.hist();複製程式碼

發文小時

df12.Hour.hist();複製程式碼

ECharts美顏一下：發文小時

上述繪製的釋出時間的相關圖表都不夠美觀，於是翻出壓箱底的又一篇舊文：圖表太醜怎麼破，ECharts神器帶你飛！

直接套用ECharts圖表模板，改下資料和標題等引數就行了，程式碼參見：簡書交友”專題文章之24小時分佈情。

更多圖表見於：ECharts3官網的個人主頁

年度月份分佈情況

df12.groupby(['Year','Month']).Month.count()

# 輸出結果
    Year  Month
    2015  04         1
          09         1
    2016  07         2
          08         1
          10         1
          12         2
    2017  01         1
          02         3
          04         1
          06         2
          07         6
          08       204
          09        81
          10        92
          11       237
          12        91
    2018  01       187
          02       248
          03       471
          04       642
          05       444
    Name: Month, dtype: int64複製程式碼

ECharts美顏一下：年度月份

圖表太醜怎麼破，ECharts神器帶你飛！ ECharts3官網的個人主頁

將echarts_bar_year_month.js裡程式碼複製到該連結後重新整理即可：“簡書交友”專題文章之年度月份分佈情況

文字挖掘

相關舊文一篇：2017，那些出現在日記中的人：簡單的文字挖掘

讀取資料

import warnings
warnings.filterwarnings("ignore")
import jieba
import numpy as np
import codecs
import pandas as pd  
import matplotlib.pyplot as plt
%matplotlib inline
import matplotlib
matplotlib.rcParams['figure.figsize'] = (10.0, 5.0)
from wordcloud import WordCloud
# https://github.com/amueller/word_cloud/
# conda install -c conda-forge wordcloud

複製程式碼

文章內容轉化成 list 格式

這段情話還不錯的樣子，一定是個可愛漂亮的小姐姐寫的吧，逃...

content = df12.Artical_Content.values.tolist()
print(len(content), '\n', content[-1])

2718 
我攢了一被子的情話，想要說給你聽最近有種很雜碎的感覺，嗯...如果用比喻修辭來說的話，就是已經很久都沒有那種寫完滿滿一張紙的感覺，沒有看完整整一本書的感覺，沒有跑完操場一圈，沒有聽完一整首歌，也沒有睡滿整整一夜。總感覺還是缺一點什麼。但我有很走心的去想了，可能是因為缺了每一個可愛的你。“如果是去見你，我會跑著去”剛看到這句話的時候，我也很贊同，因為畢竟去見一個想見了很久的人的時候，怎麼也按捺不住你你內心的欣喜。到後來，當你真正去見ta的時候，你沒有跑，你依然故作鎮定的樣子，只是你會比平時都邁的步子大一點，你擔心你跑起來的樣子不那麼美觀，你擔心就算是夏天的微風也還是會把你輕薄的劉海吹亂。你會在意每個細節，你每次都希望你在ta面前是最好的狀態。嗨，如果要去見你的話，我不跑著去了，我只想以我最好的狀態去見你你像是我被子裡的舒服你像是我右手背上的那顆痣你像是我眼角微微泛出來的光你像是我全身每一寸肌膚在呼吸你像是我枕頭裡的枕芯棉你像是我買過最好看書裡的一頁你像是我踩著雲就可以飛上天你像是我走過的所有路途最想停留的瞬間你是我在夜晚閉上眼最後想到的人你是我在清晨睜開眼最先念起的人你是我的一日三餐你是我的一年四季來不及了不想再浪費時間昨天，今天，明天我還是最喜歡你總有一個人的出現，讓我像流沙，像落雪。那些別人在上面劃了又劃的痕跡，你輕輕一抹，就平了。攢了一被子的情話，以後慢慢數給你聽。希望認識更多可愛的人，一起做喜歡的事，寫最純真的字，講有趣的故事。我是禮雪晶，那麼你呢？作者:禮雪晶。“真羨慕你們這麼年輕就遇到了這麼才華橫溢的我。”一個整天與數字對抗卻藏了一被子情話的95後女生。願你的深情不被辜負，你喜歡的人也喜歡你。

複製程式碼

jieba 分詞

segs = jieba.lcut(content[-1])
print(segs)
for seg in segs:
    if len(seg) > 1:
        print(seg)

# 輸出結構
['我', '攢', '了', '一', '被子', '的', '情話', '，', '想要', '說', '給', '你', '聽', '最近', '有種', '很', '雜碎', '的', '感覺', '，', '嗯', '...', '如果', '用', '比喻', '修辭', '來說', '的話', '，', '就是', '已經', '很久', '都', '沒有', '那種', '寫', '完', '滿滿', '一張', '紙', '的', '感覺', '，', '沒有', '看', '完', '整整', '一', '本書', '的', '感覺', '，', '沒有', '跑', '完', '操場', '一圈', '，', '沒有', '聽', '完一', '整首歌', '，', '也', '沒有', '睡滿', '整整', '一夜', '。', '總', '感覺', '還是', '缺', '一點', '什麼', '。', '但', '我', '有', '很', '走心', '的', '去', '想', '了', '，', '可能', '是因為', '缺', '了', '每', '一個', '可愛', '的', '你', '。', '“', '如果', '是', '去', '見', '你', '，', '我會', '跑', '著', '去', '”', '剛', '看到', '這句', '話', '的', '時候', '，', '我', '也', '很', '贊同', '，', '因為', '畢竟', '去', '見', '一個', '想見', '了', '很', '久', '的', '人', '的', '時候', '，', '怎麼', '也', '按捺不住', '你', '你', '內心', '的', '欣喜', '。', '到', '後來', '，', '當', '你', '真正', '去', '見', 'ta', '的', '時候', '，', '你', '沒有', '跑', '，', '你', '依然', '故作', '鎮定', '的', '樣子', '，', '只是', '你', '會', '比', '平時', '都', '邁', '的', '步子', '大', '一點', '，', '你', '擔心', '你', '跑', '起來', '的', '樣子', '不', '那麼', '美觀', '，', '你', '擔心', '就算', '是', '夏天', '的', '微風', '也', '還是', '會', '把', '你', '輕薄', '的', '劉海', '吹亂', '。', '你', '會', '在意', '每個', '細節', '，', '你', '每次', '都', '希望', '你', '在', 'ta', '面前', '是', '最好', '的', '狀態', '。', '嗨', '，', '如果', '要', '去', '見', '你', '的話', '，', '我', '不', '跑', '著', '去', '了', '，', '我', '只', '想', '以', '我', '最好', '的', '狀態', '去', '見', '你', '你', '像是', '我', '被子', '裡', '的', '舒服', '你', '像是', '我', '右手', '背上', '的', '那顆', '痣', '你', '像是', '我', '眼角', '微微', '泛出來', '的', '光', '你', '像是', '我', '全身', '每一寸', '肌膚', '在', '呼吸', '你', '像是', '我', '枕頭', '裡', '的', '枕芯', '棉', '你', '像是', '我', '買', '過', '最好', '看書', '裡', '的', '一頁', '你', '像是', '我', '踩', '著', '雲', '就', '可以', '飛', '上天', '你', '像是', '我', '走過', '的', '所有', '路途', '最想', '停留', '的', '瞬間', '你', '是', '我', '在', '夜晚', '閉上眼', '最後', '想到', '的', '人', '你', '是', '我', '在', '清晨', '睜開眼', '最先', '念起', '的', '人', '你', '是', '我', '的', '一日三餐', '你', '是', '我', '的', '一年四季', '來不及', '了', '不想', '再', '浪費時間', '昨天', '，', '今天', '，', '明天', '我', '還是', '最', '喜歡', '你', '總有', '一個', '人', '的', '出現', '，', '讓', '我', '像', '流沙', '，', '像', '落雪', '。', '那些', '別人', '在', '上面', '劃', '了', '又', '劃', '的', '痕跡', '，', '你', '輕輕', '一抹', '，', '就平', '了', '。', '攢', '了', '一', '被子', '的', '情話', '，', '以後', '慢慢', '數給', '你', '聽', '。', '希望', '認識', '更', '多', '可愛', '的', '人', '，', '一起', '做', '喜歡', '的', '事', '，', '寫', '最', '純真', '的', '字', '，', '講', '有趣', '的', '故事', '。', '我', '是', '禮雪晶', '，', '那麼', '你', '呢', '？', '作者', ':', '禮雪晶', '。', '“', '真', '羨慕', '你們', '這麼', '年輕', '就', '遇到', '了', '這麼', '才華橫溢', '的', '我', '。', '”', '一個', '整天', '與', '數字', '對抗', '卻', '藏', '了', '一', '被子', '情話', '的', '95', '後', '女生', '。', '願', '你', '的', '深情', '不', '被', '辜負', '，', '你', '喜歡', '的', '人', '也', '喜歡', '你', '。']

    被子
    情話
    想要
    最近
    有種
    雜碎
    感覺
    ...
    如果
    比喻
    修辭
    來說
    的話
    就是
    已經
    很久
    沒有

segment = []
for line in content:
    try:
        segs = jieba.lcut(line)
        for seg in segs:
            if len(seg)>1 and seg != '\r\n':
                segment.append(seg)
    except:
        print(line)
        continue複製程式碼

載入停用詞

words_df = pd.DataFrame({"segment": segment})
stopwords_df = pd.read_csv('Stopwords/Chinese_Stopwords.txt',index_col=False, quoting=3,sep="\t",names=['stopwords'], encoding='utf-8') #quoting=3全不引用
stopwords_df.head()

複製程式碼

去掉停用詞

words_df = words_df[~words_df.segment.isin(stopwords_df.stopwords)]
words_df.head()

複製程式碼

統計詞頻

words_stat = words_df.groupby(by=['segment'])['segment'].agg({"計數": np.size})
words_stat = words_stat.reset_index().sort_values(by=["計數"], ascending=False)
words_stat.head(30)

words_stat.to_csv("JianShuJiaoYou-Words_Segments.csv", encoding='utf-8')

複製程式碼

文章內容詞雲

醜版

wordcloud = WordCloud(font_path='simhei.ttf', background_color='white',max_font_size=80)
word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}
wordcloud = wordcloud.fit_words(word_frequence)
plt.imshow(wordcloud);
# plt.imsave(path)

複製程式碼

自定義背景圖 1.0版

簡書交友專題 Logo

from scipy.misc import imread
matplotlib.rcParams['figure.figsize'] = (8.0, 8.0)
from wordcloud import WordCloud,ImageColorGenerator
bimg=imread('Logo-1.jpg')
wordcloud=WordCloud(background_color="white",mask=bimg,font_path='simhei.ttf',max_font_size=200)
word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}
wordcloud=wordcloud.fit_words(word_frequence)
bimgColors=ImageColorGenerator(bimg)
plt.axis("off")
plt.imshow(wordcloud.recolor(color_func=bimgColors));

複製程式碼

自定義背景圖 2.0版

中古民謠樂團Bloody Woods

from scipy.misc import imread
matplotlib.rcParams['figure.figsize'] = (8.0, 8.0)
from wordcloud import WordCloud,ImageColorGenerator
bimg=imread('中古民謠樂團Bloody Woods.jpg')
wordcloud=WordCloud(background_color="white",mask=bimg,font_path='simhei.ttf',max_font_size=200)
word_frequence = {x[0]:x[1] for x in words_stat.head(1000).values}
wordcloud=wordcloud.fit_words(word_frequence)
bimgColors=ImageColorGenerator(bimg)
plt.axis("off")
plt.imshow(wordcloud.recolor(color_func=bimgColors));

複製程式碼

還是太醜

線上詞雲生成網站：HTML5 Word Cloud

圖表太醜怎麼破，ECharts神器帶你飛本次詞雲例項

標題詞頻、詞雲

title = df12.Title.values.tolist()
print(len(title), '\n', title[-1])
segment = []
for line in title:
    try:
        segs = jieba.lcut(line)
        for seg in segs:
            if len(seg)>1 and seg != '\r\n':
                segment.append(seg)
    except:
        print(line)
        continue

# 2718 
# 攢了一被子的情話，想說給你聽

titles_df = pd.DataFrame({"segment": segment})
titles_df = titles_df[~titles_df.segment.isin(stopwords_df.stopwords)]
titles_df.head()

titles_stat = titles_df.groupby(by=['segment'])['segment'].agg({"計數": np.size})
titles_stat = titles_stat.reset_index().sort_values(by=["計數"], ascending=False)
titles_stat.head(30)

wordcloud = WordCloud(font_path='simhei.ttf', background_color='white',max_font_size=80)
word_frequence = {x[0]:x[1] for x in titles_stat.head(1000).values}
wordcloud = wordcloud.fit_words(word_frequence)
plt.imshow(wordcloud);複製程式碼

自定義背景圖：Bloody Woods

from scipy.misc import imread
matplotlib.rcParams['figure.figsize'] = (8.0, 8.0)
from wordcloud import WordCloud,ImageColorGenerator
bimg=imread('中古民謠樂團Bloody Woods.jpg')
wordcloud=WordCloud(background_color="white",mask=bimg,font_path='simhei.ttf',max_font_size=200)
word_frequence = {x[0]:x[1] for x in titles_stat.head(1000).values}
wordcloud=wordcloud.fit_words(word_frequence)
bimgColors=ImageColorGenerator(bimg)
plt.axis("off")
plt.imshow(wordcloud.recolor(color_func=bimgColors));複製程式碼

線上詞雲生成網站：HTML5 Word Cloud

本次例項

簡書“今日看點”專題熱門文章標題詞雲

另一專題“今日看點”：簡書=雞湯？爬取簡書今日看點：1916篇熱門文章視覺化

程式碼：GitHub - DesertsX / JianShuJiaoYou，後續更新LDA主題模型、word2vec詞向量、文章照片爬取、人臉識別及顏值打分和照片牆等，敬請期待，歡迎star與指正。

PS：預告下，即將開啟“Kaggle Kernel 學習系列”，GitHub - DesertsX / Kaggle-Kernel-Learning，歡迎star。

亂燉“簡書交友”資料之程式碼（2）：關鍵詞抽取、Word2Vec詞向量
2018-06-16
DBA常用命令之東北大亂燉
2021-09-05
爬完簡書50w+條資料之後
2018-06-23
理“ Druid 後設資料”之亂
2022-05-30
UI
程式設計入門之字元編碼與亂碼
2022-03-16
程式設計字元
python簡書資料抓取
2018-08-25
Python
程式碼家：簡明資料庫史
2021-01-19
資料庫
分享Flask電子書PDF及程式碼+資料
2018-12-30
Flask
《程式碼大全》讀書筆記1（1-4）
2024-10-31
筆記
TOMCAT 請求資料編碼亂碼問題
2020-11-14
Tomcat
月老線上牽盲盒小程式原始碼交友盲盒原始碼存取小紙條交友
2021-10-08
原始碼
資料結構 - 圖之程式碼實現
2024-11-04
資料結構
pdo_mysql 資料庫亂碼問題
2019-05-11
MySql資料庫
程式碼整潔之道--讀書筆記(1)
2024-09-04
筆記
JavaWeb開發之PrintWriter亂碼
2018-06-12
JavaWeb
小程式批次匯入excel資料，雲開發資料庫匯出cvs亂碼解決方案
2021-09-09
Excel資料庫
一對一交友原始碼，需要申請的資料有哪些？
2018-09-03
原始碼
jsp頁面傳中文到資料庫亂碼
2020-03-11
JS資料庫
SqlServer資料庫中文亂碼問題解決
2019-01-04
SQLServer資料庫
mysql資料庫concat拼接字串亂碼問題
2020-12-16
MySql資料庫字串
JAVA基礎之程式碼簡潔之道
2019-01-02
Java
Spring-1-AOP概念簡述-程式碼演示
2021-01-03
Spring
解決pl/sql developer中資料庫插入資料亂碼問題
2020-11-04
SQLDeveloper資料庫
自己試著隨手亂編的程式碼，好亂
2021-09-09
程式碼簽名證書——企業程式碼安全的不二之選！
2020-07-31
redis（1）NoSQL資料庫簡介
2023-02-23
RedisSQL資料庫
荔枝FM IPO招股書及簡要資料
2019-10-29
Airbnb上市IPO招股書及簡要資料
2020-11-18
AI
Qualtrics上市IPO招股書及簡要資料
2020-12-29
Struts1入門級程式hello world（解決struts1中文亂碼）
2018-07-13
資料結構 - 樹，三探之程式碼實現
2024-10-23
資料結構
相親交友原始碼中，音訊AAC解碼的實現程式碼
2021-11-15
原始碼音訊
好程式設計師大資料培訓分享之MySQL資料庫SQL簡介
2020-05-27
程式設計師大資料MySql資料庫
美國線上奢侈品電商1stDibs招股書及簡要資料
2021-06-07
response亂碼和request亂碼
2018-08-15
web自動化簡單使用程式碼，獲取集合資料
2020-10-05
Web
隔水盅燉湯
2024-08-17
Netty之資料解碼
2023-04-30
Netty

亂燉“簡書交友”資料之程式碼（1）

結構化資料

文章配圖數

文章長度 / 字數

字數與配圖數

評論數與點贊數

閱讀量、評論數與點贊數

多變數

Pairplot圖

Heatmap圖

文章釋出時間

發文年份

發文月份

發文日期

發文小時

ECharts美顏一下：發文小時

年度月份分佈情況

ECharts美顏一下：年度月份

文字挖掘

讀取資料

文章內容轉化成 list 格式

jieba 分詞

載入停用詞

去掉停用詞

統計詞頻

文章內容詞雲

醜版

自定義背景圖 1.0版

自定義背景圖 2.0版

線上詞雲生成網站：HTML5 Word Cloud

標題詞頻、詞雲

自定義背景圖：Bloody Woods

線上詞雲生成網站：HTML5 Word Cloud

簡書“今日看點”專題熱門文章標題詞雲

相關文章