用Python分析雙十一電商新聞傳播資料

青衫無名發表於2018-03-15

同期來自螞蟻金服的金融支付資料顯示:截至18時55分,支付寶支付筆數達到了8.2億筆,已超過了去年全天的支付筆數,移動支付筆數超過了5.8億筆,佔比超七成。

下面我們用Python通過抓取百度搜尋“雙十一”關鍵詞的所有文字,對新聞文字進行文字挖掘,並對雙十一微博關鍵詞和相關博主的新聞傳播路徑進行分析。

主要利用beautifulsoup、urllib2、string等函式庫對文字進行抓取

主要程式碼片段如下:

if __name__==`__main__`:

        myname=raw_input("請輸入關鍵詞
")

        keywordsnum=raw_input("請輸入關聯詞個數
")

        if int(keywordsnum) == 0:

                keywords=[myname]

        else:

                keywords=[``]*int(keywordsnum)

                for k in range(int(keywordsnum)):

                    keywords[k]=raw_input("請輸入關聯的關鍵字%d
"%(k+1))

        url1 = "http://www.baidu.com/s?wd="+myname

        response1 = urllib2.urlopen(url1)

        content1 = response1.read()

        soup1 = BeautifulSoup(content1,`lxml`)

        site1 = soup1.find(class_="nums").get_text()

        num = string.atoi(OnlyCharNum(site1[11:-1].strip() .lstrip() .rstrip(`,`)))

        page = num/10

        print num,page

        filename=myname+".txt"

        myfile=open(filename,"w")

        keywordshownum=0

執行指令碼後輸入雙十一關鍵詞會進行抓取,介面如下:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

抓取的結果放進txt文件以便進行後續分析,

通過jieba分詞等函式庫或者分詞軟體對txt文字進行詞頻分析,得出以下結果,顯示詞語的出現次數和頻率等,可以進一步進行視覺化處理生成標籤雲等:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

本文完整原始碼下載地址:

http://pan.baidu.com/s/1i54raZF

在Python中文社群底部回覆“雙十一”三個字獲取本文完整原始碼下載密碼。

對微博雙十一、淘寶、京東關鍵詞進行挖掘得出以下相關聯的一些微博博主:

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=

原文釋出時間為:2016-11-11

本文作者:阿橙

本文來自雲棲社群合作伙伴“Python中文社群”,瞭解相關資訊可以關注“Python中文社群”微信公眾號


相關文章