Python分析36套四級真題獲取詞頻最高5000個詞彙,還怕四級不過麼

嬌兮心有之發表於2018-12-15

前言

從歷年四級英語真題中獲取詞頻最高的 5000 個詞彙 ,並進行翻譯 !綜合用到了爬蟲 、資料分析等知識 ,親愛的讀者們還擔心四級不能過麼?

本人對於Python學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習Python。歡迎各位到來Python學習群:960410445一起討論視訊分享學習。Python是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握Python核心技術,才是掌握真正的價值所在。

基本開發環境

版本:Python3

系統:Windows

相關模組:csv、peewee、Counter等

程式介紹

自動批量收集檔案中的英語單詞 txt (utf-8)

統計排序儲存到本地資料庫 voca.db

翻譯英文得到中文解釋

資料庫檔案提取得到csv表格

主要目的

成為考試必備詞庫

希望大家都能輕鬆過四級

工作流程

配置查詢文件

自動分析資料儲存至voca.db資料庫檔案

自動開啟資料庫呼叫api翻譯單詞並儲存到資料庫裡

將資料庫檔案轉換成csv表格檔案

具體實現

資料 (docx 複雜的文件結構不好用,可以在word裡面以txt方式儲存)

讀入檔案拿到所有單詞

剔除 常用單詞(is am are do……)

計數

資料庫初始化 peewee模組

加入單詞到資料庫

翻譯

提取所有單詞到csv

完整程式碼可以加Python學習群:960410445

翻譯過程

出現次數最多的簡單詞

出現次數較少,值得一背的詞

上述完整程式碼和獲取到的統計結果(5000個高頻詞),完整程式碼可以加Python學習群:960410445群檔案自行領取

相關文章