Python統計四六級考試的詞頻

Python知識圈發表於2018-09-10


此文首發於公眾號 「Python知識圈」, 歡迎直接去公眾號檢視

閱讀文字大概需要 4.6 分鐘。

今天是教師節,先祝天下所有老師教師節快樂,感謝您在我學生時代對我的諄諄教誨。

現在是開學之初,風華正茂的青年才俊們應該已經在圖書館佔好了座位,開始備戰 12 月份的英語四六級考試了吧!想當年,pk 哥四級考試前也在圖書館待了一陣子,後來四級考了 450 分驚險過關,六級考試第一次考了 400 分沒過,第二次準備去考時找不到准考證,考完第二天才發現夾在了紙質的筆記本里,大寫的尷尬啊,後來也就不了了之。我們知道,四六級考試中,單詞的詞彙量是重點,閱讀時如果單詞都不認識的話,影響我們對語句的理解,這樣也會降低答題的正確率。

怎麼去高效的記單詞也是一件頭疼的事情,可能今天記住了,明天又忘了。

今天我用 Python 分析了最近 10 年的四六級考試的真題,把裡面的單詞進行統計,按照降序排序,並做成視覺化的圖形。

專案環境

語言:Python 3
編輯器:Pycharm

我從網上下載了最近 10 年的四六級考試的真題,都為純文字 txt 格式的檔案。我先把四六級真題單獨建了資料夾儲存。

合併文字

以四級真題為例,為了便於統計,我先把近 10 年所有的純文字真題合併成一個純文字檔案。遍歷讀取給定路徑下的所有檔案的內容,儲存到新文字中。

Python統計四六級考試的詞頻

單詞統計

全部內容  請點選這裡檢視


相關文章