Individual Project - Word frequency program

我已經報警了發表於2014-09-25

1.做這個專案之前，因為之前在OO課中做過一些專案，這鐘演算法也非常熟悉，因此算上單純的詞法演算法，和C#語言中檔案操作的學習，預計一天之內應該可以寫好。
2.實際上做起來時，我發現c#與之前學過的java還是有些差別的，演算法非常簡單，但是學習使用c#花了許多時間，零零碎碎共做了2天。

3.原本一直認為程式的最大資源使用會是單詞按詞頻排序，但是經過演算法的分析，還是單詞+空格+單詞這種格式的判斷比較耗費時間

我的演算法是這樣的：讀入一個文字檔案的所有字元，以一個字串形式儲存。從頭到尾遍歷字串，認為大小寫字母和數字都是“字元”，其他都是分隔符，這樣整個字串就是這樣的形式：

字元+分隔符+字元+分隔符+...

將所有字元按順序儲存於一個陣列中，將所有分隔符也儲存在一個陣列中。

這樣第i個分隔符的左右兩個字元就是第i個字元和第i+1個字元（若i+1還在字元陣列的範圍內）

字元並不是等同於要求中的單詞，需要經過檢查。

建立單詞類，由一個字串“單詞” 和一個整形數“數量”組成。

功能1：新建單詞陣列，從前往後遍歷字元陣列，有符合單詞的條件的字元就加入陣列。陣列在加入單詞時檢查這個單詞（無視大小寫）是否存在過，若不存在新加單詞，若存在則數量加1並更新這個單詞的大小寫。然後陣列按單詞詞頻排序，數量相等的單詞按名稱字典序升序排序。

功能2：新建“雙單詞”陣列，遍歷分隔符陣列，若分隔符是單個空格，則檢查這個分隔符兩旁的字元是否都是單詞（若越界則不檢查），若都是單詞，將這個“左單詞”+“ ”+“右單詞”

的字串加入“雙單詞”陣列中，處理方法同功能1，輸出詞頻前10位。

功能3：新建“三單詞”陣列，遍歷分隔符陣列，若連續兩個分隔符都是單個空格，則檢查這兩個分隔符附近的三個字元是否都是單詞（若越界則不檢查），若都是單詞，將這個“左單詞”+“ ”+“中單詞”+“ ”+“右單詞”的字串加入“三單詞”陣列中，處理方法同功能1，輸出詞頻前10位。

4.測試用例：共取了紐約時報上的10篇文章，有些位於測試檔案目錄下，有些位於測試檔案目錄中的檔案目錄下

與我的隊友一起測試，將取得的結果進行對比。

5.要提高程式效率，一個好的演算法非常重要，這少不了程式設計前的細緻分析。另外，我注意到，我寫的程式的可移植性很差，整體來看功能是可以的，但是內部幾個部分的程式設計風格還是十分粘滯，我寫其他程式時經常要把已經寫過的功能再寫一遍。這並不是什麼好習慣，我在以後的程式設計過程中一定會注意。

Record for Individual Project ( Word frequency program )
2014-09-18
Project
Individual Project - Word_frequency
2014-09-25
Project
個人專案 Individual Project
2015-04-27
Project
linux - word frequency
2019-03-19
Linux
Can't debug c++ project because unable to static library start program *.lib
2018-09-15
C++Project
Details on individual partitions
2011-07-08
AI
Backing Up Individual Tablespaces with RMAN
2008-06-05
【ABAP】FTP Program
2013-04-11
FTP
Spark Driver Program剖析
2020-09-19
Spark
Registering a program on the Gateway
2009-01-20
Gateway
[LeetCode] 451. Sort Characters By Frequency
2019-01-19
LeetCode
Run a program as a service (daemon)-GO
2018-05-03
Go
Program Units and Referenced Objects (244)
2007-11-25
Object
Overview of the Program Global Areas (97)
2007-10-25
View
Program Interface Structure (135)
2007-11-03
Struct
pwn.college-Program Misuse
2024-03-09
Project: OCFS
2006-08-21
Project
OA project
2008-03-21
Project
Oracle 12c新特性 - Top frequency histogram 3
2014-03-24
OracleHistogram
Oracle 12c新特性 - Top frequency histogram 2
2014-03-24
OracleHistogram
Oracle 12c新特性 - Top frequency histogram 1
2014-03-24
OracleHistogram
[LeetCode] 2080. Range Frequency Queries
2024-11-15
LeetCode
jsp+tomcat+ 建立project 配置project
2018-01-31
JSTomcatProject
HDU - 6736 F - Forest Program
2020-10-19
REST
SAP APP: Automatic Payment Program
2014-03-05
APP
Program Execution 程式的執行
2014-10-17
Program perl 資料結構
2013-05-31
資料結構
oracle concurrent program session and sql
2011-06-10
OracleSessionSQL
Oracle Scheduler（5）job呼叫program
2015-10-28
Oracle
The Network Program Log Two (Scapy)
2024-10-11
Profiling an Assembly Program
2024-11-05
pwn.college Fundementals Program interaction
2024-04-04
歡迎參與討論POP(Project Oriented Project)
2003-07-30
Project
Lc 895. Maximum Frequency Stack 最大頻率棧 JS
2019-02-21
JS
[20170604]12c Top Frequency histogram 2
2017-06-04
Histogram
Prettier your project
2019-04-15
Project
sbt建立project
2012-02-23
Project
物件啟用用得到的Program
2014-02-15
物件

Individual Project - Word frequency program

相關文章