基於tf-idf的論文查重

gomevie發表於2024-09-10

原文網址 : https://www.cnblogs.com/gomevie/p/18407482

基於tf-idf的論文查重

github地址：https://github.com/gomevie/gomevie/tree/main

這個作業屬於哪個課程	廣工計院計科34班軟工
這個作業要求在哪裡	作業要求
這個作業的目標	設計並實現一個論文查重演算法，透過比較原文和抄襲版論文檔案，計算並輸出重複率。

PSP表格

PSP2.1	Personal Software Process Stages	預估耗時（分鐘）	實際耗時（分鐘）
Planning	計劃	60	60
Estimate	估計這個任務需要多少時間	700	730
Development	開發	200	150
Analysis	需求分析 (包括學習新技術)	60	90
Design Spec	生成設計文件	30	30
Design Review	設計複審	30	30
Coding Standard	程式碼規範 (為目前的開發制定合適的規範)	20	30
Design	具體設計	60	60
Coding	具體編碼	60	60
Code Review	程式碼複審	30	30
Test	測試（自我測試，修改程式碼，提交修改）	60	90
Reporting	報告	40	30
Test Repor	測試報告	40	30
Size Measurement	計算工作量	10	10
Postmortem & Process Improvement Plan	事後總結, 並提出過程改進計劃	30	30
	合計	730	730

模組介面設計

資料處理模組

該模組負責處理輸入和輸出的檔案。

read_file(file_path)函式
功能：讀取檔案內容。
輸入：檔案路徑（字串）。
輸出：檔案內容（字串）。
異常處理：需要處理檔案不存在或無法讀取的異常。

write_output(file_path, similarity)函式
功能：將計算得到的相似度寫入檔案。
輸入：檔案路徑（字串），相似度（浮點數）。
輸出：無（操作是寫檔案）。
異常處理：需要處理檔案寫入錯誤。

分析模組

該模組負責文字的分詞和相似度計算。

tokenize(text)函式
功能：使用jieba進行中文分詞。
輸入：原始文字（字串）。
輸出：分詞後的列表。
異常處理：處理文字為空或分詞失敗的情況。

calculate_similarity(original_tokens, plagiarized_tokens)函式
功能：計算兩組分詞的TF-IDF向量的餘弦相似度。
輸入：原文分詞列表，抄襲版分詞列表。
輸出：相似度百分比（浮點數）。
異常處理：處理分詞列表為空或TF-IDF計算失敗的情況。

程式碼的獨到之處

使用TF-IDF進行文字相似度計算:
利用TF-IDF（詞頻-逆文件頻率）演算法來轉換文字資料為可以進行數學運算的向量形式，這是一種在文字挖掘中常用的技術，能夠較好地反映文字的語義資訊。

餘弦相似度的應用:
透過計算兩個向量之間的餘弦相似度來評估文字間的相似性，這是一種有效衡量文字相似度的方法，特別是在處理高維資料時。

jieba分詞的利用:
對中文文字進行有效分詞，jieba是中文自然語言處理中廣泛使用的庫，其準確性和效率都經過了實踐的檢驗。

異常處理和環境檢查:
在寫入輸出檔案之前檢查目錄是否存在，如果不存在則建立，這種對執行環境的檢查可以避免常見的檔案操作錯誤。

命令列引數的使用:
透過命令列引數接收檔案路徑，使得程式更加靈活，易於整合到其他系統或工作流中。

程式碼實現了一個結構清晰、模組化良好的論文查重系統。它使用了先進的文字處理技術（如TF-IDF和餘弦相似度），並結合了有效的中文分詞工具（jieba），這些都是文字相似度分析中的關鍵技術。程式碼的模組化和麵向物件的設計提高了其可維護性和可擴充套件性，而異常處理和環境檢查則增強了程式的健壯性。

流程圖：

效能分析

在執行了analye_pstats.py後可以獲取累計時間前十的函式並列印詳細資訊。

終端執行 snakeviz profiling_results.stats後可以獲取視覺化結果：

概覽
總執行時間：程式的總執行時間為 1.57 秒。
呼叫棧深度：當前顯示的呼叫棧深度為 10 層。
截止值：設定的截止值為 1/1000，這意味著只有超過總時間 0.1% 的函式才會顯示。

效能資料
呼叫次數：1 次
總時間：0.3666 秒
每次呼叫時間：0.3666 秒
累計時間：0.3666 秒
這個內建方法的呼叫次數和每次呼叫時間表明它可能是一個效能熱點。exec 方法通常用於執行動態的 Python 程式碼，這可能是在執行時編譯和執行程式碼，這可能是一個耗時的操作。

main.py:1()：
總時間：1.57 秒
這表示 main.py 的入口點（if name == "main":）的總執行時間。這個時間包括了所有從這個點開始的函式呼叫。

單元測試

測試用例名稱：
test_calculate_similarity_invalid_value：這個測試用例的名稱表明它旨在測試計算文字相似度時，對於非法或異常值的處理。

測試目標：
測試查重系統在遇到無效或非預期輸入時的行為。這可能包括測試演算法的魯棒性，確保它能夠處理異常情況，如非法的輸入資料或計算過程中可能出現的錯誤。

測試方法：
使用了 unittest.mock.patch 來模擬 cosine_similarity 函式的行為。這是一種常見的測試技巧，用於在測試過程中控制和測試依賴項的行為，而不需要實際執行依賴項的程式碼。

測試執行：
測試透過模擬 cosine_similarity 函式返回一個固定的值（在這裡是 np.array([[1.0]])），來測試當函式返回最大相似度（100%）時，查重系統是否能夠正確處理並返回預期的結果。

測試結果：
測試執行成功，沒有發現錯誤或異常，表明在模擬的條件下，查重系統能夠正確處理輸入並返回預期的輸出。

異常處理

檔案不存在（FileNotFoundError）
場景：當嘗試讀取一個不存在的檔案時，會引發 FileNotFoundError。
原因：可能是因為檔案路徑錯誤、檔案未建立或被刪除。
處理：捕獲此異常並提醒使用者檢查檔案路徑，可能需要提供正確的檔案路徑或建立檔案。

檔案讀取許可權問題（PermissionError）
場景：當程式嘗試讀取一個沒有讀取許可權的檔案時，會引發 PermissionError。
原因：可能是因為檔案許可權設定限制了當前使用者的訪問，或者檔案正被另一個程式使用。
處理：捕獲此異常並提醒使用者檢查檔案許可權或關閉佔用檔案的程式。

分詞過程中的異常（如 jieba 內部錯誤）
場景：在使用 jieba 進行分詞時，如果遇到無法處理的字元或內部錯誤，可能會引發異常。
原因：可能是因為輸入文字包含特殊字元或編碼問題。
處理：捕獲異常並提醒使用者檢查輸入文字，可能需要清洗資料或轉換編碼。

相似度計算中的異常
場景：在計算文字相似度時，如果輸入資料格式不正確或存在其他問題，可能會引發異常。
原因：可能是因為向量資料不相容或演算法實現中的錯誤。
處理：捕獲異常並檢查輸入資料的格式和有效性，確保資料適合進行計算。

寫入檔案時的許可權問題（PermissionError）
場景：嘗試寫入一個沒有寫入許可權的檔案或目錄時，會引發 PermissionError。
原因：可能是因為目錄許可權設定限制了當前使用者的寫入操作。
處理：捕獲異常並提醒使用者檢查目錄許可權，可能需要更改許可權或選擇其他目錄。

目錄建立失敗（OSError）
場景：當嘗試建立一個目錄，但因為路徑錯誤、磁碟空間不足或其他系統錯誤而失敗時，會引發 OSError。
原因：可能是因為路徑無效、磁碟空間不足或檔案系統錯誤。
處理：捕獲異常並提醒使用者檢查路徑和磁碟狀態，可能需要清理磁碟空間或修復檔案系統。

命令列引數不足（SystemExit）
場景：當程式期望的命令列引數數量不滿足時，會引發 SystemExit。
原因：可能是因為使用者忘記提供必要的引數。
處理：捕獲異常並提醒使用者檢查命令列引數，提供正確的使用方法。

論文查重
2024-09-13
論文查重之小白都懂
2024-03-17
軟體工程-論文查重
2024-03-18
軟體工程
java實現論文查重
2024-03-15
Java
免費的論文查重網站
2021-05-13
網站
個人專案—論文查重
2024-09-12
個人專案：論文查重
2024-09-14
個人專案-論文查重
2024-09-15
考研要求提交論文PDF查重注意事項（知網查重必看！）
2018-10-18
手機論文查重軟體哪個好？
2019-03-29
第二次作業--論文查重
2024-03-14
第二次作業——論文查重
2024-03-18
基於attention的半監督GCN | 論文分享
2019-03-05
GC
查論文作者的網站
2018-04-26
網站
畢業論文(基於jsp的論壇開發)(含原始檔)
2019-01-01
JS
jieba 基於 TF-IDF 演算法的關鍵詞提取
2020-12-19
Jieba演算法
基於相關畢業設計論文下載基於WEB,基於java基於JSP
2019-01-24
WebJavaJS
基於SSM的校園論壇網站系統畢業設計論文【範文】
2024-06-02
SSM網站
基於SSM的酒店管理系統畢業設計論文【範文】
2024-05-02
SSM
論文查詢網站
2019-10-30
網站
基於SSM的網上商城系統畢業設計論文【範文】
2024-05-31
SSM
基於 BDD 理論的 Nebula 整合測試框架重構（上篇）
2021-06-30
框架
基於 BDD 理論的 Nebula 整合測試框架重構（下篇）
2021-06-30
框架
論文解讀 | 基於神經網路的知識推理
2018-03-08
神經網路
基於SSM的線上考試系統畢業設計論文【範文】
2024-05-04
SSM
論文查重演算法
2024-03-13
演算法
基於GAN的字型風格遷移 | CVPR 2018論文解讀
2018-04-03
帶你讀AI論文：基於Transformer的直線段檢測
2021-09-11
AIORM
關於如何寫論文
2019-03-22
降低論文重複率的幾種修改方法！
2020-09-03
網上花店論文-基於jsp開發(含原始檔)
2019-01-05
JS
基於Python的tf-idf演算法實現：以《笑傲江湖》為例
2018-09-15
Python演算法
查詢論文原始碼網站
2019-03-18
原始碼網站
基於SSM的線上外賣訂餐系統畢業設計論文【範文】
2024-05-25
SSM
ECCV 2018最佳論文解讀：基於解剖結構的面部表情生成
2018-09-14
基於JSP小區物業管理系統(論文+原始碼)
2018-09-28
JS原始碼
論文復現丨基於ModelArts實現Text2SQL
2022-12-27
SQL
基於注意力機制與改進TF-IDF的推薦演算法
2024-04-11
演算法

基於tf-idf的論文查重

基於tf-idf的論文查重

PSP表格

模組介面設計

資料處理模組

分析模組

程式碼的獨到之處

效能分析

單元測試

異常處理

相關文章