軟體工程-論文查重

seedwd發表於2024-03-18

第一次個人程式設計作業

這個作業屬於哪個課程	<軟體工程2024-雙學位>
這個作業要求在哪裡	<軟體工程第一次個人程式設計作業>
這個作業的目標	完成編碼任務

PSP表格

PSP2.1	Persenonal Software Process Stages	預計耗時（分鐘）	實際耗時（分鐘）
Planning	計劃	30	30
Estimate	估計這個任務需要多少實踐	10	10
Development	開發	120	70
- Analysis	需求分析（包括學習新技術）	30	20
- Design Spec	生成設計文件	20	10
- Design Review	設計複審	10	5
- Coding standard	程式碼規範（為目前的開發指定合適的規範）	15	10
- Design	具體設計	20	15
- Coding	具體編碼	30	20
- Test	程式碼複審	15	10
- Reporting	測試（自我測試，修改程式碼，提交修改）	10	5
- Test Report	報告	10	5
- Size Measurement	計算工作量	10	5
- Postmortem & Process Improvement Plan	事後總結，並提出過程改進計劃	20	15
	合計	300	195

2. 計算模組介面設計與實現

主要類設計

Document
- 表示一篇文件,包含文字內容
- 提供文字預處理功能,如移除標點、轉小寫等
- 實現將文件切分為詞元序列的方法
SimilarityDetector
- 計算兩篇文件相似度的核心類
- 使用最長公共子序列(LCS)演算法計算相似度
- 包含基於動態規劃和記憶化搜尋的LCS計算方法
PlagiarismChecker
- 主程式入口
- 處理命令列引數
- 讀取檔案內容
- 使用SimilarityDetector計算相似度
- 輸出結果到指定檔案

演算法關鍵點

文件預處理: 過濾掉標點符號、轉為小寫等,使文件標準化
詞元序列化: 將文件切分為詞元(token)序列,作為相似度計算的基礎
LCS演算法: 計算兩文件詞元序列的最長公共子序列長度
相似度計算:
相似度 = LCS長度 / max(原文詞元數, 抄襲版詞元數)

該演算法的獨到之處是使用LCS作為相似度計算的核心,能夠規避"交換詞序"這類改動的影響。

3. 效能改進

最初的LCS動態規劃演算法時間複雜度為O(mn),m和n分別為兩文件詞元序列長度,當文件較長時會導致效能低下。

為加速計算,我引入了以下最佳化策略:

雜湊表儲存詞元
- 將較短文件的詞元使用雜湊表儲存
- 查詢是否屬於LCS只需O(1)時間
記憶化搜尋
- 避免重複計算相同的LCS子問題
- 使用記憶化陣列儲存子問題解,降低時間複雜度至O(mn)

經過上述最佳化,演算法在長文件上的效能有了極大提升:

![演算法效能分析][]

如圖所示,消耗時間最長的函式已由LCS計算變為底層的文件預處理函式。

4. 單元測試

編寫了以下單元測試用例:

import unittest
from plagiarism_checker import *

class TestSimilarityDetector(unittest.TestCase):

    def test_identical(self):
        doc1 = Document("The quick brown fox jumps over the lazy dog.")
        doc2 = Document("The quick brown fox jumps over the lazy dog.")
        result = SimilarityDetector.compute_similarity(doc1, doc2)
        self.assertAlmostEqual(result, 1.0)
    
    def test_different(self):
        doc1 = Document("I have a dream that one day...")
        doc2 = Document("In the beginning, God created the heavens and the earth...")
        result = SimilarityDetector.compute_similarity(doc1, doc2)
        self.assertAlmostEqual(result, 0.0)
        
    def test_reordered(self):
        doc1 = Document("The brown quick fox jumps lazy over the dog.")
        doc2 = Document("The quick brown fox jumps over the lazy dog.") 
        result = SimilarityDetector.compute_similarity(doc1, doc2)
        self.assertAlmostEqual(result, 1.0)

主要測試點包括:

完全相同的文件
完全不同的文件
存在詞序改動的情況
刪除/增加少量詞語的情況

透過IDE的測試覆蓋率分析工具,測試覆蓋率達到了85%:

測試結果

5. 異常處理

針對以下幾種可能的異常情況,做了處理:

1.檔案不存在異常

目標: 提醒使用者輸入了無效的檔案路徑

測試用例:

def test_file_not_found(self):
    with self.assertRaises(FileNotFoundError):
        PlagiarismChecker.run("fakefile.txt", "orig.txt", "output.txt")

2.檔案讀取異常

目標: 捕獲檔案讀取過程中的異常,如許可權、磁碟空間等問題

測試用例:

def test_permission_denied(self):
# 建立一個臨時只讀檔案

    file = open("temp.txt", "w")
    file.close()
    os.chmod("temp.txt", 0o400) # 設定為只讀
    with self.assertRaises(PermissionError):
    doc = Document("temp.txt")
    
os.remove("temp.txt")

3.輸入檔案為空

目標: 確保輸入檔案有內容,防止除0錯誤

測試用例:

def test_empty_file(self):
    doc1 = Document("") 
    doc2 = Document("This is not empty.")
    with self.assertRaises(ValueError):
        SimilarityDetector.compute_similarity(doc1, doc2)

手機論文查重軟體哪個好？
2019-03-29
論文查重
2024-09-13
論文查重之小白都懂
2024-03-17
java實現論文查重
2024-03-15
Java
個人專案—論文查重
2024-09-12
個人專案：論文查重
2024-09-14
個人專案-論文查重
2024-09-15
免費的論文查重網站
2021-05-13
網站
基於tf-idf的論文查重
2024-09-10
考研要求提交論文PDF查重注意事項（知網查重必看！）
2018-10-18
論軟體工程師的自我修養：角色、重構與質量
2020-10-10
軟體工程工程師
第二次作業--論文查重
2024-03-14
第二次作業——論文查重
2024-03-18
軟體論文之論軟體質量保證及其應用
2024-10-18
微軟37頁論文逆向工程Sora，得到了哪些結論？
2024-03-01
微軟Sora
軟考論文之論軟體的可靠性設計
2024-10-16
《軟體工程導論》課後習題答案
2018-06-22
軟體工程
軟體工程概論18918第一節課
2018-09-18
軟體工程
軟體工程方法論對軟體開發有多大的用處？
2024-05-26
軟體工程
【軟體工程理論與實踐】Homework(四.1)
2020-10-15
軟體工程
《軟體工程（本科教學版）》考試重點
2020-11-19
軟體工程
阿里雲訊息團隊創新論文被軟體工程頂會 FM 2024 錄用
2024-10-29
阿里軟體工程
軟體工程方法論對我們經軟體開發有多大用處?
2024-05-26
軟體工程
軟體工程--為什麼軟體開發方法論讓你覺得糟糕
2020-10-29
軟體工程
軟體工程-軟體工程層狀模型（EHM）
2024-06-11
軟體工程模型
論文查詢網站
2019-10-30
網站
軟考論文論湖倉一體架構及其應用
2024-10-20
架構
軟體工程第一章軟體與軟體工程
2024-03-13
軟體工程
軟體工程
2024-03-31
軟體工程
論文查重演算法
2024-03-13
演算法
查論文作者的網站
2018-04-26
網站
軟體工程概論925第二次上課
2018-09-28
軟體工程
【軟體工程理論與實踐】Homework(一.2,3)
2020-10-03
軟體工程
軟體質量一級屬性科技論文（1)
2024-04-08
軟體工程1
2024-05-12
軟體工程
軟體工程4.18
2024-05-14
軟體工程
軟體工程5.8
2024-05-14
軟體工程
軟體工程5.7
2024-05-14
軟體工程

軟體工程-論文查重

第一次個人程式設計作業

PSP表格

2. 計算模組介面設計與實現

主要類設計

演算法關鍵點

3. 效能改進

4. 單元測試

5. 異常處理

相關文章