純乾貨無廣告,畢業大論文,如何優雅地拼拼湊湊,降重和潤色

B站-水论文的程序猿發表於2024-10-11

目錄
  • 拼拼湊湊
    • 風格選定
    • 例項(使用GPT翻譯成中文)
    • 拼拼湊湊(手動拼湊)
    • 拼拼湊湊(GPT直述)
      • 知網查重率
      • AIGC檢測率
  • 查重
    • 普通查重
    • AIGC檢測
  • 降重
    • 直接使用GPT
    • 先縮寫後擴寫
      • 縮寫
      • 擴寫
    • 中日英互譯
      • 中翻日
      • 日翻英
      • 英翻中
      • 效果
  • 潤色(必須得進行)
    • GPT潤色
    • 人工潤色(推薦)

拼拼湊湊

風格選定

風格1

image-20241011165615373

風格2

image-20241011165737730

風格3

image-20241011165949772

例項(使用GPT翻譯成中文)

Attention-Based Multimodal Fusion for Video Description(1)

我們使用YouTube2Text [9] 和 MSR-VTT [32] 影片資料集評估了我們提出的特徵融合方法。YouTube2Text包含……

MSR-VTT [32] 包含10,000個網路影片片段,總時長為41.2小時,並提供了200,000個片段-句子對,涵蓋了20個類別以及各種型別的影片內容。每個片段平均有大約20個自然語言句子註釋。該資料集被分為訓練集、驗證集和測試集,比例為65%、5%、30%,對應於6,513個、497個和2,990個影片片段。然而,由於這些影片片段託管於YouTube上,部分MSR-VTT影片由於內容或版權問題已被刪除。在我們下載這些影片(2017年2月)時,約12%不可用。因此,我們只使用了可用的MSR-VTT資料集子集進行訓練和測試,具體為訓練集5,763個片段、驗證集419個片段和測試集2,616個片段。

Global2Local: A Joint-Hierarchical Attention for Video Captioning(2)

我們在MSVD(Chen 和 Dolan 2011)和 MSR-VTT(Xu 等 2016)資料集上對提出的G2L方法進行了評估。MSVD由……

MSR-VTT是一個廣泛使用的影片字幕生成基準資料集,比MSVD更具挑戰性。它包含來自20個通用動作類別的10,000個影片片段。每個影片片段附有20個人工標註的自然字幕。我們遵循其標準的資料劃分:6,513個片段用於訓練,497個片段用於測試,剩餘2,990個片段也用於測試。

Multimodal feature fusion based on object relation for video captioning(3)

微軟研究影片到文字(翻譯的結果,但是這是有問題的)Microsoft research‐video to text(MSR-VTT)[17] 資料集包含10,000個影片片段,分為三個部分:訓練、驗證和測試。每個影片片段標註了大約20個英文字幕,總共200,000個字幕。此外,MSR-VTT還為每個影片提供類別資訊(共20個類別)。根據這些論文中的實驗[9, 12],我們將使用公開的劃分進行訓練和測試,包括6,513個影片片段用於訓練,497個片段用於驗證,2,990個片段用於測試。

image-20241011165323095

Controllable Video Captioning with POS Sequence Guidance Based on Gated Fusion Network(4)

MSR-VTT是一個用於影片字幕生成的大規模資料集,涵蓋了迄今為止最為多樣的視覺內容。它包含來自20個類別的10,000個影片片段和200,000個影片-字幕對,總共包含29,000個獨特的單詞。每個影片片段對應20個英文句子描述。按照現有的工作,我們使用公開的資料劃分進行訓練和測試,其中6,513個用於訓練,497個用於驗證,2,990個用於測試。

拼拼湊湊(手動拼湊)

我們使用YouTube2Text [9] 和 MSR-VTT [32] 影片資料集(1)對提出的G2L方法進行了評估。MSVD由……(2)

Microsoft research‐video to text(MSR-VTT)[17] 資料集包含10,000個影片片段,(3)和200,000個影片-字幕對,總共包含29,000個獨特的單詞。(4)根據這些論文中的實驗[9, 12],(3)該資料集被分為訓練集、驗證集和測試集,(1)其中6,513個【影片片段】用於訓練,497【影片片段】個用於驗證,2,990個【影片片段】用於測試。(4)然而,由於這些影片片段託管於YouTube上,部分MSR-VTT影片由於內容或版權問題已被刪除。在我們下載這些影片(2017年2月)時,約12%不可用。因此,我們只使用了可用的MSR-VTT資料集子集進行訓練和測試,具體為訓練集5,763個片段、驗證集419個片段和測試集2,616個片段。(1)

注意:黃色標註的那一個片段名堂就多了,哪些影片因為內容或者版權問題被刪除,亦或者說部分影片找不到,鬼都不知道是不是如此,沒人去驗證,也很難驗證。那麼把一些評價不好的資料刪掉,保留有益的資料集,模型效果必然不錯。這也是很多論文對資料集的基本操作,尤其是私有資料集。

拼拼湊湊(GPT直述)

image-20241011173026086

由於知網查重有字數限制,加了一堆沒用的文字

知網查重率

0%

image-20241011175015829

AIGC檢測率

0%

image-20241011174832949

現在知道為什麼諾獎頒發給ai了吧,但是不能完全相信AI,尤其是用gpt生成段落之後,一定要再次潤色,後文會講到這一點

查重

https://www.cnki.net/ 知網查重

image-20241011173424715

普通查重

image-20241011173323613

AIGC檢測

image-20241011173356702

降重

直接使用GPT

直接使用提示詞,但是效果不會特別好,建議用後面兩種方法

image-20241011175735552

先縮寫後擴寫

縮寫

image-20241011180128510

擴寫

image-20241011180323223

中日英互譯

中翻日

image-20241011180619117

日翻英

image-20241011180638834

英翻中

image-20241011180756871

效果

原:MSR-VTT資料集是影片描述領域的一個重要大規模基準資料集,廣泛用於影片字幕生成的研究。該資料集包含來自20個不同類別的10,000個影片片段,每個影片片段均配有20個由人工標註的英文字幕,總計200,000個影片-字幕對。這些字幕涵蓋了29,000個獨特的單詞,使其成為多樣性和內容豐富性的代表。MSR-VTT資料集的標準劃分為6,513個影片片段用於訓練,497個用於驗證,2,990個用於測試,確保了研究結果的可比性和可靠性。該資料集因其廣泛的應用場景和挑戰性,被廣泛採用用於評估和比較各種影片描述演算法的效能。

將重後:MSR-VTT資料集是一個大規模的基準資料集,在影片描述領域中發揮著重要作用,並且廣泛用於影片字幕生成的研究。該資料集包含從20個不同類別中收集的10,000個影片片段,每個片段附有20個人工標註的英文字幕,總計200,000個影片-字幕對。這些字幕涵蓋了29,000個獨特的單詞,代表了高度的多樣性和內容豐富性。MSR-VTT資料集根據標準劃分為:6,513個影片片段用於訓練,497個用於驗證,2,990個用於測試,確保了研究結果的可比性和可靠性。由於其廣泛的應用範圍和高挑戰性,該資料集被廣泛用於各種影片描述演算法的評估和比較。

潤色(必須得進行)

GPT潤色

自行編輯提示詞,按照你的需求來就行。

image-20241011175555258

人工潤色(推薦)

將重後:MSR-VTT資料集是一個大規模的基準資料集,在影片描述領域中發揮著重要作用,並且廣泛用於影片字幕生成的研究。該資料集包含從20個不同類別中收集的10,000個影片片段,每個片段附有20個人工標註的英文字幕,總計200,000個影片-字幕對。這些字幕涵蓋了29,000個獨特的單詞,代表了高度的多樣性和內容豐富性。MSR-VTT資料集根據標準劃分為:6,513個影片片段用於訓練,497個用於驗證,2,990個用於測試,確保了研究結果的可比性和可靠性。由於其廣泛的應用範圍和高挑戰性,該資料集被廣泛用於各種影片描述演算法的評估和比較。

微軟研究影片到文字(翻譯的結果,但是這是有問題的)Microsoft research‐video to text(MSR-VTT)[17] 資料集包含10,000個影片片段,分為三個部分:訓練、驗證和測試。每個影片片段標註了大約20個英文字幕,總共200,000個字幕。此外,MSR-VTT還為每個影片提供類別資訊(共20個類別)。根據這些論文中的實驗[9, 12],我們將使用公開的劃分進行訓練和測試,包括6,513個影片片段用於訓練,497個片段用於驗證,2,990個片段用於測試。

一時半會找不出好的例子,但是上面兩段話應該足夠了。無論是拼湊的段落,還是GPT潤色後的段落,都要進行人工潤色:一般就是對專業詞進行修改,通讀一兩遍保證邏輯順暢,尤其是要保證上下文的邏輯順暢

不可否認的是,GPT很強大,特別強大,但一定要人工潤色!

不可否認的是,GPT很強大,特別強大,但一定要人工潤色!!

不可否認的是,GPT很強大,特別強大,但一定要人工潤色!!!

相關文章