20世紀80年代以來，隨著世界經濟的發展和新技術革命的到來，專利文獻作為一種既可以體現科技創新力，又可以保護科研成果不受侵犯的科技法律文獻，其重要性越來越受到重視。據世界智慧財產權組織(worldintellectualpropertyorganization)報導，專利文獻包含全世界每年90％～95％的最新科研成果，其中有70％左右的發明技術從未在其他非專利文獻上發表。專利文獻指導技術創新，將可以節約40％的研究經費和60％的研究時間，專利已經成為了企業科技創新和投資者商業戰略決策的重要科技參考文獻。

中國專利資料截止到2013年底達到了600萬條，超過了美國和日本，躍居世界第一。面對如此大量的專利資訊，使用者獲取有價值資訊的代價也越來越高，正是這種需求導致了專利資料各種研究工作的開展以及各種商業專利服務平臺的出現。

相對傳統文字而言，專利文獻有其特殊性，主要表現在5個方面：

(1)複雜性。專利文獻記載著技術解決方案，確定了專利權保護範圍，包含很多專業性和細節性的說明，特別是專利中描述技術細節和組成結構的句子表達非常複雜，涉及多種並列結構、依存結構和巢狀結構，在做句法語義分析時也比普通文字遇到更多的挑戰。

(2)規範化。專利文獻相對網頁有更規整的結構化資訊，一是它具有統一的分類，二是專利權利說明書遵循一定的寫作規範，有效地利用這些規範化資訊將有助於對專利的分析。

(3)抽象性。專利作為一種技術上受保護的文獻，專利發明人為了壟斷技術，會使用更加抽象的上位詞表達保護的覆蓋範圍，這些詞包含各種技術術語甚至是自定義詞彙，從而增加了詞法處理的難度。

(4)唯一性。專利是一種獨一無二的資訊資源，相對於網頁，專利間的文字重疊度往往很小，因此在計算專利相似度時，基於詞語重疊的方法並不適用。

(5)多主題多語言。一篇專利文獻經常包括多個主題，而且不同國家採用不同的語言描述專利，所以專利檢索更加註重跨語言多主題的檢索。

對比檔案1(一種專利檢索的系統和方法，cn201410787225.6)公開了一種專利檢索的系統和方法，專利檢索的系統包括使用者資訊管理模組、檢索型別選擇模組、檢索輸入模組、檢索配對模組和檢索輸出模組,專利檢索的方法包括：s1,從簡單檢索、高階檢索和表示式檢索中選擇適合本次檢索的檢索方式,並且進入該檢索的視窗；s2,在選擇進入的檢索方式的視窗中輸入檢索詞,點選檢索視窗進入顯示視窗；s3,在檢索視窗選擇專利呈現的形式,並彈出呈現視窗,或者選擇二次檢索過濾後再次呈現；s4,選擇對專利進行儲存或則結束程式。該發明中的專利檢索主要從功能性模組出發，並沒有進行實質性的提出高效率的檢索方法。

針對以上缺點，有必要設計出一種新的專利檢索方法，避免傳統專利檢索方法中檢索式構造的非友善性和二值匹配相關性，提高專利檢索結果的匹配度和關聯度。

一種基於概率檢索模型的大資料專利檢索方法與流程

相關文章