文字過濾一般是網路環境下根據一定的標準和要求從動態的文字資訊流中選取使用者需要的資訊或剔除使用者不需要資訊的方法和過程。

　　隨著資訊社會的不斷髮展，人們面臨的資訊日益劇增，如何更準確、有效地找到自己感興趣的資訊，過濾掉與需求無關的“垃圾”資訊，成為了一個重要的研究問題，內容過濾技術也就應運而生。

　　中文文字過濾技術在最近幾年得到了業內人士的普遍關注。國內對於資訊過濾研究起步較晚，但是目前發展也很快，尤其是隨著資訊保安、資訊定製等應用在國內的興起，對資訊過濾技術的研究也得到人們普遍的重視。

　　文字過濾工作基本上可以概括為兩項：一是建立使用者需求模型，表達使用者對資訊的具體需求;二是匹配技術，即使用者模板與文字匹配技術。因此，文字過濾的主要流程首先是根據使用者的資訊求，建立使用者需求模型，然後在相應的文字流中搜尋符合使用者需求的文字，同時利用反饋改進需求模型。

　　1、中文分詞

　　中文分詞是對中文句子的切分技術，是中文文字最重要的預處理技術。自動分詞過程是指從資訊處理需要出發，按照特定的規範，對漢語按分詞單位進行劃分的過程自動分詞是漢語所特有的研究課題，英語、法語等印歐語種，詞與詞之間存在著自然的分割，一般不存在分詞的問題。

　　中文分詞

　　中文分詞是對中文句子的切分技術，是中文文字最重要的預處理技術。自動分詞過程是指從資訊處理需要出發，按照特定的規範，對漢語按分詞單位進行劃分的過程自動分詞是漢語所特有的研究課題，英語、法語等印歐語種，詞與詞之間存在著自然的分割，一般不存在分詞的問題。

　　漢語分詞系統的實現及效果依賴於分詞理論與方法。目前國內分詞系統所採用的或者正在研究的方法基本上分為以下幾類：

　　(1)機械分詞法：主要有最大匹配法、逆向最大匹配法、逐詞匹配法、部件詞典法、詞頻統計法、設立標誌法等。

　　(2)語義分詞法：語義分詞法引入了語義分析，對自然語言自身的語言資訊進行更多的處理，如擴充轉移網路法、知識分詞語義分析法、鄰接約束法、綜合匹配法、字尾分詞法等。

　　(3)人工智慧法，又稱理解分詞法，如專家系統法、神經網路方法等。

　　2 過濾模型

　　資訊過濾系統的效能，關鍵在於模型的完善程度如何。目前描述文字資訊的模型有很多種，有布林模型、向量空間模型、機率推理模型、潛在語義搜尋模型、基於模糊集合的資訊過濾模型。

　　而靈玖大資料文字過濾系統IFCA系統是經過多年自主研發的大資料資訊智慧過濾與內容審計系統，可以快速便捷地匹配大量自定義的關鍵字、詞，智慧過濾特定設定文字資料的內容，達到淨化網路空間、提取資訊的目的，並具有智慧、高效、自學習三大特點。

　　IFCA系統可應用於公安、廣播、電視、報刊雜誌以及廣泛的網路資訊內容安全服務。並可在IFCA基礎上，提供進一步的資料資訊監控等解決方案。

語義挖掘：靈玖大資料文字過濾

相關文章