語義挖掘:靈玖大資料文字過濾
文字過濾一般是網路環境下根據一定的標準和要求從動態的文字資訊流中選取使用者需要的資訊或剔除使用者不需要資訊的方法和過程。
隨著資訊社會的不斷髮展,人們面臨的資訊日益劇增,如何更準確、有效地找到自己感興趣的資訊,過濾掉與需求無關的“垃圾”資訊,成為了一個重要的研究問題,內容過濾技術也就應運而生。
中文文字過濾技術在最近幾年得到了業內人士的普遍關注。國內對於資訊過濾研究起步較晚,但是目前發展也很快,尤其是隨著資訊保安、資訊定製等應用在國內的興起,對資訊過濾技術的研究也得到人們普遍的重視。
文字過濾工作基本上可以概括為兩項:一是建立使用者需求模型,表達使用者對資訊的具體需求;二是匹配技術,即使用者模板與文字匹配技術。因此,文字過濾的主要流程首先是根據使用者的資訊求,建立使用者需求模型,然後在相應的文字流中搜尋符合使用者需求的文字,同時利用反饋改進需求模型。
1、中文分詞
中文分詞是對中文句子的切分技術,是中文文字最重要的預處理技術。自動分詞過程是指從資訊處理需要出發,按照特定的規範,對漢語按分詞單位進行劃分的過程自動分詞是漢語所特有的研究課題,英語、法語等印歐語種,詞與詞之間存在著自然的分割,一般不存在分詞的問題。
中文分詞
中文分詞是對中文句子的切分技術,是中文文字最重要的預處理技術。自動分詞過程是指從資訊處理需要出發,按照特定的規範,對漢語按分詞單位進行劃分的過程自動分詞是漢語所特有的研究課題,英語、法語等印歐語種,詞與詞之間存在著自然的分割,一般不存在分詞的問題。
漢語分詞系統的實現及效果依賴於分詞理論與方法。目前國內分詞系統所採用的或者正在研究的方法基本上分為以下幾類:
(1)機械分詞法:主要有最大匹配法、 逆向最大匹配法、 逐詞匹配法、 部件詞典法、詞頻統計法、設立標誌法等。
(2)語義分詞法:語義分詞法引入了語義分析,對自然語言自身的語言資訊進行更多的處理,如擴充轉移網路法、知識分詞語義分析法、鄰接約束法、綜合匹配法、字尾分詞法等。
(3)人工智慧法,又稱理解分詞法,如專家系統法、神經網路方法等。
2 過濾模型
資訊過濾系統的效能,關鍵在於模型的完善程度如何。目前描述文字資訊的模型有很多種,有布林模型、向量空間模型、機率推理模型、潛在語義搜尋模型、 基於模糊集合的資訊過濾模型。
而靈玖大資料文字過濾系統IFCA系統是經過多年自主研發的大資料資訊智慧過濾與內容審計系統,可以快速便捷地匹配大量自定義的關鍵字、詞,智慧過濾特定設定文字資料的內容,達到淨化網路空間、提取資訊的目的,並具有智慧、高效、自學習三大特點。
IFCA系統可應用於公安、廣播、電視、報刊雜誌以及廣泛的網路資訊內容安全服務。並可在IFCA基礎上,提供進一步的資料資訊監控等解決方案。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31386431/viewspace-2129240/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- NLPIR語義挖掘技術提升大資料處理效果大資料
- 靈玖軟體NLPIR大資料技術深度挖掘中文自然語言大資料
- 文字挖掘之語料庫、分詞、詞頻統計分詞
- Logback中如何自定義靈活的日誌過濾規則
- 靈玖大資料在中文語義分析完成新突破大資料
- 4、過濾器的使用及自定義過濾器過濾器
- ELK<logstash>過濾json資料JSON
- 使用MySQL之過濾資料MySql
- Linux基礎命令---文字過濾colLinux
- Linux基礎命令---文字過濾colrmLinux
- Linux基礎命令—文字過濾colLinux
- 【文字挖掘】(三)文字表示
- 資料分析與挖掘-挖掘建模
- Spark應用HanLP對中文語料進行文字挖掘--聚類詳解教程SparkHanLP聚類
- Wireshark-過濾器-資料包解析過濾器
- OpenYurt 之 Yurthub 資料過濾框架解析框架
- RangeBitmap提升Java流資料過濾效能Java
- 過濾搜尋引擎的抓取資料
- 通過Vue的過濾器實現資料的資料脫敏Vue過濾器
- 13.gateway中的過濾器的介紹以及自定義過濾器Gateway過濾器
- Vue定義全域性過濾器filterVue過濾器Filter
- Spring Cloud Gateway---自定義過濾器SpringCloudGateway過濾器
- django2中自定義過濾器Django過濾器
- 常用語義分割資料集
- 文字挖掘之情感分析(一)
- Django自定義模板標籤與過濾器Django過濾器
- 資料庫知識點(5)——多列過濾資料庫
- PHP 對資料進行驗證和過濾PHP
- Vue專案資料動態過濾實踐Vue
- 資料採集之:巧用布隆過濾器提取資料摘要過濾器
- Laravel/Lumen 自定義錯誤日誌格式過濾堆疊資訊Laravel
- 資料時代,如何重新定義NAS的靈活性?
- Safari網頁敏感文字過濾外掛:Profanity Filter for Mac網頁FilterMac
- .Net MVC中定義全域性過濾器及在Action中排除全域性過濾器MVC過濾器
- Yii2 search 搜尋[資料小部件--GridView--資料過濾]View
- php過濾html標籤、特殊字元、轉義字元PHPHTML字元
- Spring Cloud Gateway自定義Token校驗過濾器SpringCloudGateway過濾器
- Elasticsearch 根據陣列長度過濾資料(qbit)Elasticsearch陣列
- Milvus 向量資料庫如何實現屬性過濾資料庫