Lingua:能準確檢測與辨識自然語言型別的Rust庫
它的任務很簡單:它會分辨除哪些文字資料是用哪種語言編寫的。
這在自然語言處理應用程式(例如文字分類和拼寫檢查)中作為語言資料的預處理步驟非常有用。例如,其他用例可能包括根據電子郵件的語言將電子郵件路由到地理位置正確的客戶服務部門。支援中文。
Lingua能夠報告每種支援的語言可用的一些捆綁測試資料的準確性統計資訊。每種語言的測試資料分為三部分:
- 最小長度為 5 個字元的單個單詞列表
- 最小長度為 10 個字元的單詞對列表
- 各種長度的完整語法句子列表
語言檢測通常是作為大型機器學習框架或自然語言處理應用程式的一部分進行的。在你不需要這些系統的全部功能或不想學習這些系統的繩索的情況下,一個小的靈活的庫就會很方便。
到目前為止,Rust生態系統中唯一能完成這一任務的綜合性開源庫是CLD2和Whatlang。不幸的是,它們有兩個主要的缺點。
- 檢測只適用於相當長的文字片段。對於非常短的文字片段,如Twitter訊息,它不能提供足夠的結果。
- 參與決策過程的語言越多,檢測結果就越不準確。
Lingua旨在消除這些問題。它幾乎不需要任何配置,對長短文都能產生相當準確的結果,甚至對單字和短語也是如此。它借鑑了基於規則的方法和統計方法,但不使用任何詞彙詞典。它也不需要連線到任何外部API或服務。一旦下載了該庫,它就可以完全離線使用。
該庫現在可以編譯為 WebAssembly,允許在任何基於 JavaScript 的專案中使用它,無論是在瀏覽器中還是在 Node.js 上執行的後端。
最簡單的編譯方法是使用wasm-pack. 安裝後,例如,您可以使用 web 目標構建庫,以便可以直接在瀏覽器中使用:
wasm-pack build --target web
在 HTML 檔案中,您可以像下面這樣呼叫Lingua,例如:
<script type="module"> import init, { LanguageDetectorBuilder } from './pkg/lingua.js'; init().then(_ => { const detector = LanguageDetectorBuilder.fromAllLanguages().build(); console.log( detector.computeLanguageConfidenceValues("languages are awesome") ); }); </script> |
相關文章
- 概念區別 【編譯型語言與解釋型語言、動態型別語言與靜態型別語言、強型別語言與弱型別語言】編譯型別
- Pyhanlp自然語言處理中的新詞識別HanLP自然語言處理
- 解釋型語言與編譯型語言的區別?編譯
- 檢測資料庫遷移準確性資料庫
- 分享一個自然語言漢語時間語義識別的工具類
- 如何評價美顏api中人臉識別和人臉檢測的準確度?API
- 有道自然語言翻譯和文字識別OCR(圖片文字識別)介面呼叫
- 語言型別介紹及其Python的語言型別型別Python
- 動態語言與鴨子型別型別
- hanlp自然語言處理包的人名識別程式碼解析HanLP自然語言處理
- 淺談強型別語言與弱型別語言,歡迎大家來點評型別
- 文字檢測與識別資源
- OCR檢測與識別技術
- 計算機語言:編譯型/解釋型、動態語言/靜態語言、強型別語言/弱型別語言計算機編譯型別
- 證件識別介面-提升業務效率與準確性的利器
- 自然語言處理工具python呼叫hanlp中文實體識別自然語言處理PythonHanLP
- 自然語言處理與分析(one)自然語言處理
- 解析Java語言的介面與型別安全(轉)Java型別
- C 語言Struct 實現執行型別識別 RTTIStruct型別
- Go語言的識別符號、關鍵字、字面量、型別Go符號型別
- 探索自然語言處理:語言模型的發展與應用自然語言處理模型
- Python自然語言處理實戰(4):詞性標註與命名實體識別Python自然語言處理詞性標註
- - C語言標準庫C語言
- 香港檢測胎兒性別流程與費用準確度如何_永仁媽媽網
- 解釋型語言、編譯型語言 區別編譯
- Java 語言是強型別語言語言(轉)Java型別
- 自然語言語法符合熱力學自由能原則
- 《柳葉刀》子刊:精準確定腫瘤大小,新型AI識別方式遠勝傳統人工檢測!AI
- 編譯型語言與解釋型語言編譯
- 自然語言處理工具HanLP-基於層疊HMM地名識別自然語言處理HanLPHMM地名識別
- js 型別檢測JS型別
- JavaScript型別檢測JavaScript型別
- 【JS】型別檢測JS型別
- 自然語言處理(NLP)系列(一)——自然語言理解(NLU)自然語言處理
- ChineseGLUE:為中文NLP模型定製的自然語言理解基準模型
- 自然語言處理與情緒智慧自然語言處理
- JavaScript安全的型別檢測JavaScript型別
- Rust語言Rust