Lingua：能準確檢測與辨識自然語言型別的Rust庫

banq發表於2022-04-09

它的任務很簡單：它會分辨除哪些文字資料是用哪種語言編寫的。
這在自然語言處理應用程式（例如文字分類和拼寫檢查）中作為語言資料的預處理步驟非常有用。例如，其他用例可能包括根據電子郵件的語言將電子郵件路由到地理位置正確的客戶服務部門。支援中文。
Lingua能夠報告每種支援的語言可用的一些捆綁測試資料的準確性統計資訊。每種語言的測試資料分為三部分：

最小長度為 5 個字元的單個單詞列表
最小長度為 10 個字元的單詞對列表
各種長度的完整語法句子列表

語言檢測通常是作為大型機器學習框架或自然語言處理應用程式的一部分進行的。在你不需要這些系統的全部功能或不想學習這些系統的繩索的情況下，一個小的靈活的庫就會很方便。

到目前為止，Rust生態系統中唯一能完成這一任務的綜合性開源庫是CLD2和Whatlang。不幸的是，它們有兩個主要的缺點。

檢測只適用於相當長的文字片段。對於非常短的文字片段，如Twitter訊息，它不能提供足夠的結果。
參與決策過程的語言越多，檢測結果就越不準確。

Lingua旨在消除這些問題。它幾乎不需要任何配置，對長短文都能產生相當準確的結果，甚至對單字和短語也是如此。它借鑑了基於規則的方法和統計方法，但不使用任何詞彙詞典。它也不需要連線到任何外部API或服務。一旦下載了該庫，它就可以完全離線使用。

該庫現在可以編譯為 WebAssembly，允許在任何基於 JavaScript 的專案中使用它，無論是在瀏覽器中還是在 Node.js 上執行的後端。

最簡單的編譯方法是使用wasm-pack. 安裝後，例如，您可以使用 web 目標構建庫，以便可以直接在瀏覽器中使用：
wasm-pack build --target web

在 HTML 檔案中，您可以像下面這樣呼叫Lingua，例如：

<script type="module">
    import init, { LanguageDetectorBuilder } from './pkg/lingua.js';

    init().then(_ => {
        const detector = LanguageDetectorBuilder.fromAllLanguages().build();
        console.log(
            detector.computeLanguageConfidenceValues("languages are awesome")
        ); 
    });
</script>

概念區別【編譯型語言與解釋型語言、動態型別語言與靜態型別語言、強型別語言與弱型別語言】
2020-09-24
編譯型別
Pyhanlp自然語言處理中的新詞識別
2019-02-15
HanLP自然語言處理
檢測資料庫遷移準確性
2020-05-28
資料庫
分享一個自然語言漢語時間語義識別的工具類
2020-11-09
使用Rust語言實現基本影像識別
2024-11-23
Rust
語言型別介紹及其Python的語言型別
2020-11-29
型別Python
如何評價美顏api中人臉識別和人臉檢測的準確度？
2021-11-23
API
有道自然語言翻譯和文字識別OCR(圖片文字識別)介面呼叫
2019-04-04
淺談強型別語言與弱型別語言,歡迎大家來點評
2018-08-29
型別
hanlp自然語言處理包的人名識別程式碼解析
2019-08-02
HanLP自然語言處理
自然語言處理工具python呼叫hanlp中文實體識別
2019-02-13
自然語言處理PythonHanLP
計算機語言：編譯型/解釋型、動態語言/靜態語言、強型別語言/弱型別語言
2019-01-22
計算機編譯型別
OCR檢測與識別技術
2018-06-05
文字檢測與識別資源
2018-03-15
Python自然語言處理實戰（4）：詞性標註與命名實體識別
2018-07-16
Python自然語言處理詞性標註
Go語言的識別符號、關鍵字、字面量、型別
2019-02-16
Go符號型別
探索自然語言處理：語言模型的發展與應用
2024-03-13
自然語言處理模型
解釋型語言、編譯型語言區別
2018-08-21
編譯
香港檢測胎兒性別流程與費用準確度如何_永仁媽媽網
2019-04-02
證件識別介面-提升業務效率與準確性的利器
2024-08-28
智慧工地演算法影片分析伺服器區域入侵檢測：如何確保演算法在惡劣天氣下也能準確識別？
2024-12-05
演算法伺服器
編譯型語言與解釋型語言
2018-08-24
編譯
精通Python自然語言處理 4 ：詞性標註--單詞識別
2018-06-01
Python自然語言處理詞性標註
自然語言處理工具HanLP-基於層疊HMM地名識別
2019-07-26
自然語言處理HanLPHMM地名識別
js 型別檢測
2019-04-13
JS型別
JavaScript安全的型別檢測
2018-08-08
JavaScript型別
go語言標準庫 - time
2019-04-16
Go
go語言標準庫 - strconv
2019-04-12
Go
go語言標準庫 - regexp
2019-04-11
Go
go語言標準庫 - log
2019-04-11
Go
ChineseGLUE：為中文NLP模型定製的自然語言理解基準
2019-10-23
模型
自然語言語法符合熱力學自由能原則
2024-05-05
自然語言處理（NLP）系列（一）——自然語言理解（NLU）
2023-02-01
自然語言處理
自然語言處理與情緒智慧
2024-08-25
自然語言處理
NLP漢語自然語言處理入門基礎知識
2018-10-31
自然語言處理
Rust 語言的全鏈路追蹤庫 tracing
2022-12-23
Rust
視覺語言如何準確的表達（附影片教程）
2020-08-21
視覺
go語言資料型別-基礎型別
2021-10-08
Go資料型別

Lingua：能準確檢測與辨識自然語言型別的Rust庫

相關文章