史丹佛大學釋出Stanford.NLP.NET：集合多個NLP工具

李澤南發表於2017-07-24

近日，史丹佛大學開源了 Stanford.NLP for .Net，為自然語言處理領域的開發者們提供幫助。顧名思義，它是 Stanford NLP 為.NET 準備的版本。

連結：https://sergey-tihon.github.io/Stanford.NLP.NET/

該專案包含使用使用 IKVM.NET 將 Stanford NLP.jar 軟體包重新編譯到.NET 中的構建指令碼，這些軟體經過測試可以有效工作，該工具包的介紹網站是：https://sergey-tihon.github.io/Stanford.NLP.NET/

所有重編譯軟體包在 NuGet 上：https://www.nuget.org/packages?q=Stanford.NLP

其中包含：

Stanford.NLP.CoreNLP
Stanford.NLP.NER
Stanford.NLP.Parser
Stanford.NLP.POSTagger
Stanford.NLP.Segmenter
Stanford.NLP.CoreNLP

Stanford CoreNLP 提供了一組自然語言分析工具，可採用原始的英文文字輸入，並提供單詞的基本形式、讀音形式、無論它們是公司名還是人名等，以及規範化日期、時間和數字數量。它根據短語和單詞之間的聯絡來標記句子的結構，並可指出哪個名詞短語指向相同實體。

Stanford CoreNLP 是一個整合框架，可以讓你輕鬆使用語言分析工具來分析一段文字。在純文字的基礎上，你可以使用僅僅兩行程式碼來執行整個工具。它的分析為更高階別和特定領域的文字理解應用提供了基礎。

Stanford CoreNLP 整合了所有 Stanford NLP 工具，其中包括（POS）標記器、命名實體識別器（NER）、解析器、核心分析系統和情緒分析工具，並提供了英文分析模型檔案。這一專案的目的是方便人們更快、更輕鬆地獲得完整的自然語言文字語言註釋。它的設計是高度靈活且可擴充套件的。使用一個選項，你就可以選擇啟用哪些工具、禁用哪些。

Stanford.NLP.Parser

它適用於處理句子之中的語法結構。例如，哪些單詞是聚合在一起的（作為短語）哪些單詞是主題或物件動詞。概率解析器使用手工標記的句子中獲得知識，試圖對新句子產生有意義的分析。這些基於統計的解析器雖然仍然可能產生錯誤，但通常工作得很好。它們的發展是 20 世紀 90 年代自然語言處理領域的最大突破之一。

你可以在這裡嘗試使用它：http://nlp.stanford.edu:8080/parser/

詞彙化的概率解析器通過單獨的 PCFG 結構和語法依賴實現了因子產生模型，其中的偏好通過有效精準推理結合 A*演算法形成。同時，該軟體也可以簡單地用作準確的無索引隨機上下文無關語法解析器。兩者都可以作為效能良好的統計解析系統使用。在解析器中，有一個 GUI（Java）可用於檢視解析器的短語結構樹輸出。

該解析器不僅有英文版本，還適用於一些其他語言。包括基於 Chinese Treebank 的中文解析器，基於 Negra 語料庫的的與解析器，基於 Penn Arabic Treebank 的阿拉伯語解析器，以及義大利語、保加利亞語和葡萄牙語。

該解析器提供 Stanford Dependencies 輸出，以及解析結構樹。型別的依賴關係也被稱為語法關係。這種風格的輸出僅適用於中文和英文，更多細節可參考：https://nlp.stanford.edu/software/stanford-dependencies.shtml

Stanford.NLP.NER

Stanford NER 是一個 Named Entity Recognizer 的實現。命名實體識別（NER）標籤在文字序列中代指事物，如人、公司名、基因和蛋白質名稱。它配有仔細設計的特徵提取器，用於命名實體識別，以及許多用於定義特徵提取器的其他選項，其中包含三種分類（PERSON、ORGANIZATION、LOCATION）的英語識別器，Stanford NLP Group 也在原專案頁面中提供了其他不同語言和環境的模型，包括僅訓練過 CoNLL 2003 資料集的版本：https://nlp.stanford.edu/software/CRF-NER.html

Stanford NER 也被稱為 CRFClassifier。該軟體提供（任意順序）線性鏈條件隨機場（CRF）序列模型的通用實現。這意味著通過訓練自己的模型，你實際上可以使用該程式碼為任何任務構建序列模型。

Stanford.NLP.POSTagger

A Part-Of-Speech Tagger(POS Tagger) 是一個可以用某些語言來讀取文字的軟體，它可以把部分語音（和其它標記）分配到每一個單詞上，比如、動詞、形容詞等，儘管一般的計算型應用使用的是像「名詞複數」這樣的更細密的 POS 標籤。

完整版下載包含三個訓練過的 English 標籤器模型，一個 Arabic 標籤器模型，一個 Chinese 標籤器模型，和一個德語標籤器模型。兩種版本都包括相同的原始碼和其它必需的檔案。給定 POS 標註的訓練文字，標籤器可以在任何語言上進行重複訓練。

詞類名縮寫（Part-of-speech name abbreviations）：英文標籤器使用的是 Penn Treebank 標籤集。這裡有 Penn Treebank POS 標籤集的相關文獻連線（http://acl.ldc.upenn.edu/J/J93/J93-2004.pdf，http://www.comp.leeds.ac.uk/amalgam/tagsets/upenn.html，http://www.computing.dcu.ie/~acahill/tagset.html）。標籤器在 GNU General Public License 下被授權，包含原始碼。軟體包包括命令列呼叫，伺服器執行和一個 Java API。

Stanford.NLP.Segmenter

原生文字的標記化（Tokenization）是許多 NLP 任務的標準預處理步驟。對英語來說，標記化通常包括標點符號分離和一些詞綴的分離。其它語言則需要更大量的標記預處理，通常叫做分割（segmentation）。

The Stanford Word Segmenter（史丹佛詞彙分割器）現在支援阿拉伯語和中文。它所提供的分割方法已經在大量應用中廣泛應用，並且表現不俗。

史丹佛 NLP 組推薦對包含長句的檔案使用至少 1G 的儲存。

分割器現在已經可以下載，在 GNU General Public License 下被授權，包含原始碼。軟體包包括命令列呼叫和一個 Java API。

分割器程式碼被雙重授權（與 MySQL 的方式相類似）。開源許可是經過全部授權的，很多使用都是免費的。

安裝

a. 選擇適用於任務的軟體包。如果你的任務非常複雜，需要深度分析，請使用 Stanford CoreNLP

b. 安裝選擇的 NuGet 軟體包

c. 下載原始 ZIP 文件（軟體包上有連結）

d. 如果有的話，解壓縮*.jar 盒模型

e. 開始之前，請參閱示例：https://sergey-tihon.github.io/Stanford.NLP.NET/samples.html

注意：請不要嘗試從專案中引用 NuGet 軟體包，它們是互相關聯的！如果你需要使用多於一個，請引用 Stanford CoreNLP 軟體包，所有特性都在包中。

版本

NuGet 軟體包中的模型版本與 Stanford NLP Group 中的相對應。例如，如果你使用了 Stanford NLP 網站中的 Stanford CoreNLP 3.3.1 版，在 NuGet 中，它的版本為 3.3.1.x 版，其中 x 只對應 NuGet，該位數字被用作標記.NET 集合中的內部版本。

許可證

該原始碼（構建指令碼，整合測試，文件和示例）在 MIT 許可證之下。

NuGet 包許可

所有其下的軟體均為開源，在 GNU 通用公共許可證（v2 及更新的版本）之下。注意：它是 GPL 形式的，允許免費使用，但不允許被整合到任何形式的專有軟體中，即使是其中的一部分，或翻譯版本。商業應用請聯絡史丹佛自然語言處理組。

史丹佛大學釋出免費線上文字分析工具
2014-02-11
大魚號一鍵釋出工具，一鍵釋出多個賬號
2020-07-15
GitLab 中文版正式釋出 17.5，修復多個漏洞，釋出多個功能
2024-10-24
Gitlab
覆蓋40種語言：谷歌釋出多語言、多工NLP新基準XTREME
2020-04-15
谷歌REM
愛奇藝一鍵釋出工具，批次釋出多個賬號是這樣操作的
2020-07-22
FFmpeg 2.6.1 釋出，多媒體處理工具
2015-03-17
如何將多個SessionBean釋出為WebService
2004-10-24
SessionBeanWeb
釋出成多個服務還是一個
2008-02-28
多賬號自媒體工具，多平臺同時釋出
2020-08-20
短影片一鍵釋出系統，一鍵釋出多個平臺，管理多賬號
2020-08-04
單個Nginx釋出多個react靜態頁面
2023-11-07
NginxReact
自媒體多平臺釋出，自媒體多平臺一鍵釋出工具
2020-08-24
如何釋出一個Python命令列工具
2016-03-21
Python命令列
用node開發併釋出一個cli工具
2019-01-02
大魚號批次釋出工具，多個賬號批次釋出文章影片
2020-08-11
回滾設計—pipeline集合ansible釋出多臺web伺服器
2024-03-28
Web伺服器
自媒體釋出平臺，釋出多個平臺，多渠道展現內容
2020-08-26
惠普釋出產品安全公告，通告多個高危漏洞
2022-03-23
Python 3.4.0釋出增加了多個功能模組
2014-03-18
Python
Python 3.4.0 beta 2 釋出，修復多個bug
2014-01-06
Python
適用於 deno 的多版本管理工具 dvm 釋出
2019-02-16
首個多模態連續學習綜述，港中文、清華、UIC聯合釋出
2024-11-13
UI
趣頭條一鍵釋出平臺，一鍵釋出多個自媒體賬號
2020-07-21
微軟釋出Unity工具集
2014-08-08
微軟Unity
Flutter 1.17版本釋出，帶來多個新特性
2020-05-10
Flutter
福昕釋出安全更新，PDF軟體存在多個漏洞
2021-07-30
Ubuntu釋出PHP重要補丁修復多個PHP漏洞
2012-02-15
UbuntuPHP
自媒體一鍵多發平臺，多個平臺一鍵釋出
2020-07-07
短影片多賬號管理平臺，一鍵釋出多個影片賬號
2020-07-28
一鍵釋出多平臺自媒體，把內容釋出到多個自媒體平臺
2020-06-30
免費資源 | ActiveReports 報表控制元件釋出多平臺 Demo 程式碼集合
2018-07-26
控制元件
150 多個 ML、NLP 和 Python 相關的教程
2017-08-15
Python
NLP學習1
2024-09-16
安全工具集合
2009-09-29
自媒體多平臺管理軟體，管理多個賬號進行釋出
2020-07-02
企鵝號一鍵釋出工具，一鍵運營多個賬號
2020-07-16
史丹佛大學釋出人工智慧發展指數
2017-12-13
人工智慧
NLP與深度學習（一）NLP任務流程
2021-08-24
深度學習

史丹佛大學釋出Stanford.NLP.NET：集合多個NLP工具

Stanford.NLP.Parser

Stanford.NLP.NER

Stanford.NLP.POSTagger

安裝

版本

許可證

NuGet 包許可

相關文章