2018-09-06 Java實現英漢詞典API初版釋出在Maven

welchang發表於2021-09-09

在打算時, 發現沒有現成的Java庫實現英漢查詢功能. 於是開此專案.

原始碼庫: 

API使用中文命名. 原始碼也是.
圖片描述

使用時在Maven專案中新增依賴:

<dependency>
  <groupId>com.codeinchinese</groupId>
  <artifactId>english-chinese-dictionary</artifactId>
  <version>0.0.1</version></dependency>

詞典資料來源於. 77萬個詞條, 除不到2千詞之外絕大多數有中文釋義. 將這個詞典資料(csv檔案)封裝的後果是這個jar包有22MB, 首次呼叫'查詞'介面需要一段時間載入資料(本機測試十秒左右), 之後的查詞是雜湊表查詢, 速度還能接受.

下面是返回詞條資料結構:

public class 詞條 {  public String 英文;  public String 音標;  public List<String> 英文釋義;  public List<String> 中文釋義;  public String 詞語位置;  public int 柯林斯星級;  public boolean 為牛津三千核心詞;  // zk/中考,gk/高考,cet4/四級等
  public String 標籤;  // 如果為0, 無詞頻資料, 否則為正數
  public int 英國國家語料庫詞頻順序;  public int 當代語料庫詞頻順序;  public List<詞形變化> 變形;  public String 詳細;  public String 線上讀音音訊;
...
}

詞形的幾種變化:

public enum 詞形變化型別 {
  過去式("p"), // past tense
  過去分詞("d"),
  現在分詞("i"), // -ing
  第三人稱單數("3"),
  形容詞比較級("r"), // -er
  形容詞最高階("t"), // -est
  名詞複數形式("s"),
  原型("0"),
  原型變換形式("1");
...
}

介面定義很簡單, 呼叫:

英漢詞典.查詞("apple")

返回值列印輸出(toString生成類JSON樣式, 下同):

{
英文: apple
音標: 'æpl
英文釋義: n. fruit with red or yellow or green skin and sweet to tart crisp whitish flesh
n. native Eurasian tree widely cultivated in many varieties for its firm rounded edible fruits

中文釋義: n. 蘋果, 傢伙
[醫] 蘋果

詞語位置: 
柯林斯星級: 3為牛津三千核心詞: true標籤: zk gk
英國國家語料庫詞頻順序: 2446當代語料庫詞頻順序: 2695變形: 名詞複數形式:apples; 
詳細: 
線上讀音音訊: 
}

可以查出原型:

{
英文: shopping
音標: 'ʃɒpiŋ
英文釋義: n. searching for or buying goods or services
n. the commodities purchased from stores

中文釋義: n. 買東西, 購物
[經] 購物, 買東西

詞語位置: 
柯林斯星級: 3為牛津三千核心詞: true標籤: gk cet4 cet6 ielts
英國國家語料庫詞頻順序: 2763當代語料庫詞頻順序: 2713變形: 原型:shop; 原型變換形式:i; 現在分詞:shopping; 
詳細: 
線上讀音音訊: 
}

也有很多常見短語:

{
英文: beat around the bush
音標: 
英文釋義: 
中文釋義: 轉彎抹角, 旁敲側擊, 拖延談及正題

詞語位置: 
柯林斯星級: 0為牛津三千核心詞: false標籤: 
英國國家語料庫詞頻順序: 0當代語料庫詞頻順序: 0變形: 
詳細: 
線上讀音音訊: 
}

其中釋義部分只根據源資料格式說明中按行分拆, 並未進行進一步提取. 打算以後在實際使用中進行改進. 也許"n. 蘋果, 傢伙"提取為:

{
詞性: 名詞
釋義: ["蘋果", "傢伙"]
}

歡迎嚐鮮.

 作者:

原文連結:https://www.cnblogs.com/program-in-chinese/p/10499283.html


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/4830/viewspace-2822209/,如需轉載,請註明出處,否則將追究法律責任。

相關文章