揚我國威,來自清華的開源專案火爆Github

TJ君發表於2021-12-18

前幾天TJ君跟大家分享了幾個有趣的Github專案(加密解密、食譜、新冠序列,各種有趣的開源專案Github上都有),其中呢,有不少是來自史丹佛大學的專案,當時TJ君就不由得想,什麼時候能看到的專案都是我天朝名校,例如清華北大的出品呢?

沒想到打臉是來的這麼快,馬上就有小夥伴跟TJ君推薦了一款由清華出品的開源專案,讓TJ君和大家分享分享,話不多說,上菜!

萬詞王,就是清華大學最近在GitHub上開源的全球首個支援中文及跨語言查詢的開源線上反向詞典

是不是聽上去特別高大上?

但肯定很多小夥伴自豪的同時腦海中浮現出一個問題,什麼是反向詞典?

TJ君簡單跟大家解釋下,一般我們常用的字典,是通過輸入某個單詞,來查詢單詞的含義,例如,你去查頂呱呱,解釋就是最好:

那麼如果你想表達最好的意思,卻一下子忘記了頂呱呱的說法,這可怎麼辦呀?反向詞典就是派這個用途,讓你反向通過解釋查到你想表達的詞語!

清華大學的萬詞王就是利用之前其釋出的論文中提到的多通道反向詞典模型:Multi-channel Reverse Dictionary Model訓練達到這個效果,很多人可能對此不以為然,但要知道醫學上可是專門有個症狀叫做 “舌尖現象”(tip-of-the-tongue,又稱話到嘴邊說不出來),反向詞典正好可以解決這個問題。

尤其是對於現在的年輕人來說,電子裝置的發展讓大家接觸傳統書本、書寫漢字的機會越來越少,往往有時候話到嘴邊說不出來。

反向字典支援漢語、漢英、英漢、英語,四種不同的形式:

我們以中文為例來看下,比如TJ君想搜尋一個跟嫵媚有關的詞彙,搜尋結果是這樣的:

看到這麼多查詢結果,首先TJ君的第一感覺就是覺得自己詞彙的匱乏,同時萬詞王在搜尋的結果上還允許使用者進行字數、筆畫、詞性、拼音、詞型、韻腳、相關性的進一步高階搜尋,方便小夥伴找到最適合自己想表達意思的詞語,不得不對清華的這個專案翹個大指拇點個贊。

萬詞王的資料基礎取自中華新華字典資料庫,也是在Github上開源的專案,包括了各種歇後語,成語,詞語,漢字。確保了反向字典的正確性。

TJ君會一併分享給大家,包括前文提到的多通道反向詞典模型論文,所以想學習的小夥伴,趕緊來和清華學子們一起切磋切磋吧:https://mp.weixin.qq.com/s/xfJAYz46hxm3mfXdocygJQ

相關文章