中文和英文NLP自然語言處理異同點分析

達觀資料發表於2019-03-20
人類經過漫長的歷史發展,在世界各地形成了很多不同的語言分支,其中漢藏語系印歐語系是使用人數最多的兩支。英語是印歐語系的代表,而漢語則是漢藏語系的代表。中英文語言的差異十分鮮明,英語以表音(字音)構成,漢語以表義(字形)構成,印歐和漢藏兩大語系有很大的區別。

中文和英文NLP自然語言處理異同點分析

儘管全世界語言多達5600種,但大部數人類使用的語言集中在圖中的前15種(覆蓋全球90%以上人群)。其中英語為母語和第二語的人數最多,近14億人,是事實上的世界通用語。其次是漢語,約佔世界人口的23%。英語和漢語相加的人數佔世界總人數的近一半,因此處理中英文兩種語言非常關鍵。 

中文和英文NLP自然語言處理異同點分析人工智慧時代,讓計算機自動化進行文字語義理解非常重要,廣泛應用於社會的方方面面,而語言本身的複雜性又給計算機技術帶來了很大的挑戰,攻克文字語義對實現AI全面應用有至關重要的意義。相應的自然語言處理Natural Language Processing,NLP技術因而被稱為是“人工智慧皇冠上的明珠”。

中國和美國作為AI應用的兩個世界大國,在各自語言的自動化處理方面有一些獨特之處。接下來筆者對中文和英文語言特點的角度出發,結合自己的從業經驗來歸納下兩種語言下NLP的異同點。(達觀資料陳運文

相關文章