儘管全世界語言多達5600種,但大部數人類使用的語言集中在圖中的前15種(覆蓋全球90%以上人群)。其中英語為母語和第二語的人數最多,近14億人,是事實上的世界通用語。其次是漢語,約佔世界人口的23%。英語和漢語相加的人數佔世界總人數的近一半,因此處理中英文兩種語言非常關鍵。
人工智慧時代,讓計算機自動化進行文字語義理解非常重要,廣泛應用於社會的方方面面,而語言本身的複雜性又給計算機技術帶來了很大的挑戰,攻克文字語義對實現AI全面應用有至關重要的意義。相應的自然語言處理(Natural Language Processing,NLP)技術因而被稱為是“人工智慧皇冠上的明珠”。
中國和美國作為AI應用的兩個世界大國,在各自語言的自動化處理方面有一些獨特之處。接下來筆者對中文和英文語言特點的角度出發,結合自己的從業經驗來歸納下兩種語言下NLP的異同點。(達觀資料陳運文)