從資訊理論角度論證為什麼漢語是世界上最先進的語言:引用多項實驗資料

自由布魯斯發表於2016-06-05

從資訊理論角度論證為什麼漢語是世界上最先進的語言:引用多項實驗資料

作者:漢語計算機應用研究小組(筆名:冷酷的哲學?)

一、語言水平高低的評判準則

口語,實際上是一種通訊協議。就是說,語言實際上是把人的思想通過發音器官變成一串頻率不同、波形不同的聲波,然後被另一個體的聽覺器官和相關的腦部組織重新轉變回思想。通訊協議,就是一個規則,一個規定了應該如何把思想/資訊轉變為易於傳輸的訊號的規則

計算機上,通訊協議有兩個基本評判標準:【傳輸效率】和【抗噪能力

傳輸效率:在單位時間裡,按照該通訊協議能夠傳輸多少資訊。 抗噪能力:這種通訊方式能夠在多大的噪音下仍然保證絕大多數資訊正確傳輸。

傳輸效率】又分兩個方面,編碼效率傳輸速度

編碼效率:這個通訊協議能夠把一個資訊用多短的一串訊號來表達 傳輸速度:一段訊號,能夠以多快的速度傳輸

評價一種語言的口語是否先進,就要分析上面這幾個問題。

文字,則是一種資料儲存方式,儲存格式的要求與通訊協議不同,儲存格式要求儲存空間小、讀寫速度快,相比於讀取速度,書寫速度是次要的。這是因為平均下來一次書寫對應很多次閱讀,而人在閱讀文字上花的時間一般遠遠大於書寫。尤其是現代社會,手寫越來越少,計算機輸入、列印、印刷都大大加快了記錄文字的速度,而閱讀速度卻沒有多少提升,因此在現代社會,閱讀速度就在定義文字水平上佔據了更重要的地位。

需要注意的是,下面的討論中“音節”均採用西方語言學定義,粗略地講就是一組連續母音與其前後的子音共同構成一個音節。比如To、Bliss、Strength是單音節。漢語Ba、Chuang也是單音節,雖然單音節詞的發音長度並不完全相同,但至少是可比的

二、語言的分類

世界上的語言大致分為兩種,【孤立語】和【綜合語

綜合語 其下又劃分為黏著語屈折語等子型別)

孤立語】 單純通過詞與詞之間的關係來表達不同的意思

綜合語】 可以通過改變詞的形態來表達不同的意思

我們舉個簡單的例子:

中文(孤立語):我昨天告訴他了。

英文(綜合語):I told him yesterday.

英文你首先可以看到 toldhim 兩個變形,其中把 tell 變成 told 表示過去發生的動作。把 he 變成 him 表示客體

而中文用昨天來直接指明時間,如果不指明時間則需要用“已經”、“過”之類來表示過去,而並不改變詞的形態,中文還通過各自的位置來體現誰是主體誰是客體

實際上,英語已經是綜合語中非常接近【孤立語】的了。英語的未來時態用的詞形和一般時態沒有區別,而很多其他語言中不同的時態都是用不同的詞形來表達的。英文對於各個詞的位置有明確的規定,而很多其他綜合語,諸如拉丁語中,詞的位置可以不固定。換句話說就是可以說出這樣的句子:Him yesterday told I 然後通過詞形裡的主格詞形和賓格詞形來判斷究竟是誰告訴了誰

這是非常糟糕的,因為在讀取的時候,總是有先後的差別,我們希望的讀取順序是:先讀取我們的大腦需要先處理的部分,【孤立語】天然就有這種優勢,很多【綜合語】在逐步的發展中也確立了類似的規則,比如拉丁語的後裔之一——法語

上古古漢語也曾是一種【綜合語】但是由於漢字的限制,古漢語的詞形變化僅存在於口頭中,比方說文言文中的使動用法,如“文王以百里之壤而臣諸侯”中的(使臣服,在上古時期,是需要在漢字發音前加“s-”音來標識的,就是一個典型的綜合語的詞形變化

有人認為現在的漢語仍然帶有一定的綜合語色彩,他們認為加入諸如“”、“”這種助詞實際上就是詞的變形,這種看法就只能見仁見智了

從整體發展趨勢來看,世界各地的口語都是從【綜合語】向【孤立語】發展,雖然不能說【孤立語】就一定優於綜合語,但是這個趨勢說明【孤立語】的某種特性符合歷史的發展,這個優勢就是資料的壓縮

三、資料壓縮:【孤立語】的高超之處

當計算機發展到了新的時代,人們開始研究如何在計算機上儲存視訊檔案,一開始的方案極其簡單,就是把一幀一幀影像全部都儲存下來,但是這無疑是低效的,因為這裡面的冗餘資訊太多

舉個簡單的例子,一個夜晚的場景,畫面上很多地方都是黑的,何必把每一個點的色彩反覆記錄呢?所以接下來的一個思路就是,不再儲存每一幀影像的完整資訊,而儲存下一幀影像與上一幀影像之間的差異之處,兩幅影像中顏色一樣的部分全部跳過

孤立語】恰恰就具有這樣的效果

舉個簡單的例子,一個人在用漢語談論昨天發生的事情時,只需要一開始提及“下面這些事情都發生在昨天”,後面就再也不必提及時態了,而英文,則需要反覆使用時態來表明這事情發生在過去

在交流時你需要時刻考慮時間、主格/賓格、數量、主動/被動,這對交流是有影響的,當然,熟練使用這種語言之後會大大降低考慮這些的時間,但是即便熟練的綜合語使用者還是會在這方面犯錯,在上下文的幫助下,這些變化都可以省掉

時間變形,可以依靠在第一句中加入時間狀語完成描述,其後描述相同時間段的句子就再也不用考慮描述時間了,這就是【孤立語】的資料壓縮能力。

隨著人類社會交流量的上升,一次交流的上下文就變得豐富起來,很多在單詞、單句的條件下很有效率的資訊交流方式,也就顯得越來越冗餘了,因此世界上的各個主要語言紛紛向【孤立語】靠攏。

關於各個語言的表意效率,也就是資訊密度,2011年法國里昂大學做了一個實驗

論文連結 A CROSS-LANGUAGE PERSPECTIVE ON SPEECH INFORMATION RATE

這個實驗裡,研究者找了59位不同語言使用者,其中包括英語、法語、德語、日語、漢語、義大利語和西班牙語。為他們提供了20段文字,這些文字都翻譯成各自的語言,然後請這些人分別用正常語速朗讀,研究者全程錄音,然後研究者計算所有音節數量,計算朗讀中表現的義項(表意的基本單位)的數量,最後得出結論

研究的結果是

  • 【漢語】資訊密度為0.94,位居 第一

  • 【英語】資訊密度為0.91,位居第二

  • 德語(0.79)

  • 法語(0.74)

  • 義大利語(0.72)

  • 西班牙語(0.63)

  • 日語(0.49)

    此處資訊密度是通過計算每個音節所包含的義項數量來獲得的,由於義項的數量是從原始文字——英文版裡統計的,翻譯之後有可能會增加或減少義項,為防止翻譯過程中的扭曲造成資料標準不統一,各個語言的文字都被單獨翻譯為越南語,然後與各自越南語文字中每個音節所包含的義項數量相除,最終得到比較公平的資料

    這讓我不由地想到,經過大規模注水的現代漢語資訊密度還是這麼高,那麼文言文究竟已經高到了何種地步?很遺憾沒有這方面的研究

    不過,根據使用頻率進行加權平均,現代漢語平均每個詞中的字數差不多是1.5左右,在文言文中,其中很多都是用單音節詞表達的,折中一下,我猜想文言文的資訊密度達到現代漢語的1.25倍應該是不成問題的,這在古代更是個恐怖的數字

    因為拉丁語可不是比現代歐洲各主要語言簡單,受到古代文字記錄空間的限制,漢語的顯然在文字記錄方面更加佔優,這也許就是我國古代文字記錄非常豐富的原因所在

    有人說,音節不能作為衡量資訊密度的單位,因為不同的音節,發音長度很不一樣。這個問題提的非常好,事實上,我下一節就要講到【英語】與【漢語發音長度的問題,英語單音節平均發音長度比漢語長,因此在口語的資訊密度方面,【漢語】的優勢更大。

四、傳輸的優勢:聲調

口語資訊的傳輸,是通過聲音完成的

聲音一般分為四個部分:音質音高音長音強

對於語言中的一個音節來說,音質指的是其中子音與母音的組合,其他三個都很好理解。現代語言不太規定【音強】,因為這實在無法在各個人之間得到統一,而且受到說話人的距離、情緒、身體狀態等影響,此處需注意,英語中的“重讀”實際上是音高變化,而剩餘的三個元素,則都在語言中得到了廣泛的運用

拿漢語舉例

音質】很容易理解,就是發音除去聲調

聲調本身則分為【音高】和【音長】兩項

漢語普通話的四聲,是四種不同音高變化模式

  • 一聲 是 保持音高

  • 二聲音高由低到高變化

  • 三聲音高從高到低再到高

  • 四聲音高由高到低

    雖然我們語文課裡說輕聲是沒有聲調,但實質上輕聲是縮短音長,輕聲一般是縮短音長的四聲或一聲(有時音高很低),不過輕聲很短,比較難以聽清,所以普通話中僅作為特定用途使用 (語氣助詞、複數標誌等)

    英語的【重讀】實際上是音高的差異,所以嚴格地說,英語是有聲調的,只不過英語的音調只有兩個:高和低,但是英語中音調僅用於部分音節,除了表示疑問、強調等情況,通常英語單詞不變調,除少量英語單詞(如Record)外,英語單詞不借助音調來區分不同的詞義,英語的確使用音長要素(如Sheep和Ship)由於英語一般只用音質和音長來區分詞義,所以一般也認為是一種沒有聲調的語言。

    首先從【編碼效率】上,我們可以說【漢語】是世界上編碼效率最高的語言

    漢語是世界上為數不多的使用音高來區分不同單詞的語言,因此從編碼上說,漢語發音的表意能力就比一般語言高出一個維度,也就是說,使用單個音節,漢語能夠表達的不同資訊的種類,理論上最高可以達到一般外語的4倍

    為什麼外國人學漢語學得這麼辛苦,而中國人學英語則沒有那麼辛苦?就是中國人是已經掌握了在發音是音高變化,現在再去學低階的兩個固定音高。而在學習漢語中,很多外國人最吃力的問題之一就是聲調。因為只習慣於兩個固定的音高,而沒有聽到過、練習過在發音時連續變化音高。

    有人提出,聲調本身會影響發音速度,這當然是存在的,比方說二聲,要求發音時音調逐漸上升。要表現出這個,發音時要表現出兩個音調,自然是要比單一音調要費事,但是聲調的好處在於,能夠在同一組子音和母音組合的基礎上產生出多種不同的發音,所以就不必藉助更多的子音來區別兩個具有類似發音的詞(比如英文life和light)

    英文音節中,子音-母音組模式的音節,發音確實比漢語略快。但是其他模式,諸如子音-子音-母音組-子音(Blight)或子音-母音組-子音,往往就比漢語發音慢了。而子音-母音組模式的音節,由於英語缺乏音調,所以數量遠小於漢語。整體平均下來,英語單個音節的發音慢於漢語

    對於“英語單個音節的發音應慢於漢語”這個結論,可能有的人覺得不是很信服。我們來舉一個非常簡單的例子,普通中國人的初等數學能力往往超過歐美。這並不簡簡單單是教育的問題,更關鍵地,這是中文對數字命名結果。

    漢語所有數字均為單音節

    其中6和9有兩個母音(或按照國際學術便準,三個母音),發音稍慢

    0有後鼻音,發音可能稍慢,還有幾個帶捲舌音,可能會稍慢

    英語所有數字,除7以外,全部都是單音節

    其中覆蓋了“子音-母音”結構(如4)

    “子音-子音-母音”結構(如3)

    “子音-母音-子音”結構(如5)

    “子音-母音-子音-子音”結構(如6)

    "母音-子音"結構(如8)

    雙母音結構(如0,注意一般數字裡0讀“ou”,不讀zero,後者實在太費勁了)

    可以說英語的這些數字大致包含了英語的各種單音節詞的音節結構,當然這裡還沒有最神奇的輔-輔-元-輔-輔結構,但是那個和單母音結構一樣比較少見。

    那麼平均下來英語的數字比漢語慢多少呢?

    首先我們需要知道,人對數字的短期記憶,實際上是對數字發音的記憶。換句話說,你能記住的數字位數,是由數字發音的總長度決定的

    研究表明(詳細請下載,自行閱讀)

    論文連結 Digit memory in Chinese and English:Evidence for a temporally limited store*

    中國人從小開始短期數字記憶能力就高過美國人,該文獻說明,美國大學生的數字記憶長度平均為7.2位,中國大學生為9.2位。美國大學生的短期數字記憶位數,是中國學生的78.26%。換句話說就是,英語數字的平均發音長度比漢語數字高27.78%,去掉英文數字7(雙音節)對平均音長的影響(10%)那麼平均下來,單音節英語發音長度大概比漢語高17.78%左右。

    更進一步,中國的數字都是徹徹底底的單音節,因此可以採用絕對邏輯的方式構建整個數字表。九十六,就是九個十加一個六。英語是“90”(與九和十都不同的特殊詞)再加一個6。法語是4個20加16

    【漢語】是一種最簡潔而最富邏輯結構,在世界上是極為罕見的,九九乘法口訣表,就是構建在這個基礎上的。其他國家的兒童如果想背下來這張表,可以說比中國兒童難了幾倍,這種語言上的優勢就提高了中國人的初等數學能力

    順便,還有人說,古漢語聲調更多啊,難道漢語越發展越回去了麼?這當然是錯誤的,有些音調受說話者情緒等條件的影響,在辨識的時候不確定性因素比較多。這個問題我們將在抗噪能力一節中詳細講解

五、資訊理論上的優勢

資訊理論角度來考慮,編碼是很有學問的。舉個例子,我們知道計算機傳輸資訊,實際上傳輸的都是0和1。那麼,如果我們傳輸的各種資訊出現的頻率不一樣高怎麼辦?答案是,出現越頻繁的,編碼越短。這樣就能提高總體效率

比方說,我們只有四種資訊要傳遞,按一般的想法,自然是把這四種資訊分別用00011011來表示。每個資訊都需要用兩位二進位制數來表示,也就是說傳播100條資訊需要傳送200個二進位制數。但是如果其中有一種資訊出現的概率是91%,而另外三種分別是3% 那麼就可以使用另一種編碼方式:101001000 平均下來這種傳播方式傳播100條資訊需要傳送91+2*3+3*3+3*3=115個二進位制數。顯然比前面那種效率要高。

世界各主要語言經過了幾千年的進化,其詞彙的長度分佈,都比較符合資訊理論的要求,你會發現各個語言中越常用的詞,一般就越短。英語裡,我、你、他、她、我們,都是單音節詞

英文的單音節詞非常豐富,實際上比中文的單音節發音要多。這是因為英文可以在一個子音-母音組合的前後都新增子音,來實現各種不同的單音節發音,這樣排列組合下來,英文的單音節詞就是一個比較龐大的詞庫了,但是這就有一個代價,就是抗噪效能低,這個問題我們放在下一節講解。

按西方音節定義,英語的單音節詞的使用比漢語要頻繁,根據統計分析,漢語使用者平均詞長約為1.5字上下(見《ReadingChineseScript: A Cognitive Analysis》這本書裡有一個章節《Eye Movements in Reading Chinese andEnglish Text》)

而成年英語使用者平均每詞音節數約為1.4

論文連結 Syllables per word in typical and delayed speech acquisition

這也得到了另一個研究的支援:分析10小時的發聽錄音,平均沒詞音節長度為1.38

所以,就音節數而言,漢語詞平均比英語詞長7.14%,然而,考慮到英語一個音節比漢語單音節實際上長得多(即便把上一節得到的17.78%折半,也有8.89%)再加上漢語每音節資訊含量大致比英語高3.30%(見第三節資料)從資訊理論的角度講,漢語的資訊傳遞效率基本上比英語高

這一點也得到了另一個實驗的驗證

論文連結 Speed-difficulty trade-off in speech: Chinese versus English

這篇論文找了8個漢語使用者和8個英語使用者,然後讓他們兩人一組。一組之中,一個人描述圖片(描述者),另一個人根據描述來繪製(繪畫者)。最後對比圖片的準確度,同時觀察描述者的語言。

最後結果是,漢語描述者明顯比英語描述者先開始描述,描述者開始描述與繪畫者開始繪畫之間的時間差,漢語使用者低於英語使用者,繪畫時間,漢語繪畫者低於英語使用者,整體時間,漢語組顯著低於英語使用者,漢語組所有都比英語組快,而且越複雜的繪畫,漢語組就快得越多。

繪畫結果,144次繪畫。

漢語組平均每次犯8.1個錯誤, 其中描述者平均每次犯3.7個錯誤,繪畫者犯4.4個錯誤

英語組平均每次犯13.25個錯誤, 其中描述者平均每次犯8.5個錯誤,繪畫者犯4.75

兩者的差距仍然在統計誤差之內。所以並不算顯著

(嗯,是誰說漢語沒有英語精確來著?)

之後,為了考慮繪畫者的技巧差異,讓每個繪畫者直接對照原圖繪畫。結果【漢語】組反而慢於【英語】組。繪畫期間,漢語組使用音節數顯著少於英語使用者,兩組語速(每秒音節數)接近(這個結論與前面的播音速度分析結果一致)。

這雖然是一個初步的實驗,但是還是能看出漢語在交流上的優勢的:用詞更少時間更短,描述精確水平差不多(如果不是更高的話)這個實驗還說明了……我國人民美術水平還有待提高……

至於歐洲主要其他語言,根據第三節提到的資料,它們發音訊率比英語高,資訊密度比英語低,要那些語言在這方面超過漢語,我覺得可能性不大

六、組詞邏輯

由於英語單音節詞資源比較豐富,但平均發音長度較長,所以你會注意到英語裡單音節詞比例高於漢語,而多音節詞的使用比例就小於漢語,很多邏輯上非常相關的詞由於不得不全部擠入有限的單音節詞庫,其發音就失去了聯絡。這就導致英語常用詞往往【缺乏】組詞的邏輯

比如我們可以很輕鬆地說“公雞”、“母雞”、“小雞”、“雞蛋”

而英語裡就成了“Cock”、“Hen”、“Chick”、“Egg”,毫無聯絡

如果常用詞要建立聯絡,那麼英語就必須提高這些單詞的音節數,那麼平均詞長就要上升,從資訊理論角度講,資訊傳遞效率更低了,所以【英語】只能在組詞的邏輯性上進行妥協

相比之下,漢語就從容的多了,即便在當前這種資訊效率下,漢語仍然能保證絕大多數詞語構造具有邏輯性,因此相比於英語詞彙,【漢語詞彙就比較容易記憶,這就產生了一個結果,那就是漢語的常用詞彙量遠遠多於英語。

英文使用者的單詞量和生詞辨識能力可見1995年的以下論文:

論文連結 GROWTH OF A FUNCTIONALLY IMPORTANT LEXICON

其中,大學生平均自稱單詞量為16141,經過多項選擇測試發現,平均能夠辨識其中71%的詞彙,也就是說平均大學生詞彙量估計為11460個單詞。老年人平均自稱單詞量為21252,經過多項選擇測試,發現平均能辨識其中80%,也就是說老年人的詞彙量大致為17002,對於從未見過的詞的正確理解概率,大學生為30%,老年人為39%

沒找到中國的相關研究,不過這裡是商務印書館的《現代漢語常用詞表(草案)》

資料連結 現代漢語常用詞彙表

大家可以進去看看自己的詞彙量,我感覺大學生達到五萬應該不成問題。而且這肯定不是一個人的全部單詞量,不過這裡面有些詞是英語裡幾個詞合起來的,所以中國人詞彙量未必比美國人高這麼多,但我覺得定性的結論還是可以下的

另外裡面可能有你沒見過的詞,可以看看有多少你猜不出正確含義……我覺得除了極少數,確實沒什麼難度……

另外,漢語英語都各自在組詞上有一個弱點

漢語有大量的【同音詞】例如“攻擊”和“公雞”

英語有大量的【多義詞】英語的Ball既可以是球也可以是舞會

漢語中,曾經在文言文中大規模使用的單音節多義詞現在大多變成了雙音節單義詞,漢語中真正的多義詞(各個意思之間沒有直觀邏輯聯絡)是極少數。而英語裡的同音詞也是極少數,可以說這兩種語言在各自的發展路徑上都做了妥協

由於英語多義詞比例比較大,所以儘管英語使用者詞彙量比漢語使用者低,也不能說明英語的描述能力不如漢語,另外,美國大學生的詞彙量遠低於老年人,這說明他們並不是已經記下了所有能見到的詞彙,而是在那個年齡段,還沒有足夠的時間記下。因此可以看出,英語一詞多義很多的原因,很可能就是英語單詞記憶難度比漢語

總的來說,由於漢語精簡了發音,並且每音節資訊密度較高,這使得漢語可以有較長的平均詞長,因此組詞邏輯相比於英語就有了一定的優勢,至於其他主要語言,資訊傳遞效率與漢語相比差距更大。主要方面都無法相比,這種次要方面就不需要再比了

各個國家民族只要是自己的母語就是最好的,沒必要來吹噓漢語英語韓語日語什麼的是最好最科學的,

七、強勁的抗噪能力

前面講到,英語依靠大量的單音節詞才能夠接近漢語的資訊傳遞效率。但這不是沒有代價的。構造大量的單音節詞,就需要在詞彙中使用大量的子音

子音分為兩種

一種屬於【響音】,就是能夠持續發音的,諸如m、n、ng

(除這類子音外,所有的母音也都是響音)

一類叫做【阻礙音】阻礙音本身發音短促、強度低、音高也很低

只有當阻礙音母音結合,才能發出強度比較大的音。

漢語普通話中,所有阻礙音都是與母音結合的,而英語以及歐洲所有拼音語言,都大量使用了不與母音結合的阻礙音,事實上,古漢語中不與母音結合的阻礙音是極度常見的,音節結構比現代漢語的諸多方言都複雜,但是後來這種子音用法就基本淘汰了

具體上古漢語的發音案例,大家可以自行搜尋 《關雎》上古漢語朗讀

雖然學界對上古漢語的具體發音還有很多爭議

但古漢語音節的複雜度在那個朗讀中體現得很好

消滅獨立的阻礙音,首先加快了發音速度,第二保證所有音都具有很高的強度。但是其代價就是大大縮小了單音節詞庫,不過在上面的比較中我們可以看出,這個代價是值得的,漢語的資訊傳遞效率仍然非常高。

那麼我們繼續一個前面提到的話題,是不是音調越多越好呢?

有一個搞笑論調是這麼說的 "我們的普通話叫“mandarin”,什麼意思啊? 滿大人,滿族人清朝入關之後,說不出我們的口語,他就把很多調去掉了,把入聲去掉了。說的發音越來越簡單了,然後逼著全國人都這麼說,所以我們現在的口語比粵語要簡單得多

這是一個非常愚昧的論調

首先,Mandarin 這個英語單詞來自於葡萄牙語 mandarim 葡萄牙語這個詞又來源於馬來語m?nt?ri 馬來語這個詞來源於梵語mantrin 而梵語這個詞的意思是官員

換句話說,mandarin的願意是【官話】

而且Mandarin這個詞能查詢到的最早的記錄出現於1589年

大家可以查查那時候“滿大人”在哪裡呢

很多人以為粵語是正宗的漢語發音,這話對,也不對。粵語具備一些中古漢語的發音特徵。但是它也是在【中古漢語】的基礎上發展而成的,語音還是有相當大的差異

有人認為北方官話/中原官話的形成,是因為蠻族入侵“汙染”了漢語,這個說法同樣,對,也不對。北方官話之所以在中古漢語的基礎上進一步的發展,就是因為戰爭與征服。北方漢民與語言不通的外族加深的了交流,多種族的融合,教育,逐漸把一些發音變得更加容易

舉一個例子,粵語裡白菜的白是Baak6,普通話是Bai2 粵語裡尾部的這個k是一個不發音的舌頭動作,這個動作略微改變了原來Baa的發音,但這個音,如果不費力就很難造成Baa明顯的變化。相比之下,Bai本身就容易發,雙母音ai的發音是通過舌頭跟隨下顎動作完成的。我們知道咀嚼肌的力量比舌頭大,運動也快,依靠下顎完成的ai音顯然比依靠舌頭完成的aak音要容易發,當然這不是一個公平的比較。相比之下普通話Liu、Lang的發音難度與粵語Baak相近,但是這兩個音的尾部都是響音,不需要費力就能發得很清楚

與這個不發音的k類似的,還有粵語中p和t結尾,這種發音方式正式名稱叫做不除阻的【塞音尾】在亞洲很多國家和方言裡都有,這應該是【古漢語】流傳下來的特點,這種【塞音尾】既不抗噪也不省力,在交流更廣泛、更頻繁的北方方言裡是很難見到的,應該是已經演化成其他發音了

粵語依具體方言不同,有6-10個聲調,其音高變化模式並不超出普通話的四個音調,之所以多出來這麼多音調,是因為粵語還引入了不同基準音高,比方說在一些方言裡,粵語的第1、3、6聲都是保持音高,但是這三個聲調各自保持的音調高度不同。再比如粵語第2、5聲,都是音高由低到高變化,但起始音高不同,粵語總共有四種不同的基準音高,分別是do、re、mi和sol,類似的情況在很多南方方言裡都存在。

這就是為什麼有時候南方方言聽起來有些像唱歌,大概也就是為什麼吳儂軟語聽起來很好聽。

然而粵語音調最大的問題就是,每一個人音調高低是不一樣的。有的人說話音調高,有的人音調低,沒有一個統一標準,甚至同一個人說話的時候,在低沉、平靜、激動時,音調高低也是不同的,因此,與一個不熟悉的人說話,出現單獨的一個音高或兩個音高,都很難分辨出到底是哪一聲,必須要三到四個基準音高都繁出現,才能判斷準確對方的音高究竟屬於哪一聲。而這些基準音高是否會頻繁出現,這就是比較看人品的了

當然,就漢語的冗餘度而言,一部分音高判斷不準是沒有太大關係的

但這就讓粵語發音多變的優勢大大削弱了。

此外,粵語的7、8、9聲都是短促音,其音高和音高變化模式與1、3、6聲沒有區別,短促音抗噪能力不如普通音長的發音,但它們的發音速度更快,不過在現今人類口語交流中,瓶頸是大腦的思維速度,發音速度太快並沒有明顯的好處

有人問到底多少個聲調最合適,我覺得這很不好說。現在沒有客觀的評估,但是無論如何有聲調的漢語(及其方言)總是要比沒有聲調的外語強

那麼漢語的抗噪效能有沒有什麼證明呢?

有的。出了國,尤其是到了歐美的人,就會發現一個問題。那就是中國人說英語,相比於當地人來說,總有點含混不清。外語老師總是要求中國人說英語的時候嘴巴要張大舌頭的運動要有力,甚至要求用牙齒咬住一根鉛筆來訓練脣舌運動

這是為什麼呢?因為中國人已經習慣了脣舌微微運動的發音過程。

漢語發音具有很高的訊號強度,而且由於捨棄了所有單獨發音的子音,所以一個音節裡的母音就能保持更長的時間(這也就是為什麼我們一般覺得漢語說話比英語慢的緣故)我們知道長時間保持一個訊號,也有利於對抗隨機噪聲。發音強度大、母音維持時間長,這就導致,同等發音強度時,漢語抗噪能力更加強大

換句話說就是,同等噪音條件下,漢語需要音量更小

因此漢語使用者發音不必費力,脣舌運動幅度比英語之類明顯小

八、口語的速度

說到口語的速度,我們先來看這篇論文:

論文連結 Towards an Integrated Understanding of Speaking Rate in Conversation

圖1顯示,根據一些談話樣本,當去掉沉默與噪音佔據的時間後

英語會話者每分鐘一般能夠說160-280個詞

漢語會話者大致是250至400詞(這裡不是字)

這差不多是普通人不受思緒影響的最高語速

所以可以看出,漢語的理論最高資訊傳遞能力是【遠遠高於英語的。

但實際上受限於【思維速度】,兩者的速度差距並不大

下面這篇論文研究了在不同語速下聽眾正確聽得每個字的概率

論文連結 Intelligibility and preferred rate of Chinese speaking

英文播音平均每分鐘210-252個音節與漢語播音平均每分鐘240-260字沒有顯著區別。可以說,人類接受語音的速度,現在是受到了【人腦處理能力】的限制。上面的播音速度,都不是播音員最快的說話速度,而是為了保證觀眾正常收聽才控制的速度

隨著交流的日益深入,人類說話的速度實際上在加快,40年前美國一般語速是145詞每分鐘。如今是160-170詞每分鐘,中國60年代播音185字每分鐘,如今是240-260字每分鐘,這也許是資訊的豐富讓人腦的處理能力上升的緣故

九、漢字:偉大的基礎

漢語一開始也是一種【綜合語】大量使用詞根、詞綴。但是從文字角度,漢字為漢語成為【孤立語】提供了非常關鍵的基礎結構,漢字導致詞形變化無法記錄在紙上。最後詞形變化就只能用額外的漢字來標記了。而這個增加的漢字就變成了一個通用的邏輯規則,也就與修飾的特定詞失去了必然關係,這樣漢語就逐漸變成了【孤立語

正是由於漢字將【讀音】與【書寫】割裂,使得漢語的語音能夠相對自由地發展

因此,漢語語音在幾千年中變化如此之,而我們的文化沒有割裂

更進一步地,由於漢字並不受限於讀音,因此可以創造出大量同音異形字,幫助漢語降低平均音節長度、提高組詞的邏輯性。雖然在口語上,漢語的同音異形詞和英語的多義詞都屬於“同一發音可能包含不同含義”的情況。但寫到紙面上,同音異形詞就比多義詞容易辨識減少歧義的可能。

有人可能會問,漢語口語交流,並沒有多少歧義的問題,那為什麼文字中會需要額外的消除歧義的能力呢?這是因為一般情況下口語交流是一種雙向交流。如果發現有可能有歧義,可以向對方詢問,主動消除歧義

而文字往往是一種單向交流(不包括網上文字聊天……)一旦出現歧義,就很難消除,因此文字裡的歧義一般需要比口語更小。我們的文字、我們的語音以及我們整個語言整體,都是有機結合在一起的。推崇漢字的拼音化或拉丁語話,都是沒有看清這種密切聯絡

反面教材就是韓國盲目將文字拼音化的,結果出現把防水材料搞成吸水材料的笑話(韓語裡“防水”和“放水”讀音一致,結果建築公司錯誤理解了圖紙)

再有,由於漢字不需要空格,所以相比於類似字號的英文單詞,同一個詞要高而窄,這在排版上有很大的優勢(行距要佔用額外的空間,高而窄可以減少行數)加上漢語本身資訊密度高,所以一般我們看到的中文版的書面檔案都比外文版的頁數少

十、閱讀速度的比較

和語音一樣,閱讀速度同樣受到大腦處理速度的制約,所以各個主要語言區別不大

ReadingChineseScript: A Cognitive Analysis》這本書裡有一個章節《Eye Movements in Reading Chinese andEnglish Text》專門講閱讀中英文時的眼球移動,這是中科院和悉尼大學的兩位學者寫的

熟練的中文閱讀者能夠每分鐘閱讀386箇中文詞彙

而熟練的英文閱讀者可以每分鐘閱讀382個英文詞彙

一般人可能會低100詞左右

具體速度還取決於文章的複雜程度,文章簡單的話閱讀速度就更快。

漢語使用者眼睛每次凝視可以閱讀1.71個詞(2.57個漢字)每次凝視平均257毫秒

英文閱讀者每次凝視可以閱讀1.75個詞,每次凝視平均265毫秒。

總體上說,兩者閱讀速度不相伯仲

十一、雙線並行讀取能力:更穩定

經過長期的研究,人們發現不同語言使用者在閱讀時使用的大腦區域是不同的

以下這篇文章提供了部分綜述

論文連結 Brain Activation in the Processing of Chinese Characters and Words: A Functional MRI Study

閱讀自己母語時,閱讀【漢語】的人 腦部啟用範圍 閱讀【英語】的人英語閱讀者在閱讀時主要啟用左腦 的一些部分,而漢語閱讀者則同時啟用左右腦,這是一個很有意思的發現

因為,時序訊號(語音就是時序訊號)的處理區域一般在左腦

影像、空間資訊的處理區域一般在右腦

所以,很多人認為,漢語閱讀者的閱讀實際上有兩個處理通道,就是說,在閱讀漢語時,我們總是一邊通過影像來直接識別文字含義,一邊通過影像轉換為讀音然後來識別文字含義,而表音語言只有一條顯著的處理通道

十二、不夠嚴謹?

有人說【漢語】的劣勢就是不夠嚴謹,這其實可以說是孤立語和綜合語的差異。孤立語對於詞的具體含義需要通過上下文確定,如果上下文給予資訊不足,就有可能出現歧義。而很多時候,上下文只能表明這個詞更可能是什麼意思,而不能完全否定其他理解,這雖然在交流中不會有什麼問題,但是在那些防止別人鑽空子的檔案裡就可能造成問題

我們舉個例子:“中國絕不會首先使用核武器。”

這句話有三種解釋:

1、在敵方沒有使用核武器之前,中國不會使用核武器

2、中國在使用常規武器之前不會使用核武器

3、中國不會是世界上第一個使用核武器的國家

很顯然理解應該是1,但是並無法否定2和3的可能性

因此,很多人認為【漢語】的這種不嚴謹性會妨礙法律條文和合同。

但是英文難道就很嚴謹麼?

He ran into a girl with an umbrella

帶傘的是男的還是女的?

I saw a car with a big flag, whichlooked really evil

哪個看起來很邪惡,車還是旗子?

China will not be the first to use anuclear weapon.

這應該是上面的解釋1還是3?

想要做到嚴謹,都需要考慮到其他人閱讀時的想法,然後用其他語句來消除歧義

順便推薦搞笑英語書籍《Anguished English: AnAnthology of Accidental Assaults Upon OurLanguage》裡面收錄了很多爆笑的歧義句,比如 If you have not got any fresh vegetables, you may get canned

所以,漢語要想說的嚴謹,也是沒有問題,只不過要比一般多一些口舌而已

分析語本身的表意效率就很高,多花一些筆墨,達到嚴謹的效果,也是完全可以做到的

所以這方面如果有差距的話,差距也不大

漢語與拼音文字的起源對比

現在拼音文字大行其道,有的人認為這意味著拼音文字是更先進的文字,所以拼音文字戰勝了表意/意音文字,事實上,單從兩者的發展歷史,是得不到這個結論的。

文字,從一開始就是記錄資訊用的,所有文明的最原始的文字,如果是自然生成的話,都是【象形文字】這個原因並不難理解,一開始大家可能只要記錄今天是什麼日子、我有幾頭牛之類,顯然是畫個東西上去最簡單。中國、兩河流域、古埃及、古印度、瑪雅,一開始使用的都是象形文字。

從象形文字出發,一個文明可以發展出很多種不同的字形,但是隨著需要表達的意思迅速增加,就需要不斷新增新的字形,這時比較簡單的辦法就是讓一個字型一部分表音一部分表意,中國漢字在擴充套件時主要採用【形聲字】策略,用形旁和聲旁組合成一個漢字

而埃及的【聖書體】也與此類似,聖書體的一個單詞包含兩個部分,一部分用象形符號表音,一部分用象形符號表意。

歐洲現在主要語言起源於【拉丁文】,拉丁文又起源於希臘語。希臘人的字母表腓內基人教的,而腓內基人的字母又是從埃及人那裡來的,與此同時,還發現了一種可能是拼音文字的“前西奈字母”文字,這種文字與腓內基文字類似,也與聖書體有相似之處。有學者認為,【腓內基文字】就起源於“前西奈字母”而“前西奈字母”則是【聖書文】的一種拼音簡化體,這類似於拼音文和漢字的區別

所以說白了,從腓內基開始,一直到現在歐洲諸國

拼音文字起源,大概都由埃及的【聖書體】中的表音部分演化而來。

需要注意的是,由於口語先於文字出現,當一個民族還沒有自己文字的時候,接觸到外來文明,就容易用外來文明的【字元體系】來構建自己的文字,對於這些民族而言,最簡單的就是用先進文明的字母體系來直接表達自己語言的發音。因此,自腓內基而後的歐洲的次生文明自然紛紛使用字母來記錄自己的語言。

再比如,日本儘管很早就引進了【漢字】但是漢字與其原有的語言(當時還沒有文字)並不相容,而漢語里根本就沒有簡單的拼音符號,但是日本為了能夠真實記錄自己的語言,最終衍生出了平假名、片假名為漢字注音,後來這些就變成了日語的基本符號

資料連結 鐵證如山:日文是山寨了唐代樂譜,讓誰羞愧?

從這裡就可以看出,當【次生文明】在沒有發展出自己的象形文字型系就被原生文明文化入侵時,無論他們先接觸到的是什麼樣的原生文明語言,最終都會走上使用【拼音文字】的道路。這樣的拼音文字也很適合直接囫圇吞棗地引進外語的詞彙,方便向先進文明學習

這種特點一直流傳到今天

順便,看到有人說希臘是次生文明的這個說法,不得不解釋一句,希臘埃及兩河流域次生文明,同時受到了兩大原生文明的哺育。這也就是為什麼各國論述古文明的書籍中。希臘文明總比古埃及、兩河、中國等【原生文明】低一個等級,曾經看到有人用希臘來否定中國在古文明中的地位,這是很可笑的。

那麼為什麼這世界上的表意文字這麼少呢?很顯然,這世界上的【原生文明】本來就那麼幾個,而【次生文明】卻要多幾個數量級。歷史大潮中三十年河東三十年河西,原生文明也有可能被次生文明所征服,在征服之後,語言也就有可能會逐漸消亡了。

所以,拼音文字廣泛使用,這並不說明拼音文字就優秀

只能說這世界上的原生文明實在太少.

相關文章