自然語言處理新天地(之三[1]) (轉)

amyz發表於2007-11-16
自然語言處理新天地(之三[1]) (轉)[@more@]

HNC的發展和未來

黃曾陽

(中國科學院聲學研究所 100080):namespace prefix = o ns = "urn:schemas--com::office" />

 

1引言:提倡學術碰撞──並在語言學研究中探索

超數學、超邏輯的超碰撞

  學術交流的根本意義在於引發學術碰撞,學術碰撞是科學進步的根本動力。沒有碰撞的學術必然衰落,碰撞活躍的學術必然興旺,這是東西方科學技術發展形成巨大反差的根本原因。500年前,西方世界就開始重視培育有利於學術碰撞的社會環境,而東方世界到今天還對此重視不夠。能否扭轉這種狀況,是東方能否在新世紀與西方並駕齊驅的第一要素,其它都不是第一位的。

  相互碰撞的前提是相互瞭解。就HNC來說,與兄弟學科雙向碰撞的條件亟待改善,因為拙著《HNC理論》十分難懂。當然,拙著的難懂不等於HNC理論的難懂,但兩者之間終究存在著一定關聯性。準確的說法也許是“HNC理論並不難懂,但《HNC理論》那本書確實難懂”。書難懂,已是事實和歷史,可以暫時不去管它。理論難懂,則需要儘快採取補救措施,否則,這次研討會就難以完全達到預期的交流目的。所以,我的報告題目雖然採用組織委員會指定的名稱“HNC理論的發展與未來”,但重點是力求對HNC理論作一個易懂的闡釋。這是一件很費力的事,深感心有餘而力不足,效果也許適得其反。但作為始作俑者,不能不做一點彌補過失的事。

  這次研討會的名稱是“HNC與語言學研究學術研討會”。所以,不能把這次研討會僅看作是許嘉璐先生最近提出的中文資訊處理學界第一流派和第二流派之間的首次學術交流,因為第一流派不等於第二和第三流派之外的語言學,第一流派只是語言學中關注語言資訊處理的分支。這個分支領域在中國還不夠強大,這次研討會希望促進它更加強大起來,希望原來不關心或不太關心語言資訊處理的語言學家今後能給予更多的關注。當然,這個希望是不應該由我來表達的,請原諒我這種越俎代庖的失禮。實際上,我想說的是下面兩點:第一,HNC也許能夠為語言現象的考察和闡釋提供一些新的視野和方法。第二,語言學界各領域對HNC的參預意味著不同流派的學術碰撞,將對HNC的發展提供新的動力,我們對此寄以厚望。

  學術碰撞並不是什麼高深莫測的東西,從下面的例項就能清楚地看到這種碰撞現象。大家熟悉的下面兩個語串—“熱愛人民的周總理”“他在樹上摘花”,第一和第二流派所採取的分析方式有很大的差異。

  第一流派會這樣提出問題:

  熱愛人民的周總理=熱愛(人民的周總理)?

  =(熱愛人民)的周總理?

  他在樹上摘花=他在樹上+他摘花?

  =花在樹上+他摘花?

HNC則以另一種方式提出問題:

  熱愛人民的周總理=>熱愛||人民的周總理

 

  “熱愛”是全域性特徵語義塊Eg?

  還是區域性特徵語義塊El?(“熱愛”是龍頭老大麼?)

  2號難點(Eg/El 辨認難點)

  他在樹上摘花=>他||在樹上||摘||花

  “摘”是摘植物花果、摘附屬物、摘牌子、摘右派帽子

  中的哪一個“摘”?

  1號難點(多句類程式碼難點)

  “在樹上”=條件輔語義塊Cn2

  顯然,兩流派對第一語串的關注焦點相同,但闡釋方式有很大差異;對第二語串則連關注焦點本身就完全不同。關注焦點的差異來於兩者的“立場”不同,第一流派站在“以人為本”的立場,而HNC站在“以為本”的立場。闡釋方式的差異來於兩者的“觀點、方法”不同,第一流派以“主謂賓定狀補”為基本分析工具,把句法樹的生成作為語句分析的基本目標;而HNC則以語義塊和句類表示式為基本分析工具,把句類的認定和語義塊構成分析作為語句理解的基本目標。

  站在“以人為本”的立場,“以語詞解釋語詞”的傳統釋義方式是天經地義的,沒有改變之必要;站在“以計算機為本”的立場,則傳統釋義方式被認為是不可取的,至少是有嚴重缺陷的,必須加以改變。按照句法樹的觀點,樹的構成即代表對語句的一種理解;按照HNC的觀點,語義塊之間概念聯想脈絡的形成才代表對語句的基本理解。無庸諱言,兩流派的分歧是巨大的。但是,也應該看到,兩者在立場和觀點上的不同,並不是你死我活的“階級鬥爭”,而是可以互相取長補短的學術碰撞。因為,“以人為本”與“以計算機為本”並非水火不相容,兩者都需要運用“以已知闡釋未知”的根本原則。句法樹和句類表示式也不是水火不相容,兩者實際上都在對一個語串按照各自的標準進行組裝,雖然組裝的總體方式差異甚大,但某些區域性組裝的“工藝”和“技巧”並非不可以互相借鑑,這方面的潛力究竟有多大,不經過相互碰撞是難以作出準確判斷的。

  上述碰撞僅僅是語言學內部兩個流派之間的碰撞,與語言學研究所需要的全面碰撞相比,只是一個小小的區域性碰撞。也許可以說,在所有的學術領域中,當代語言學研究可碰撞的學術範圍之廣和碰撞火化的奇特是獨一無二的,是當之無愧的學術碰撞之王,其具體表現就是標題所概括的三“超”。

  超數學的“超”有兩層意思,一是指語言現象的表述要儘量納入數學的確定性模式,但不可能全部納入,二是指所謂“數學確定性喪失”的危機也許可以從語言不確定性的探索中得到啟發甚至找到出路。因此,語言學與當前數學的結合要尋求某種“超然”的方式。

超邏輯的“超”與超數學的“超”類似,一是指語句陳述要儘量納入邏輯命題的範疇,但不可能全部納入。二是指語言描述的因果關係不能都轉化為邏輯演繹。因此,語言與現代數理邏輯的結合也要尋求某種“超然”的方式。

超碰撞的“超”也有兩層意思,一是指碰撞的型別不是通常意義下的人文科學與自然科學的簡單碰撞(如經濟學的運用數學方法,歷史學的運用天文學知識等),而是可以在基本概念和基本方法上迸發出思想火化的超級碰撞。二是指碰撞的範圍不是與自然科學的個別領域,而是涉及文理工的眾多基本領域。

兩“超然”方式,在下面還會談到。至於三“超”之說,實際上是對西方一派學者意見的歸納,這樣的意見在國內不大容易聽到,因為有人過於喜愛跟隨國際主流,視主流之外為“異端邪說”。但是,主流之外不等於異端邪說,壓制是錯誤的。由於本屆研討會的組織者提倡學術碰撞,所以我有勇氣說了上面的話,並把它作為引言的標題。

 

2、HNC只研究自然語言的理解過程

   HNC理論是一個關於語言概念空間的理論,但它只研究這個空間的部分特性,即與自然語言的理解過程有關的特性,這是HNC對自身研究範圍的基本定位。

   語言概念空間是人類概念空間的一個子空間,與自然語言空間相對應。

   語言概念空間具有第一位的同一性(共性)和第二位的差異性(個性),可以假定人類具有共同的語言概念空間。另一方面,人類擁有眾多的自然語言空間。但多種多樣的語言空間是同一語言概念空間的外在表現形式,自然語言空間與語言概念空間存在相互對映或相互轉換的關係。如果我們把從自然語言空間到語言概念空間的轉換叫做對映,把語言概念空間到自然語言空間的轉換叫做逆對映,那麼顯然,對映是自然語言的理解過程,而逆對映是自然語言的生成過程。對語言現象的研究是否應該區分這兩個不同的過程呢?HNC認為,這一區分不僅是必要的,甚至是關鍵性的。任何一種現象或過程,當存在正反兩方面的對偶特徵時,如數學中的變換與反變換,物理學中的裂變與聚變,通訊中的編碼與譯碼,都要對正反兩方面分別加以研究,這是科學研究的基本法則之一,對語言現象的研究當然也應該遵循這一原則。

HNC理論只研究語言理解過程,有意避開語言生成過程。為什麼?語言太複雜了,不可能“畢其功於一役”。喬姆斯基先生的初期轉換生成語法理論,有人認為它脫離語義是一個疏忽或缺陷,其實這正是喬先生的高明之處。該理論的本意就是隻管語言生成過程,避開語言理解過程。當然,這兩個過程不可能截然分開,兩過程的研究也必然具有互補性,因為兩者由同一個“頂頭上司”思維過程統管著。但這兩個過程終究具有本質差異,如果不加區分,反而會對自然語言研究的整體思路和策略產生不利影響。特別是“以計算機為本”的計算語言學似乎更應該重視這一區分,並從這一角度對自己的研究歷史程式進行必要的反思。

語言概念空間的存在性是一個非常複雜的問題,涉及大腦或思維的根本奧秘。但必須假定語言概念空間的存在,否則語言理解過程的研究將陷入無源之水的困境。所以,HNC理論以這一存在性為其基本假定。黑格爾先生曾經說過,“哲學的開端就是一個假定”,HNC理論認為,對語言本質的研究,必須以上述存在性假定為開端。

人類的概念空間在不斷髮展,語言概念空間也在不斷髮展。但是,在笛卡爾和牛頓之前的漫長曆史時期,這兩者的發展都是非常緩慢的。是在這兩位歷史巨人的推動下,人類概念空間才獲得了迅猛的發展,但語言概念這個子空間的發展步調依然。

如果把概念空間看作是人類理性認識的“加工廠”,那麼,這個“加工廠”的概念“加工”能力,現代與古代有天壤之別,原因何在?但語言概念空間的“加工”能力並沒有什麼變化,原因又何在?

第一個問題可以說是笛卡爾、牛頓之後哲學探索的主題,從而促成了哲學研究本身從本體論向認識論的歷史性轉變,並取得了輝煌戰果。第二個問題應該說在19-20世紀之交也引起了哲學家的廣泛注意和思考,並促成了語言哲學的誕生,但遺憾的是成效不大。

第一項探索的重要成果之一是符號學的誕生,被譽為現代語言學之父的索緒爾先生也是符號學的奠基人之一。自然科學的巨人們創立了一系列前所未有的符號體系,透過這些符號體系,人們對客觀事物的規律性,甚至對人類抽象思考的產物本身,能給出科學的表述。這就是符號學形成的背景。符號學的精髓也許可以概括成這樣一句話,那就是:科學設計的符號就是科學的生命細胞。

20世紀西方有所建樹的哲學家幾乎每一位都從符號學的觀點考察過自然語言現象,可惜他們的考察僅侷限於自然語言符號體系本身的一般特徵,未能上升到“將符號再符號化”的高度。而自然科學家的理論探索應該說一般都是處於這一高度的。

將自然語言符號體系再符號化有兩方面的含義,一是對語言抽象(語言本身是對現實空間的抽象)進行再抽象,應該說這是語言概念空間研究中最為重要的基礎性研究。二是將自然語言符號體系形式化,要拋棄自然語言符號體系的任意性原則(這是索緒爾先生十分強調的基本語言原則之一),而代之以關聯性原則。站在“以計算機為本”的立場,這兩項研究對語言理解過程顯得尤為關鍵。但面對語言的無限性,語言學界感到困惑,有關的論述很多,這裡引用一段比較有代表性的論述。

 假定語言L的全部組成集合W={E1,E2,…,En,…},

  怎樣確定各個Ei的所指U={M1,M2,…,Mn,…}?

  怎樣確定各Ei和各Mi之間的關係,亦即怎樣確定對映法則(E)R(M),

  使W映入U和使U映入W?

  ……

  然而W的成員的所指卻更為縹渺多變,甚至無跡可求。因為我們不

  知道U中有哪些基本單位,也不知道有哪些複合單位,所以,我們

  不知道U是不是可列集,甚至也不知道怎樣列舉U的各個成員以及

  U的成員應該用何種方式去表示。

在國內的理論語言學論文中,像這樣經過深沉思考的論述應該說還是比較難得的。但是,作者在語言“縹渺多變”的前提下,一連講了4個(實際上有5個)“不知道”,接著既沒有回顧許多先行者為了變“不知道”為“知道”而進行的探索,也沒有進一步論證為什麼就“不能知道”,作為20世紀90年代的論文,不能不說是有點落後於時代了。

引文的W和U就是本文所說的自然語言空間和語言概念空間,“使W映入U”就是本文所說的“將自然語言符號體系再符號化”。值得注意的是引文中的“L的全部表示式”和“各個Ei的所指”這兩個提法。就提法本身來說,完全符合語言哲學的標準,然而卻是導致悲觀主義的禍根。第一個提法不利於“對映法則(E)R(M)”的建立,因為在建立這些法則時必須採取各個擊破的策略,不能把“全部”一刀切。第二個提法不利於雙向思維,為什麼僅考慮“所指”,而不考慮“反所指”?“使U映入W”不就是“反所指”麼!實際上對“所指”的研究主要是一個歸納過程,而對“反所指”的研究主要是一個演繹過程,而解決作者所說的5個“不知道”,是需要將歸納與演繹、分析與綜合的方法緊密結合起來的。

關於語言理解過程研究的方法論說明,本來可以到此為止,但美國著名心理學家黎黑先生關於“狐狸”與“刺蝟”的一段話,我覺得值得在這裡介紹一下,因為它對於語言學的碰撞式研究能提供一些有益的啟示。黎黑先生的原文如下:

  古希臘詩人阿奇洛丘斯說過:“狐狸知曉許多事物,而刺蝟只懂一件重要的事”。傑出的思想史家貝林爵士用這句寓意深遠的話表達了他對作家和思想家存有這一天壤之別的看法。一般說來,人們之間也可能存有這一深刻的差異。兩者之間截然有別,一方面“刺蝟”愛把一切與一種單一的中心觀念相聯絡,根據這種單一的普遍的組織原則,他們的存在以及他們所說的一切便有了意義;另一方面,“狐狸”卻追求多種目標,這些目標通常或毫無聯絡或相互矛盾,即使有聯絡,也僅僅是事件方面的關連。

  Rorty先生在《Philosophy and the Mirror of Nature》一書中區分了“大P”和“小P”哲學。“大P”哲學家是哲學界的“刺蝟”,他們雄心勃勃地想使哲學成為其他一切學科的首要原則和基本原則,為科學家和人文主義者提供建構理論的主要原理。相反,“小P”哲學家是哲學界的“狐狸”,他們批判地檢驗自己那個時代的思想,提出他們所希望的富於啟發性和指導性的述評,但不提供他們自己的觀點,因為他們認為本來就不存在什麼基本觀點。因此,構思出理想國的柏拉圖是一隻理性主義的“刺蝟”,是一個“大P”哲學家;而他的老師蘇格拉底,那隻叮在國家臀部上的牛虻則如一隻“狐狸”,是一個“小P”哲學家。

黎黑《心理學史》第二版序言

引這段話的目的是想說明,語言學界同樣存在“大L”語言學家和“小L”語言學家。目前的情況是“小L”語言學家似乎太多了一點,更重要的是,我們需要“大L”與“小L”相結合的語言學家。透過引言中所說的“超”碰撞,這樣的語言學家會逐步成長起來的,而這次研討會將起到“催生”的作用。

  (未完)


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10752019/viewspace-982716/,如需轉載,請註明出處,否則將追究法律責任。

相關文章