大學書信選2(關於自然語言處理) (轉)

amyz發表於2007-08-16
大學書信選2(關於自然語言處理) (轉)[@more@]

簡序:

  大學的快樂,有很大一部分來自自由思索的快樂,來自向專家學習、來自交流的快樂。

  比如,我最喜歡羅素的觀點,他成了我人生的座標,所以一直以來我也愈加的喜歡數學與科學,關注民生與自由,我相信對於我的青年時期,這將是永可懷念的!

  還有很多的老師,往往是一次課,讓我永遠的記住了他們。大一時期的張曉庭先生,精彩的統計課程講座與人生觀點,大三時期的趙致琢先生,對於科學理論的闡述,還有康立山老師的智慧計算課程,我們學校的蔡老師、薛老師、姚老師的鼓勵,我都永遠的記在心中。

  暑假期間,就開始了另一次愉快的經歷。我認識了做自然語言處理的晉耀紅先生,並開始接觸HNC理論。這個理論非常有意思,它打破了我原來基於數學結構的思維形式,HNC理論的創始人黃曾陽先生對於漢語言的處理思路,可以給人豐富的啟示。

  下面這封e,就是和晉耀紅先生(我一直稱他為晉老師)的一次交流。當然,信中的觀點或許有許多錯誤,可是,在這樣的學習中,也只能用“快樂”兩個字來形容了。

 

  祝願所有的大學生朋友,在你們的大學生活中,能盡情陶醉於思索與交流的快樂中!

 

  percylee

  -10-15 於武漢

 

--------------------------------------------------------------------------------------

晉老師::namespace prefix = o ns = "urn:schemas--com::office" />

您好!來信收到,十分感謝您的鼓勵!當然,作為一個本科生,客觀的講,我的欠缺還是很多的,可是我也很高興的發現,我越來越喜歡這個領域,所謂竟找到一生欲成就的夢想,歡樂也是難以表達的。

我很願意到貴研究院去工作;並願意全力爭取面試乃至成為一員的機會!說起來原因也很簡單,首先,HNC理論很有魅力,這是一項有意義的事業;其次,我相信相應的開發團體也一定是生機勃勃,當是很好的成長之所;最後,從我個人出發,雖然我較多的精力用在學習軟體開發上,但對於基礎理論與數學的熱愛,使我更願意選擇一個具有研究性氣氛的工作場所,我們們的研究院當然是我首選的(我目前還不想讀研究生,從小學到大學一直呆在學校中,我想痛快的工作幾年!)。

當然,我對工作中的難度是有所預感的。由於前一段時間一直忙於《SAT問題研究》的結題(我的一個校級專案)和演化證明思路的整理,沒有能夠繼續HNC理論的學習,可是潛意識裡仍時時記得她。那日裡在圖書攤點上瀏覽,遇到一本哲學書籍《人論》,它所討論的人是建立在符號上的。原則上我更喜歡羅素的觀點:),可是翻閱它我一下子想到了HNC理論的哲學假設,從一個已存在的概念模型出發,來構造複雜的系統討論對於自然語言的理解和處理。所以我就買了這本書,雖然我不太同意它的看法,可卻認為HNC理論的假設是合理的,我想看看翻閱它是否能給我一些啟示。

系統的接觸人工智慧,是在學校的課程中,後來就是兩個方向,一是讀張景中先生的《數理邏輯與機器證明》,對機器證明產生興趣,一是去聽我們康老師的課(他為研究生和青年教師開的課),演化計算與平行計算,兩個學期後,喜歡上了智慧計算。但上個學期,偶然的機會,我接觸了自然語言理解與處理,從天津海量科技裡瞭解了他們的分詞技術,並在他們的網站上看了他們的線上分詞效果。聽他們說分詞是自然語言理解與處理的瓶頸,從此我也開始想這個問題,的確非常難,因為從思路來講,我是黃先生批評的數學家(邏輯、統計派)那一類:),用之於自然語言的理解和處理,總感覺十分的不“自然”了。後來就是暑假裡認識了您,並開始瞭解HNC理論。

現在想來,首先是這個哲學假設,即語音或文字表達的內容在大腦中並不是以自然符號系統的形式存在,而是以概念符號系統的形式存在。這個概念符號系統假設,當是理論的基石。事實上,自然語言,應該是人類描述資訊(物質的和意識的)的一個完備集合。而要用計算機理解和處理它,則是要建立一個符號系統,可以與自然語言做很好的對映,這不僅包括元素的對映,更重要的是其與自然語言的相互作用和所含資訊量,也能得到很好的對映,這樣才方便進行雙向處理。而傳統的技術,如語法分析,可以認為是處理自然符號系統,這個系統對元素的對映還是可以的,但它處理自身與“自然語言的相互作用與所含資訊量”的對映相當蹩腳,諸如“主謂賓”之類是語言的習慣意義上的一般,可以作為初步的語言結構合法性判斷,但瞭解自然語言的含義,我覺得人類從來不會自覺的運用它!同樣的,基於統計也是如此。

那麼,人類是如何處理自然語言的呢?比如下面的一句話:

在廣闊的空間裡,她自由自在的飛翔……

就談這個“空間”,我看到這個詞,沒有分析它的語法位置,更不會檢索它的機率意義,事實上我的大腦中也沒有這樣的儲備。如果是中學時代,我的反映肯定是樸素的三維空間,我太熟悉這個了,我一下子想到長、寬、高,想到運動;而現在,在物理意義上的空間概念上,我還能在第一時間裡反映出我最喜歡的代數中的空間概念,我想到一個廣闊意義上的空間概念。然後我才放到句子中,這才是我的理解過程!這說明,事實上,做一個更為基本的假設是可行的,即HNC理論的概念符號系統假設。

這個假設,使得我們建立完善的概念符號系統成為方向。我能隱約感覺到,這個系統應該是可以很好的完成其與“自然語言的相互作用與所含資訊量”的對映。只要層次得當,變化規則保留得當,我對“空間”的理解過程,應該可以在這個系統中得到很好的反映。如果兩個結構看作寬泛的代數結構的話,我們則希望這個對映是類同態,類滿同態,甚至是類同構,這樣它既適應於計算機處理,又最大的保留了自然語言的內容。

但自然語言本身是複雜的,這個概念符號系統,如後面所見到的,也是複雜的。否則這個對映也就成了浮光掠影式的,反映不了自然語言本質的東西,就無法去做“理解”的工作了。

晉老師,我現在理解HNC理論,都是從這個角度出發的,也許有不少的偏差,我會在後續的學習過程繼續調整。如上面所述,我對困難有充分的準備,呵呵,我感到興奮與快樂,一做從來沒有做過的事,我就如此。即使不能去我們們研究院工作,我也會一直關心這個理論。它的成長給了我很好的啟示,而我的終極希望,就是計算機可以和人類做朋友:),可以相互理解的那種。

 

當然,從工作的角度講,我學習理論,更多的是要考慮現有理論的軟體化。做理論創新,我還沒有基礎。做軟體,相信在大家的幫助下,我能慢慢的勝任我的工作。我期待著融入這個團體!

只是,下月如果兩個隊都獲主辦方批准的話,我們就要去中山大學去比賽了(ACM)。很想去公司參觀學習,或可安排面試等,但不知什麼時間好。

聽您的建議。

 

祝工作順利!健康快樂!

 

  連華

  於武漢


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10752019/viewspace-962614/,如需轉載,請註明出處,否則將追究法律責任。

相關文章