語料庫基礎學習

振宇要低調發表於2018-07-10
  1. 語料庫:對語言進行全景性的透視。
  2. 語料庫思想產生的背景:
    1. 電腦科技的發展,資訊科技的支援;
    2. 從現象歸納原理的思考模式
  3. 語料庫幾個特徵
    1. 語料庫一定是機讀的,不是為人準備的,因為其統計非常的繁雜,分析非常的繁雜;
    2. 必須是確認為真的,進入語料庫的語言必須是經過挑選、篩選的
    3. 是一個有限集合,是一個語言的抽樣
    4. 代表性和要研究的目的是緊密相關的
    5. 狹義的語料庫只有文字,廣義的語料庫還有聲音、視訊、手語等多模態語料庫
  4. 語料庫建設的基本問題。
    1. 語料一旦確定,很少更新
    2. 人工參與過多,自動化程度不高
    3. 缺乏語言資源管理(缺乏網站式的管理工具)
    4. 缺乏使用者定製功能
    5. 成本大,週期長
    6. 語料庫建設網路化(更多的人一起建設)
  5. 語料庫型別
    1. 可比語料庫(最簡單),由討論一個領域的兩種語料組成。舉例:奧運會翻譯的時候做排球賽事的翻譯,首先要找討論排球的英文文章和中文文章,建立可比語料庫。
    2. 平行語料庫,對其的文字。篇章對其、段落對其、句對其、亞句對其、詞對其。句對其很重要,句對其的語料庫可以作為翻譯記憶存在。
    3. 單語語料庫,語料庫只有一種語言,外語單語語料庫庫,藉助於語料檢索與統計分析工具,可以得到遠超詞典和語法書的語用知識。(免費、量大、質高、檢索方便、對翻譯實務可用性較強)
    4. 按照加工與否,分為熟語料、生語料語料庫
    5. 按照語料型別,分為通用、專門用途語料庫
    6. 翻譯學者語料庫,統計口語錯誤、書面錯誤,用於對學習過程的分析的語料庫
  6. 料庫檢索工具:wordsmith(商業)、CWB(sourceforge開源)、spss|weka 統計工具及資料分析工具(商業開源)、基於web的語料庫系統:sketch engine http://corpus.byu.deuhttp://ccl.pku.edu.cn
  7. 語料庫在翻譯實踐中的用途
    1. 獲取專業知識、學習專業術語、借鑑表達方法、模仿寫作風格、提供翻譯策略 
    2. 幫助譯者理解原文、幫助譯者尋找更合適的表達方法

 

語料庫學習視訊下載地址:連結:https://pan.baidu.com/s/1XBCCG0cS963cY1wZAU2aDQ 密碼:ew3y

論文學習資料下載地址:連結:https://pan.baidu.com/s/1AHt37NLRQSBfHuNPP-bjBg 密碼:ut9b

    

 

相關文章