《資料科學實戰》翻譯質量有問題,存在嚴重錯誤
我關注本書已久,出版後第一時間購買了紙書和電子版,準備仔細閱讀。結果。。。
打字錯誤就不說了,平均一頁至少有一個,網站上有網友提了一些,還有不少。 打字錯誤先不說了,主要看翻譯問題吧。
P42 最後一段 英:One of the most common statistical methods is linear regression. At its most basic, it’s used when you want to express the mathematical relationship between two variables or attributes. When you use it, you are making the assumption that there is a linear relationship between an outcome variable (sometimes also called the response variable, de‐ pendent variable, or label) and a predictor (sometimes also called an independent variable, explanatory variable, or feature); or between one variable and several other variables, in which case you’re modeling the relationship as having a linear structure.
中:線性迴歸是統計學中最常用的演算法之一。從根本上來說,當你想表示兩個變數間的數學關 系時,就可以使用線性迴歸。當你使用它時,你首先假設輸出變數(有時稱為響應變數、 因變數或標籤)和預測變數(有時稱為自變數、解釋變數或特徵)之間存線上性關係。當 然這種線性關係也可能存在於一個輸出變數和數個預測變數之間 注2 )。
注 2: 這稱作多元線性迴歸。
第一句話,顯然是:線性迴歸是最常用的統計方法之一,翻譯成演算法無中生有。
最後一句in which case漏譯。
譯者加的注毫無必要。
===========================================
P46 第2段
模型對於資料來說,主要是用來捕捉其中兩個方面的資訊:第一個是趨勢(trend),第二 個是變動幅度(variation)。我們先從趨勢說起。
P49 第3段
英:In order to get at this question of confidence, you need to extend your model. You know there’s variation among time spent on the site by people with five new friends, meaning you certainly wouldn’t make the claim that everyone with five new friends is guaranteed to spend 195.7 seconds on the site. So while you’ve so far modeled the trend, you haven’t yet modeled the variation.
中:這在統計學上叫作置信值的問題,解答它需要將模型的內涵稍作延伸。可以想象,如果用 戶的新好友數為 5,那麼這些使用者在網站上花費時間的預測值不可能只是一個定值 195.7 秒,一個合理的情況是這些使用者花費的時間都在 195.7 秒附近波動。因此,線性模型得到 的預測值只是所有可能預測值的一個總體趨勢,而圍繞這個趨勢的波動性還沒有被模型考 慮進來。
首先譯者不能把握variation的翻譯,P46翻譯成變動幅度(錯誤),後面可能因為拿不準,就直接忽略了。 英文中最後一句trend和variation都是斜體,中文只有趨勢弄成了楷體,variation對應的名詞拿不準(翻譯成了波動性)也就沒有變字型。
另外第一句,confidence翻譯成置信值,我個人沒有見過這個術語。 第一句中文“這在統計學上”是無中生有,而英文in order to表示目的沒有翻譯出來。整段的翻譯也過於隨意了。
=============================================
P48 第2、3段
英:Here the little “hat” symbol on top of the β is there to indicate that it’s the estimator for β . You don’t know the true value of β ; all you have is the observed data, which you plug into the estimator to get an estimate.
To actually fit this, to get the β s, all you need is one line of R code where you’ve got a column of y’s and a (single) column of x’s:
中:β帽 代表 β 的估計值,真實的 β 是無從得知的。在得到 β 估計值的表示式之後,主要將觀測數 據的值代入即可計算出實際的估計值。
在 R 軟體中擬合一個線性模型再簡單不過了,假設有一列資料代表因變數 Y ,一列資料代 表自變數 x ,則擬合的 R 程式碼為:
第一句話,譯者大量省略原文(這裡β上面的小帽子符號……)。
更嚴重的問題是,譯者不能區分 估計值estimate 與 估計量estimator 這兩個概念。第一段最後一句同時出現這兩個詞,譯者不能區分,就直接省略了一個。
第二段第一句中to get the β s漏譯了。
最後一句,中文為Y,原文為y。統計學中Y和y含義不同,對讀者造成嚴重誤導。
整體上這段話的翻譯也過於隨意。
===============================
P54
英文:
• Linearity
• Error terms normally distributed with mean 0
• Error terms independent of each other
• Error terms have constant variance across values of x
• The predictors we’re using are the right predictors
中文:
• 線性假設;
• 誤差項是正態分佈的,並且均值為 0;
• 誤差項是相互獨立的;
• 誤差項具有恆定的條件方差;
• 預測變數都是有用的。
第1個,直接翻譯成 線性性 就可以了。
第4個,across values of x 漏譯。原文沒有條件一詞,但也確實是說條件方差,可以接受。另外個人感覺constant最好翻譯成“為常數”,比“恆定的”稍好吧。
第5個,原文直接翻譯是 所使用的預測變數都是正確的預測變數。原文right是斜體,right的英文含義也比 正確 要廣,但"有用"給人感覺對應中文useful,不太合適。
===========================
P54 第2-3行
英:It’s possible that the true model is quadratic, but you’re assuming linearity or vice versa.
中:很可能真實的模型是二次型的,而 你最後還是使用了線性模型。
quadratic不能翻譯成二次型,二次型是線性代數的特定術語。直接翻譯成二次的(或者二次方程)就可以了。
or vice versa漏譯。
“你最後還是使用了線性模型”翻譯過於隨意。
==========================
P16-18 sampling翻譯成取樣,這個詞的標準翻譯是抽樣。更嚴重的是,P18第二段將抽樣分佈翻譯成取樣分佈。一會兒取樣,一會兒取樣,都是錯誤翻譯。
=====================
P17 第二個小標題
bias翻譯成偏差
偏差在英文中對應多個詞,而且不是統計學術語。而bias在統計中有特定含義,應當翻譯成偏倚。 翻譯成偏差不能讓人想到英文說的是bias一詞。
========================
這些都是比較集中的錯誤,一段中有多個錯誤,比較典型的。其他的不列舉了。
總結: 圖靈的資料分析類圖書似乎已經成為爛譯的重災區。《有趣的統計》一書,全書都是錯譯,譯者連零假設這個術語都不知道(翻譯成虛無假設),根據譯者介紹來看,該書的譯者擅長網站開發,也就不難理解了。而資料科學實戰的兩位譯者,一個是在高校任教的統計學博士,一個是SPSS的工程師,居然也出現低階錯誤,原因就難以理解了。
編輯問題也非常突出,文字錯誤非常多,而編輯似乎也不知道怎麼翻譯是對的。圖靈公司需要一個專職統計學編輯資料類圖書,不應由精通其他領域的編輯兼職。
相關文章
- (翻譯)2016美國數學建模MCM C題(大資料)翻譯:優質基金挑戰大資料
- 《資料科學實戰》作者Cathy O'Neil訪談問題有獎徵集(圖靈訪談)資料科學圖靈
- 讀資料質量管理:資料可靠性與資料質量問題解決之道01資料質量
- 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型阿里模型
- 開源文件翻譯的質量保障實踐
- 資料科學和機器學習面試問題資料科學機器學習面試
- 【政府網站普查】江西省政府網站:“嚴重表述錯誤”問題突出網站
- 蘋果iOS再曝嚴重問題 2.5萬應用程式存在漏洞蘋果iOS
- (資料科學學習手札135)tenacity:Python中最強大的錯誤重試庫資料科學Python
- 資料倉儲資料質量的問題探討(轉)
- 讀資料質量管理:資料可靠性與資料質量問題解決之道02資料湖倉
- 讀資料質量管理:資料可靠性與資料質量問題解決之道03資料目錄
- 讀資料質量管理:資料可靠性與資料質量問題解決之道06資料測試
- 讀資料質量管理:資料可靠性與資料質量問題解決之道10資料平臺
- ElasticSearch實戰系列十一: ElasticSearch錯誤問題解決方案Elasticsearch
- 讀資料質量管理:資料可靠性與資料質量問題解決之道05資料標準化
- 讀資料質量管理:資料可靠性與資料質量問題解決之道09資料可靠性
- 讀資料質量管理:資料可靠性與資料質量問題解決之道04收集與清洗
- 讀資料質量管理:資料可靠性與資料質量問題解決之道11根因分析
- 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題微軟
- 除了Kaggle,這裡還有一些高質量的資料科學競賽平臺資料科學
- 讀資料質量管理:資料可靠性與資料質量問題解決之道07異常檢測
- 資料顯示中國大城市夜間噪音問題嚴重
- [譯] 虛構問題,低質量軟體的根源
- “老司機”劃重點!搞定這120個真實面試問題,殺進資料科學圈面試資料科學
- 資料質量管理方法有哪些
- 有贊資料質量保障體系
- Web開發者易犯的五大嚴重錯誤Web
- 谷歌揭祕自家翻譯系統:如何利用AI技術提高翻譯質量谷歌AI
- 谷歌稱macOS核心存在“嚴重”漏洞谷歌Mac
- PLSQL重點問題理解和實戰SQL
- sql server資料庫select產生嚴重阻塞引起效能問題SQLServer資料庫
- 《萬物簡史》中文版翻譯質量低劣
- 讀資料質量管理:資料可靠性與資料質量問題解決之道08擴充套件異常檢測套件
- 神經機器翻譯實戰
- Laravel 5.2 的一處嚴重效能問題Laravel
- 如何修復帶有問號錯誤的 Mac 資料夾Mac
- 楊元慶:業記憶體在嚴重資料造假 急需改善誠信問題記憶體