《資料科學實戰》翻譯質量有問題，存在嚴重錯誤

我關注本書已久，出版後第一時間購買了紙書和電子版，準備仔細閱讀。結果。。。

打字錯誤就不說了，平均一頁至少有一個，網站上有網友提了一些，還有不少。打字錯誤先不說了，主要看翻譯問題吧。

P42 最後一段英：One of the most common statistical methods is linear regression. At its most basic, it’s used when you want to express the mathematical relationship between two variables or attributes. When you use it, you are making the assumption that there is a linear relationship between an outcome variable (sometimes also called the response variable, de‐ pendent variable, or label) and a predictor (sometimes also called an independent variable, explanatory variable, or feature); or between one variable and several other variables, in which case you’re modeling the relationship as having a linear structure.

中：線性迴歸是統計學中最常用的演算法之一。從根本上來說,當你想表示兩個變數間的數學關系時,就可以使用線性迴歸。當你使用它時,你首先假設輸出變數(有時稱為響應變數、因變數或標籤)和預測變數(有時稱為自變數、解釋變數或特徵)之間存線上性關係。當然這種線性關係也可能存在於一個輸出變數和數個預測變數之間注2 )。

注 2: 這稱作多元線性迴歸。

第一句話，顯然是：線性迴歸是最常用的統計方法之一，翻譯成演算法無中生有。

最後一句in which case漏譯。

譯者加的注毫無必要。

===========================================

P46 第2段

模型對於資料來說,主要是用來捕捉其中兩個方面的資訊:第一個是趨勢(trend),第二個是變動幅度(variation)。我們先從趨勢說起。

P49 第3段

英：In order to get at this question of confidence, you need to extend your model. You know there’s variation among time spent on the site by people with five new friends, meaning you certainly wouldn’t make the claim that everyone with five new friends is guaranteed to spend 195.7 seconds on the site. So while you’ve so far modeled the trend, you haven’t yet modeled the variation.

中：這在統計學上叫作置信值的問題,解答它需要將模型的內涵稍作延伸。可以想象,如果用戶的新好友數為 5,那麼這些使用者在網站上花費時間的預測值不可能只是一個定值 195.7 秒,一個合理的情況是這些使用者花費的時間都在 195.7 秒附近波動。因此,線性模型得到的預測值只是所有可能預測值的一個總體趨勢,而圍繞這個趨勢的波動性還沒有被模型考慮進來。

首先譯者不能把握variation的翻譯，P46翻譯成變動幅度（錯誤），後面可能因為拿不準，就直接忽略了。英文中最後一句trend和variation都是斜體，中文只有趨勢弄成了楷體，variation對應的名詞拿不準（翻譯成了波動性）也就沒有變字型。

另外第一句，confidence翻譯成置信值，我個人沒有見過這個術語。第一句中文“這在統計學上”是無中生有，而英文in order to表示目的沒有翻譯出來。整段的翻譯也過於隨意了。

=============================================

P48 第2、3段

英：Here the little “hat” symbol on top of the β is there to indicate that it’s the estimator for β . You don’t know the true value of β ; all you have is the observed data, which you plug into the estimator to get an estimate.

To actually fit this, to get the β s, all you need is one line of R code where you’ve got a column of y’s and a (single) column of x’s:

中：β帽代表 β 的估計值,真實的 β 是無從得知的。在得到 β 估計值的表示式之後,主要將觀測數據的值代入即可計算出實際的估計值。

在 R 軟體中擬合一個線性模型再簡單不過了,假設有一列資料代表因變數 Y ,一列資料代表自變數 x ,則擬合的 R 程式碼為:

第一句話，譯者大量省略原文（這裡β上面的小帽子符號……）。

更嚴重的問題是，譯者不能區分估計值estimate 與估計量estimator 這兩個概念。第一段最後一句同時出現這兩個詞，譯者不能區分，就直接省略了一個。

第二段第一句中to get the β s漏譯了。

最後一句，中文為Y，原文為y。統計學中Y和y含義不同，對讀者造成嚴重誤導。

整體上這段話的翻譯也過於隨意。

===============================

P54

英文：

• Linearity

• Error terms normally distributed with mean 0

• Error terms independent of each other

• Error terms have constant variance across values of x

• The predictors we’re using are the right predictors

中文：

• 線性假設;

• 誤差項是正態分佈的,並且均值為 0;

• 誤差項是相互獨立的;

• 誤差項具有恆定的條件方差;

• 預測變數都是有用的。

第1個，直接翻譯成線性性就可以了。

第4個，across values of x 漏譯。原文沒有條件一詞，但也確實是說條件方差，可以接受。另外個人感覺constant最好翻譯成“為常數”，比“恆定的”稍好吧。

第5個，原文直接翻譯是所使用的預測變數都是正確的預測變數。原文right是斜體，right的英文含義也比正確要廣，但"有用"給人感覺對應中文useful，不太合適。

===========================

P54 第2-3行

英：It’s possible that the true model is quadratic, but you’re assuming linearity or vice versa.

中：很可能真實的模型是二次型的,而你最後還是使用了線性模型。

quadratic不能翻譯成二次型，二次型是線性代數的特定術語。直接翻譯成二次的（或者二次方程）就可以了。

or vice versa漏譯。

“你最後還是使用了線性模型”翻譯過於隨意。

==========================

P16-18 sampling翻譯成取樣，這個詞的標準翻譯是抽樣。更嚴重的是，P18第二段將抽樣分佈翻譯成取樣分佈。一會兒取樣，一會兒取樣，都是錯誤翻譯。

=====================

P17 第二個小標題

bias翻譯成偏差

偏差在英文中對應多個詞，而且不是統計學術語。而bias在統計中有特定含義，應當翻譯成偏倚。翻譯成偏差不能讓人想到英文說的是bias一詞。

========================

這些都是比較集中的錯誤，一段中有多個錯誤，比較典型的。其他的不列舉了。

總結： 圖靈的資料分析類圖書似乎已經成為爛譯的重災區。《有趣的統計》一書，全書都是錯譯，譯者連零假設這個術語都不知道（翻譯成虛無假設），根據譯者介紹來看，該書的譯者擅長網站開發，也就不難理解了。而資料科學實戰的兩位譯者，一個是在高校任教的統計學博士，一個是SPSS的工程師，居然也出現低階錯誤，原因就難以理解了。

編輯問題也非常突出，文字錯誤非常多，而編輯似乎也不知道怎麼翻譯是對的。圖靈公司需要一個專職統計學編輯資料類圖書，不應由精通其他領域的編輯兼職。

《資料科學實戰》翻譯質量有問題，存在嚴重錯誤

相關文章