《資料科學實戰》翻譯質量有問題,存在嚴重錯誤
我關注本書已久,出版後第一時間購買了紙書和電子版,準備仔細閱讀。結果。。。
打字錯誤就不說了,平均一頁至少有一個,網站上有網友提了一些,還有不少。 打字錯誤先不說了,主要看翻譯問題吧。
P42 最後一段 英:One of the most common statistical methods is linear regression. At its most basic, it’s used when you want to express the mathematical relationship between two variables or attributes. When you use it, you are making the assumption that there is a linear relationship between an outcome variable (sometimes also called the response variable, de‐ pendent variable, or label) and a predictor (sometimes also called an independent variable, explanatory variable, or feature); or between one variable and several other variables, in which case you’re modeling the relationship as having a linear structure.
中:線性迴歸是統計學中最常用的演算法之一。從根本上來說,當你想表示兩個變數間的數學關 系時,就可以使用線性迴歸。當你使用它時,你首先假設輸出變數(有時稱為響應變數、 因變數或標籤)和預測變數(有時稱為自變數、解釋變數或特徵)之間存線上性關係。當 然這種線性關係也可能存在於一個輸出變數和數個預測變數之間 注2 )。
注 2: 這稱作多元線性迴歸。
第一句話,顯然是:線性迴歸是最常用的統計方法之一,翻譯成演算法無中生有。
最後一句in which case漏譯。
譯者加的注毫無必要。
===========================================
P46 第2段
模型對於資料來說,主要是用來捕捉其中兩個方面的資訊:第一個是趨勢(trend),第二 個是變動幅度(variation)。我們先從趨勢說起。
P49 第3段
英:In order to get at this question of confidence, you need to extend your model. You know there’s variation among time spent on the site by people with five new friends, meaning you certainly wouldn’t make the claim that everyone with five new friends is guaranteed to spend 195.7 seconds on the site. So while you’ve so far modeled the trend, you haven’t yet modeled the variation.
中:這在統計學上叫作置信值的問題,解答它需要將模型的內涵稍作延伸。可以想象,如果用 戶的新好友數為 5,那麼這些使用者在網站上花費時間的預測值不可能只是一個定值 195.7 秒,一個合理的情況是這些使用者花費的時間都在 195.7 秒附近波動。因此,線性模型得到 的預測值只是所有可能預測值的一個總體趨勢,而圍繞這個趨勢的波動性還沒有被模型考 慮進來。
首先譯者不能把握variation的翻譯,P46翻譯成變動幅度(錯誤),後面可能因為拿不準,就直接忽略了。 英文中最後一句trend和variation都是斜體,中文只有趨勢弄成了楷體,variation對應的名詞拿不準(翻譯成了波動性)也就沒有變字型。
另外第一句,confidence翻譯成置信值,我個人沒有見過這個術語。 第一句中文“這在統計學上”是無中生有,而英文in order to表示目的沒有翻譯出來。整段的翻譯也過於隨意了。
=============================================
P48 第2、3段
英:Here the little “hat” symbol on top of the β is there to indicate that it’s the estimator for β . You don’t know the true value of β ; all you have is the observed data, which you plug into the estimator to get an estimate.
To actually fit this, to get the β s, all you need is one line of R code where you’ve got a column of y’s and a (single) column of x’s:
中:β帽 代表 β 的估計值,真實的 β 是無從得知的。在得到 β 估計值的表示式之後,主要將觀測數 據的值代入即可計算出實際的估計值。
在 R 軟體中擬合一個線性模型再簡單不過了,假設有一列資料代表因變數 Y ,一列資料代 表自變數 x ,則擬合的 R 程式碼為:
第一句話,譯者大量省略原文(這裡β上面的小帽子符號……)。
更嚴重的問題是,譯者不能區分 估計值estimate 與 估計量estimator 這兩個概念。第一段最後一句同時出現這兩個詞,譯者不能區分,就直接省略了一個。
第二段第一句中to get the β s漏譯了。
最後一句,中文為Y,原文為y。統計學中Y和y含義不同,對讀者造成嚴重誤導。
整體上這段話的翻譯也過於隨意。
===============================
P54
英文:
• Linearity
• Error terms normally distributed with mean 0
• Error terms independent of each other
• Error terms have constant variance across values of x
• The predictors we’re using are the right predictors
中文:
• 線性假設;
• 誤差項是正態分佈的,並且均值為 0;
• 誤差項是相互獨立的;
• 誤差項具有恆定的條件方差;
• 預測變數都是有用的。
第1個,直接翻譯成 線性性 就可以了。
第4個,across values of x 漏譯。原文沒有條件一詞,但也確實是說條件方差,可以接受。另外個人感覺constant最好翻譯成“為常數”,比“恆定的”稍好吧。
第5個,原文直接翻譯是 所使用的預測變數都是正確的預測變數。原文right是斜體,right的英文含義也比 正確 要廣,但"有用"給人感覺對應中文useful,不太合適。
===========================
P54 第2-3行
英:It’s possible that the true model is quadratic, but you’re assuming linearity or vice versa.
中:很可能真實的模型是二次型的,而 你最後還是使用了線性模型。
quadratic不能翻譯成二次型,二次型是線性代數的特定術語。直接翻譯成二次的(或者二次方程)就可以了。
or vice versa漏譯。
“你最後還是使用了線性模型”翻譯過於隨意。
==========================
P16-18 sampling翻譯成取樣,這個詞的標準翻譯是抽樣。更嚴重的是,P18第二段將抽樣分佈翻譯成取樣分佈。一會兒取樣,一會兒取樣,都是錯誤翻譯。
=====================
P17 第二個小標題
bias翻譯成偏差
偏差在英文中對應多個詞,而且不是統計學術語。而bias在統計中有特定含義,應當翻譯成偏倚。 翻譯成偏差不能讓人想到英文說的是bias一詞。
========================
這些都是比較集中的錯誤,一段中有多個錯誤,比較典型的。其他的不列舉了。
總結: 圖靈的資料分析類圖書似乎已經成為爛譯的重災區。《有趣的統計》一書,全書都是錯譯,譯者連零假設這個術語都不知道(翻譯成虛無假設),根據譯者介紹來看,該書的譯者擅長網站開發,也就不難理解了。而資料科學實戰的兩位譯者,一個是在高校任教的統計學博士,一個是SPSS的工程師,居然也出現低階錯誤,原因就難以理解了。
編輯問題也非常突出,文字錯誤非常多,而編輯似乎也不知道怎麼翻譯是對的。圖靈公司需要一個專職統計學編輯資料類圖書,不應由精通其他領域的編輯兼職。
相關文章
- (翻譯)2016美國數學建模MCM C題(大資料)翻譯:優質基金挑戰大資料
- 《資料科學實戰》作者Cathy O'Neil訪談問題有獎徵集(圖靈訪談)資料科學圖靈
- 監管機器翻譯質量?且看阿里如何搭建翻譯質量評估模型阿里模型
- 開源文件翻譯的質量保障實踐
- 資料科學和機器學習面試問題資料科學機器學習面試
- 【政府網站普查】江西省政府網站:“嚴重表述錯誤”問題突出網站
- 蘋果iOS再曝嚴重問題 2.5萬應用程式存在漏洞蘋果iOS
- (資料科學學習手札135)tenacity:Python中最強大的錯誤重試庫資料科學Python
- 資料倉儲資料質量的問題探討(轉)
- ElasticSearch實戰系列十一: ElasticSearch錯誤問題解決方案Elasticsearch
- 除了Kaggle,這裡還有一些高質量的資料科學競賽平臺資料科學
- 微軟提出新型通用神經機器翻譯方法,挑戰低資源語言翻譯問題微軟
- [譯] 虛構問題,低質量軟體的根源
- “老司機”劃重點!搞定這120個真實面試問題,殺進資料科學圈面試資料科學
- 資料顯示中國大城市夜間噪音問題嚴重
- 資料質量管理方法有哪些
- 有贊資料質量保障體系
- 谷歌揭祕自家翻譯系統:如何利用AI技術提高翻譯質量谷歌AI
- Web開發者易犯的五大嚴重錯誤Web
- 谷歌稱macOS核心存在“嚴重”漏洞谷歌Mac
- PLSQL重點問題理解和實戰SQL
- sql server資料庫select產生嚴重阻塞引起效能問題SQLServer資料庫
- 《萬物簡史》中文版翻譯質量低劣
- 神經機器翻譯實戰
- Laravel 5.2 的一處嚴重效能問題Laravel
- 楊元慶:業記憶體在嚴重資料造假 急需改善誠信問題記憶體
- 如何修復帶有問號錯誤的 Mac 資料夾Mac
- 當調研資料遭嚴重質疑時,你該怎麼辦?
- 【翻譯】在Spring WebFlux中處理錯誤SpringWebUX
- 十步法原則解決資料質量問題
- 報告指出資料質量問題正在影響公司業績
- [翻譯]K-99問題解答
- 讓科學重回資料科學資料科學
- 蝴蝶書-task2: 文字推理、摘要、糾錯 transformers實現翻譯 OpenAI翻譯 PyDeepLX翻譯 DeepLpro翻譯ORMOpenAI
- [譯] 初創公司的資料科學:簡介資料科學
- 10個資料科學家常犯的程式設計錯誤(附解決方案)資料科學程式設計
- Android編譯通過,執行編譯錯誤問題總結Android編譯
- 談談12個最常見的資料質量問題及其來源