《資料化思維》亞馬遜書評

魏宇婧發表於2018-01-02

書評一:

利潤曲線是一個很好的中心。這本薄薄的書是必要和重要的,但遠遠不夠。

By Geoffrey R. Anderson on October 14, 2015

這是一本很基礎同時也很優秀的資料科學的書。我很高興購買了它。這本書我已經我讀了2/3。但它在某些方面還很不夠,而且還缺了一些你需要的東西。不過實際上這是可以的,因為沒有一本書能涵蓋你在一個領域所需要的所有知識。看看你為了拿到本科學位買了多少本書,我打賭肯定不止一本。

這裡列下了這本優秀的書的優缺點。

優點:

利潤曲線。在讀這本書之後我再也不會用準確度去選擇一個模型了,因為這幾乎是一個毫無價值的度量,尤其是當應用場景涉及邊際成本和邊際利潤時。這本書非常出色地描述瞭如何根據預期利潤來選擇模型,然後畫出利潤曲線以及曲線下的ROC面積等其他支撐曲線。

期望利潤計算和成本-收益矩陣是混淆矩陣的合作伙伴。真是太棒了。在我所選修的其他資料科學課程中,甚至沒有提到這個。

另外一些優點:……不要去想其他的優點了(儘管還有一些)。利潤曲線分析以及相關資訊都是優秀的)。 缺點:

第224頁:“我們將在完整的資料集上進行訓練,之後在我們所訓練的同一資料集上進行測試。” 這章接下來只是一個不恰當的誤差分析,因為它過於樂觀了(但是其他的技術都很好)。模型已經看到了訓練資料。我們不應該完全評估(測試)——還把整個章節的剩餘部分建立在模型已經看到的資料所產生的誤差估計之上。

大多數章節沒有給出足夠的細節,讓這本書無法作為根據你使用的計算機語言來編寫自己的工作程式碼時“正確參考”的依據。

總結:

這本書很出色。這對你的資料科學書架是必要的,但另一方面它還遠遠不夠。

約翰•霍普金斯大學的資料科學課程系列勾勒出一個完整的大綱要素,這就是資料科學從業人員需要能做的事情(雖然是不夠充分的):

可再生的研究;實驗設計;R程式設計(或python,或者SAS或Octave,但一定要有一些數學的語言);探索性資料分析;迴歸模型;統計推斷;實用機器學習;科學寫作;開發資料產品;大資料技術(如Apache Spark程式設計或至少MapReduce風格的程式設計);SQL和NoSQL資料庫;併發、分散式和並行程式設計;高階統計(例如多個測試修正)。

Provost的這本書只給了必要的資料科學材料的一部分。然而,提供的這部分是必不可少的。我希望學術界的生物資料科學家能夠將成本效益矩陣和利潤曲線的概念融入到他們的模型選擇技術中,而不是僅僅使用精確度度量。

此外,資料科學家能為利潤曲線章節做一些後續的附加價值擴充套件。你可以創造收入(或成本)曲線,因為有時這更重要。你可以很快找到其他的替代方案,這些方案對最優利潤來說幾乎等價,但它收入少/成本低或者收入高/成本高。你可以詳細說明固定預算的模型選擇和利潤結果。當盈利比率發生變化時,你可以進一步評估邊際利潤分析對最佳數量的影響。你可以根據最佳商業智慧解決方案直接評估資料科學解決方案,並評估在使用舊的商業智慧決策時損失了多少利潤。這是這本書強大價值的證明,你可以根據它的材料做更多的事情。

很好的作品。推薦。

書評二:

讀這本書!

By T. Bond on March 7, 2015

Foster Provost和 Tom Fawcett寫的《資料化思維》是一本有關資料探勘和分析思維重要的書。在1971年,Abbie Hoffman 要求嬉皮讀者“偷走這本書”時(大概是種逆喻法),震驚了世界。不管是現在還是將來我都不會鼓勵資料科學家去行竊,但是我們會要求他們讀這本書!

不久之前,資料很困難,而且成本很高。今天,我們生活在一個有太多資料、大量廉價計算能力以及太多無法準確定義的問題的世界裡。把這些混到一起,你肯定會弄得一團亂。

資料從匱乏到過剩,帶來了實質性的問題。在商業領域,直覺決策和分析癱瘓之間的平衡正在迅速改變。它是否會從直覺決策到分析癱瘓,只有時間會告訴我們。通過《資料化決策》這本書,Provost和 Fawcett 為從業者提供了一個平衡的指南。

讀這本書,你會發現自己正快速地朝著資料分析的方向前進。雖然不是特別技術性的,但作者對每個主題都進行了嚴格的描述,來欣賞所呈現的工具和所提供的見解。

從一開始,作者就明確了這本書的目標:“主要目的是幫助你從資料的角度去分析公司的問題以及從資料中理解、提取有用的知識。”

這篇文章讓我想起了世界各個大學學習統計學的本科生和研究生,包括我的女兒,他們被一個又一個的數學或統計學課程所轟炸(微積分三、數理統計一和二、線性代數等)往往當他們步入現實世界就會發生缺乏“資料分析思維”或者“基本原則”。然而,他們會有一種不知所措的感覺。“頻率學派”和“貝葉斯學派”之間的史詩級戰役在全球統計部門的爭論中佔了一個位置,即“應用”和“理論”之間的平衡。這本書的“主要目標”應該是讓各個大學統計學教學的步調一致起來。

一開始(第二頁),作者就說,“資料探勘是一門手藝。它涉及大量的科學技術的應用,但是恰當的應用也會涉及到藝術。”千真萬確!讀這本書真是太好了!接下來就是對CRISP-DM的簡要討論,這是一個定義明確的資料探勘過程,它的各種概念是資料探勘的基礎、必要和不可或缺的責任以及適當和成功的練習。

從這個點出發,作者著手完成他們的主要目標。他們提出了預測建模、相關性、分類、聚類、迴歸、邏輯迴歸、線性鑑別等主題。他們的介紹是使用者友好的,真實的例子也很有趣,指導和見解非常有價值。

我的批評僅限於他們的網站。《資料化思維》的網站讓我想要更多現實世界的例子,獲得更多的資源和工具,更多的參考,以及更嚴格的解決方案。也許《資料化思維》的續集即將上映?

不管你是週期性的統計學家(或資料科學家)、年輕的有抱負的新手或者想擴充視野富有冒險精神的商業人士,Foster Provost和 Tom Fawcett的《資料化思維》都是值得你花時間閱讀的。

Foster Provost和 Tom Fawcett說:“理性狀態下,我們想象能把任意一本資料科學家的書分享給他的合作者……”我要比他們做得更好——分享給我的女兒!

書評三:

對於資料科學很好的總結

By William P Ross Top Contributor: Architecture on October 4, 2016

《資料化思維》這本書本意是想給別人介紹資料科學。作者將資料科學的一些知識分解成了簡單的解釋方式。我對非技術性的資料科學書籍持懷疑態度,但這本書效果不錯。

在一開始,這本書展示了資料科學的動機以及它們適用的領域,包括電影推薦、信用卡收費、電信流失率和股票市場新聞的自動分析的一些例子。這本書避免進入系統的高技術部分,但給了你該去哪裡的連結。 他們沒有真正揭示整個科學資料堆疊。例如,Hadoop被提到是MapReduce的實現,但是他們說介紹Hadoop配置對於這種型別的書來說太過詳細了。我傾向於同意,作為一個程式設計師,我認為他們做出了正確的選擇。

這本書的解釋是一大亮點。我非熟悉期望值的演算法而這本書裡有一整章有關於它。它的討論比我在任何地方看到的還要高階,書中提到預期價值框架可能存在的缺陷。

我喜歡把重點放在解決科學資料的問題上。這本書的標題是十分恰當的,因為它不僅分析了資料,而且也研究商業案例。如果你是科學資料的新手或者想獲得更高水平的回顧,這本書是一個很好的開始。

相關文章