大資料分析,魯班為祖師

雲戒發表於2017-04-17

1.《全棧資料之門》現貨上架

經過一段時間的等待,目前已經可以在各大電商平臺『現貨』購買本書。
本文後面也有京東、噹噹、天貓的購買連結!

本書適用

本書以資料分析領域最熱的Python語言為主要線索,介紹資料分析庫Numpy、Pandas與機器學習庫Scikit-Learn,使用了視覺化環境Orange3來理解演算法的一些細節。

對於機器學習,既有常用演算法KNN與Kmeans的應用,決策樹與隨機森林的實戰,還涉及常用特徵工程與深度學習中的自動程式設計器。
在大資料Hadoop與Hive環境的基礎之上,使用Spark的ML/MLLib庫來整合了前面的各部分內容,讓分散式機器學習更容易。大量的工具與技能實戰,從而將各部分融合成為一個全棧的資料科學內容。


2. 大資料分析,魯班為祖師

該節選自《全棧資料之門》第四章『資料分析,見微知著』的引言部分!

如果你要問大資料分析最早起源於哪裡,答案自然是有著5千年悠久歷史的中國了。若君不信,且看下面的說明。

大資料

有一顆樹,非常非常大,一個人搬不動,於是魯班發明了鋸子,將樹鋸成很多小節,然後找很多人來幫忙搬,這樣不僅速度快,而且效率高。此所謂“大樹鋸”是也。這樣一傳十,十傳百,傳到其它國家,大家訛傳訛,就變成了“大資料”。

分散式儲存

為了保證高可用性,魯班教了大家一個好方法。將同樣的木料,分3份儲存,自己家放一份,鄰居家放一份,鄰村裡面再放一份。如果自己家被燒了,還可以使用鄰居家的那份。如果整個村子被水湮(或者像現在電視劇裡演的一樣,在古代可能會一不小心被滅村),還有鄰居村子的那份可以使用。

資料分析

將樹鋸斷後,分成一小節一小節的,統計每節的長度,面積等等。分析木料是否有被蟲咬過,以及如何防止其它樹也被類似的蟲咬。分析樹每年的增長幅度,以及每天需要投入多少水資源來促進樹的快速增長。

資料探勘

魯班通過分析樹幹上面的紋理,發現了樹的年輪規律,這樣可以快速瞭解樹生長了多少年。這個方法被魯班建立成了一個模型,用於預測其它樹每年的生長速度。另外,還將樹根“挖掘”出來,分析為什麼這個地方能產生這麼大的樹,和土地是否有關係,土壤的成分是什麼,能否將這種土壤移植到其它地方等等。總之,是真正的進行了資料的“挖掘”。

因此,大資料分析技術不僅起源於中國,而且其祖師正是木工藝人的祖師–魯班。

一本正經的胡說八道了這麼多,相信你對資料分析有了一個初步的瞭解吧。
欲瞭解更多的內容,請關注下面購買地址


3. 網站購買地址

京東:
https://item.jd.com/12054675….
噹噹:
http://product.dangdang.com/2…
天貓:
https://detail.tmall.com/item…


4. 一些資訊

博文視點:
http://www.broadview.com.cn/b…
豆瓣:
https://book.douban.com/subje…
百度百科:
http://baike.baidu.com/item/全棧資料之門/20490226

請輸入程式碼

本文題圖取自《全棧資料之門》的封底,使用的是Orange3製作的資料探勘流程『演示』圖。

相關文章