資料分析入門必知:機器學習最通俗的解釋?
有人經常會把資料分析與機器學習給搞混掉,機器學習這個主題已經很普遍了,每個人都在談論它,但很少有人能夠透徹地瞭解它,今天老李給大家分享一下機器學習的概念。
資料分析和機器學習
如果你認為大資料僅僅是關於SQL語句查詢和海量的資料的話,那麼別人也會理解你的,但是大資料真正的目的是透過對資料的推斷,從資料中獲取價值、從資料中發現有用的東西。例如,“如果我降低5%的價格,我將增加10%的銷售量。”
資料分析是最重要的技術,包括如下方面:
- 描述性分析:確定所發生的事情。這通常涉及到描述發生了什麼現象的報告。例如,用這個月的銷售額與去年同期進行比較的結果。
- 特徵性分析:解釋現象發生的原因,這通常涉及使用帶有OLAP技術的控制檯用以分析和研究資料,根據資料探勘技術來找到資料之間的相關性。
- 預測性分析:評估可能發生的事情的機率。這可能是預測性分析被用來根據你的工作性質、個人興趣愛好,認為你是一個潛在的讀者,以便能夠連結到其他的人。
機器學習適合於預測性分析。
一個例子說明什麼是機器學習
機器學習是指利用計算機模擬或實現人類的學習行為。那機器是怎麼學習的呢?我們就舉個相親的例子。現有一妙齡女郎相親,候選人有青年 A、B、C 和 D,四個青年的屬性分別為:
- A:『高,帥,富』
- B:『高,帥,窮』
- C:『高,醜,富』
- D:『矮,醜,富』
經過一番篩選,女子將 [A C D] 分為適合婚戀組,將 [B] 劃分為不適合婚戀組。上述就是人類的學習過程。
由於相親物件實在過多,妙齡女郎相不過來了,於是她找來機器幫忙。首先,她要培訓下機器,告訴機器如下資訊:
- A:屬性『高,帥,富』— 標籤 『適合婚戀組』
- B:屬性『高,帥,窮』— 標籤 『不適合婚戀組』
- C:屬性『高,醜,富』— 標籤 『適合婚戀組』
- D:屬性『矮,醜,富』— 標籤 『適合婚戀組』
機器一番學習,建立起了「屬性」和「標籤」的對應關係,這就是機器學習建模過程。現在有青年 E、F、G …… 的屬性值,妙齡少女把這堆屬性值告訴機器,機器返回哪些是可以繼續發展的物件,哪些是淘汰的物件。
這就是 有監督機器學習 ,即告訴機器訓練資料的「屬性」和「標籤」,機器利用某種演算法建立「屬性」和「標籤」的關係,利用該關係,就可以根據新資料的「屬性」得到新資料的「標籤」,如下圖。
機器學習如何工作?
垃圾郵件過濾是一個很好的例子,它利用機器學習技術來學習如何從數百萬封郵件中識別垃圾郵件,其中就用到了統計學技術。
例如,如果每100個電子郵件中的85個,其中包括“便宜”和“偉哥”這兩個詞的郵件被認為是垃圾郵件,我們可以說有85%的機率,確定它是垃圾郵件。並透過其它幾個指標(例如,從來沒給你傳送過郵件的人)結合起來,利用數十億個電子郵件進行演算法測試,隨著訓練次數不斷增加來提升準確率。
事實上,谷歌表示它現在已經可以攔截99.99%左右的垃圾郵件。
機器學習的演算法有哪些
我製作了一份機器學習演算法選擇速查表:
這張速查表能幫你從眾多機器學習演算法中,針對你自己的具體問題和情況,選出最合適的演算法。下面就介紹如何使用這份速查表。
因為是面向初學者,所以在談到演算法時,會盡量做一些最簡單的假設。下文談及的演算法也都是眾多資料科學家、機器學習專家和開發者們推薦的結果。
怎樣使用速查表
按照“如果(路徑標籤)就用(演算法)”的邏輯,檢視速查表上的路徑和演算法標籤。例如:
- 如果你想降維,就用主成分分析。
- 如果你需要迅速得到數值預測,就用決策樹和邏輯迴歸。
- 如果你需要層次結果,就用層次聚類。
有時我們可能需要不止一個演算法,有時可能這些演算法沒有一個是最合適的。我和許多資料科學家聊過,他們認為這種情況下,最保險的做法就是把所有演算法都嘗試一遍,找到最合適的那個。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/21472864/viewspace-2762297/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 機器學習梯度下降法,最通俗易懂的解釋機器學習梯度
- 最通俗的機器學習介紹機器學習
- Python學習手冊(入門&爬蟲&資料分析&機器學習&深度學習)Python爬蟲機器學習深度學習
- 【機器學習】——白話入門及術語解釋機器學習
- 機器學習中牛頓法凸最佳化的通俗解釋機器學習
- 《機器學習有意思! 01》- 世界上最簡單的機器學習入門機器學習
- 機器學習中的查全率recall、精度和F1得分的通俗解釋機器學習
- 流式機器學習演算法的入門和認知機器學習演算法
- 這可能是最簡單易懂的機器學習入門機器學習
- 五個給機器學習和資料科學入門者的學習建議機器學習資料科學
- 機器學習相關入門零碎知識機器學習
- 機器學習之必備知識篇機器學習
- 做資料分析需要學習機器學習嗎?機器學習
- 【機器學習】乾貨丨機器學習知識點;機器學習模型的“可解釋性”到底有多重要?機器學習模型
- [譯] 資料科學領域十大必知機器學習演算法資料科學機器學習演算法
- 大資料分析入門基礎知識學什麼?大資料
- 資源|機器學習必知的15大框架,歡迎補充!機器學習框架
- 數學知識-核函式的通俗解釋例項函式
- 全網最通俗易懂的Kafka入門!Kafka
- 全網最通俗易懂的Kafka入門Kafka
- 機器學習入門準備機器學習
- 機器學習之小白入門機器學習
- 機器學習入門規劃機器學習
- 機器學習PAI快速入門機器學習AI
- 機器學習01-入門機器學習
- 關於機器學習和AI的區別最經典的解釋機器學習AI
- 機器學習和深度學習概念入門機器學習深度學習
- (五)numpy知識學習2-python資料分析與機器學習實戰(學習筆記)Python機器學習筆記
- CAP理論—最通俗易懂的解釋
- Python資料分析入門知識手冊Python
- 「必知必會」最細緻的 ArrayList 原理分析
- 「必知必會」最細緻的 LinkedList 原理分析
- 通俗講明白機器學習中的學習問題 - svpino機器學習
- 雲端計算教程學習入門影片:雲端計算學習的必學知識
- 5月Github上最熱門的資料科學和機器學習專案TOP5Github資料科學機器學習
- 聊聊經典機器學習入門機器學習
- 【機器學習】李宏毅——Explainable ML(可解釋性的機器學習)機器學習AI
- 史上最通俗的集線器、交換機、路由器功能原理入門路由器