#一、資料探勘的定義
|什麼是資料探勘?
- 資料探勘是一個用資料發現問題、解決問題的學科。
- 通常通過對資料的探索、處理、分析或建模實現。
|資料探勘學習路線
- 大學裡並沒有資料探勘這麼一個專業,現有的資料探勘工程師大都來自工科或統計學等專業。
- 目前的資料探勘工程師大都來自不同背景,電腦科學、數學甚至是機械工程。要想成功勝任,其訣竅是熱情、好奇心,不斷學習新的工具的能力,以及對資料清洗和分析的耐心。
|給新人的建議
- 最重要的三個品質:好奇心、是非觀以及批判性思考。這三個品質,放在其他領域同樣適用。
- 專業領域的三種能力:程式設計能力、統計基礎、商業思維。程式設計和統計在大學較為容易學到,商業思維需要多實踐總結。
#二、資料探勘在做什麼
|資料探勘工程師的一天
- 檢查日常報表資料是否異常,尋求資料波動的合理解釋。
- 針對新業務,設計指標,搭建資料模型。
- 搭建商品推薦系統、價格預測系統、文字分類系統或是聊天機器人。
|資料探勘的演算法
- 使用複雜的機器學習演算法並不能保證效果。一般來講,最好的解決辦法,通常很簡單。
- 生產環境使用簡單的演算法,並不意味著要放棄前沿演算法。每一套新的方法,其目的都在解決前面的薄弱之處。
|資料探勘與伺服器
- 本地 PC 由於硬體與系統限制,工程師常在伺服器進行大規模資料的運算、指令碼部署與介面部署。
#三、商業中的資料探勘
|作為公司,該如何開展資料探勘
- 評估可能的收益與需要的投入
- 開始收集資料
- 招募資料探勘團隊
|招聘資料探勘團隊
- 好奇心應該是資料探勘從業者的最重要品質。
- 招聘時,應確保候選人對工作內容感興趣。
- 候選人應具備一定的成果意識。商業更重成果,而不是過程。
|資料探勘應用
- 廣告位點選預估
- 信用卡風控評估
- 使用者流失干預
#四、資料探勘工具
|資料探勘工具與大資料
- 掌握以下工具:Python、Linux、Pandas 及 Jupyter、關係型和非關係型資料庫。
- 大資料通常指傳統資料系統無法處理的資料。體量和增速都相當大。處理工具以 Hadoop 為代表。
#五、資料探勘進階
|神經網路和深度學習
- 神經網路出現已數十年,但由於條件限制,這一方向擱置了數十年。目前隨著新的優化方法的出現和算力的提升,這一方向的工業化逐漸成為可能。
|如何更上一層樓
- 掌握基本的程式設計知識,更多地去理解背後的原理。
- 流程化意識,及時覆盤總結,規範流程(複用)。
- 成果導向,將知識轉化為行動和成果,給他人帶來價值,服務更多人。
Author: 穀粒
Link: kuhungio.me/2019/what-i…