What is Data Mining 什麼是資料探勘

穀粒先生發表於2019-02-17

#一、資料探勘的定義

|什麼是資料探勘?

  • 資料探勘是一個用資料發現問題、解決問題的學科。
  • 通常通過對資料的探索、處理、分析或建模實現。

|資料探勘學習路線

  • 大學裡並沒有資料探勘這麼一個專業,現有的資料探勘工程師大都來自工科或統計學等專業。
  • 目前的資料探勘工程師大都來自不同背景,電腦科學、數學甚至是機械工程。要想成功勝任,其訣竅是熱情、好奇心,不斷學習新的工具的能力,以及對資料清洗和分析的耐心。

|給新人的建議

  • 最重要的三個品質:好奇心、是非觀以及批判性思考。這三個品質,放在其他領域同樣適用。
  • 專業領域的三種能力:程式設計能力、統計基礎、商業思維。程式設計和統計在大學較為容易學到,商業思維需要多實踐總結。

#二、資料探勘在做什麼

|資料探勘工程師的一天

  • 檢查日常報表資料是否異常,尋求資料波動的合理解釋。
  • 針對新業務,設計指標,搭建資料模型。
  • 搭建商品推薦系統、價格預測系統、文字分類系統或是聊天機器人。

|資料探勘的演算法

  • 使用複雜的機器學習演算法並不能保證效果。一般來講,最好的解決辦法,通常很簡單。
  • 生產環境使用簡單的演算法,並不意味著要放棄前沿演算法。每一套新的方法,其目的都在解決前面的薄弱之處。

|資料探勘與伺服器

  • 本地 PC 由於硬體與系統限制,工程師常在伺服器進行大規模資料的運算、指令碼部署與介面部署。

#三、商業中的資料探勘

|作為公司,該如何開展資料探勘

  • 評估可能的收益與需要的投入
  • 開始收集資料
  • 招募資料探勘團隊

|招聘資料探勘團隊

  • 好奇心應該是資料探勘從業者的最重要品質。
  • 招聘時,應確保候選人對工作內容感興趣。
  • 候選人應具備一定的成果意識。商業更重成果,而不是過程。

|資料探勘應用

  • 廣告位點選預估
  • 信用卡風控評估
  • 使用者流失干預

#四、資料探勘工具

|資料探勘工具與大資料

  • 掌握以下工具:Python、Linux、Pandas 及 Jupyter、關係型和非關係型資料庫。
  • 大資料通常指傳統資料系統無法處理的資料。體量和增速都相當大。處理工具以 Hadoop 為代表。

#五、資料探勘進階

|神經網路和深度學習

  • 神經網路出現已數十年,但由於條件限制,這一方向擱置了數十年。目前隨著新的優化方法的出現和算力的提升,這一方向的工業化逐漸成為可能。

|如何更上一層樓

  • 掌握基本的程式設計知識,更多地去理解背後的原理。
  • 流程化意識,及時覆盤總結,規範流程(複用)。
  • 成果導向,將知識轉化為行動和成果,給他人帶來價值,服務更多人。

Author: 穀粒

Link: kuhungio.me/2019/what-i…


相關文章