2017 年 機器學習之資料挖據、資料分析,視覺化,ML,DL,NLP等知識記錄和總結

大樹2發表於2018-01-07

       今天是2017年12月30日,2017年的年尾,2018年馬上就要到了,回顧2017過的確實很快,不知不覺就到年末了,再次開篇對2016.2017年的學習資料探勘,機器學習方面的知識做一個總結,對自己所學的知識也做一個梳理,查漏補缺關於資料挖據、資料分析,視覺化,ML,DL,NLP等。

 

作者:csj
更新時間:2017.12.27

email:59888745@qq.com

說明:因內容較多,會不斷更新 *學習總結;

 

2016.10 主要看的書 《Python3-廖雪峰》,《Python核心程式設計》
  通過這些書籍的學習,能掌握python常用的基本知識:

  1.python資料型別、判斷與迴圈流程,list,tuple,dict,map,filter,reduce等
  2.檔案/資料讀寫、物件導向、第三方庫等;
       3.python高階特性等等;

python學習總結-【原】

2016.11 主要看的書是關於資料獲取,scrapy等方面的知識,如《用python寫網路爬蟲》李斌譯;
  1.requests抓取與靜態網頁解析,bs4的使用; 
  2.user-agent模擬登陸與分散式爬蟲;
  3.selenium與動態網站爬取
資料獲取,解析,儲存等知識的學習總結-【原】


2016.12 主要看的書是關於資料挖據&資料分析方面的知識.如 pandas,numpy,scipy
1.pandas資料統計與分析技能
2.用pandas完成機器學習資料預處理與特徵工程

pandas的學習總結-【原
numpy的學習總結-[原]
  scipy的學習總結-原

2017.01 主要看的書是關於資料視覺化方面的知識.如 matplotlib,d3,process等資料視覺化
1.好用的python視覺化利器matplotlib
2.自帶各種資料擬合分析的視覺化利器seaborn
matplotlib的學習總結【原】
  d3的學習總結
  process的學習總結


2017.02 主要看的書是關於Spark,hadoop,map-reduce大資料處理等方面的知識

Spark快速資料處理》 餘璜,張磊譯,《spark sql程式設計指南》 韓保禮 譯

Spark與大資料處理【原】 未完

 

2017.03-04--- 主要看的書是關於機器學習原理到實戰方面的書,如
《統計學習方法-李航》--介紹統計學常用的演算法和模型;
《機器學習實戰-李博》--介紹機器學習常用演算法及阿里巴巴PAI平臺使用的機器演算法解決方案模型
《推薦系統實踐-項亮》--介紹推薦系統方面的知識。

  機器學習 周志華
  1.機器學習 基本概念,常用經典模型總結【原】
  2..機器學習流程、預處理、特徵工程例項總結
  3.機器學習演算法特點總結
  4.人工智慧,機器學習,深度學習,資料探勘流程 介紹總結

專案:

        阿里天池 大航杯“智造揚中”電力AI大賽 的案例分析實現

        Kaggle 自行車租賃預測比賽專案分析實現

        京東2017 豬臉識別 專案分析實現

        百度PaddlePaddle AI大賽 專案分析實現


2017.05-06-- 主要學習是深度學習原理到實戰方面的知識,瞭解常用深度學習模型Tensorflow,caffe
  1.深度神經網路、deep模型
  2.卷積神經網路、
  3.迴圈神經網路、

2017.07-08-- 主要學習的是自然語言處理方面的知識,瞭解常用NLP方面的知識如分詞,詞向量,詞雲,文字分類,jieba,gensim等

       0.NLP自然語言處理 jieba中文分詞,關鍵詞提取,詞性標註,NLP WordEmbedding的概念和實現

1.用機器學習方法完成中文文字分類
NB模型
SVM模型

     (資料清洗 + 特徵提取(tfidf,textrank) + 抽取有用的特徵,如對文字抽取,詞代模型,NB模型測試, 引數調優,交叉驗證(kf,分組),用不同的演算法svm,tfidf模型測試;
輸出結果和分析,tfidf在多文字類別的分類效果不錯。

2.用Tensorflow深度學習做文字分類
CNN做文字分類
資料預處理
停用詞
構建資料集
神經網路搭建
訓練和預測

3.LSTM/GRU文字分類 捕捉時序資訊的長短時記憶神經網路
詞袋模型
GRU文字分類


4.推薦系統

根據不同使用者的喜好挖掘生成使用者畫像,為每位使用者提供“千人千面”的個性化推薦內容,幫助傳媒、
電商等行業有效提升點選率、轉化率及使用者粘性,極大地增加客戶的經營效益。

推薦系統主要功能:
1.多維度挖掘使用者長短期興趣畫像,精準把脈使用者偏好訴求.
2.基於使用者行為歷史資料探勘多樣性的個性化推薦結果.
3.對使用者興趣和個性化需求進行精準預測.
4.主要解決兩個問題,一個是資訊過載,一個是使用者需求的多樣性.

實現方法:
1. 相似度,通過使用者對物品的歷史行為,例如評分、訪問、下單、收藏等等行為,判斷使用者之間的相似情況輸出推薦列表.
2. 組合推薦:基於使用者推薦(UserCF),物品推薦(ItemCF)和內容的推薦可能會達到比較好的效果.

     推薦系統簡介

 

2017.09-10-11-12 機器學習,深度學習,NLP等方面知識深化學習

相關文章