今天是2017年12月30日,2017年的年尾,2018年馬上就要到了,回顧2017過的確實很快,不知不覺就到年末了,再次開篇對2016.2017年的學習資料探勘,機器學習方面的知識做一個總結,對自己所學的知識也做一個梳理,查漏補缺關於資料挖據、資料分析,視覺化,ML,DL,NLP等。
作者:csj
更新時間:2017.12.27
email:59888745@qq.com
說明:因內容較多,會不斷更新 *學習總結;
2016.10 主要看的書 《Python3-廖雪峰》,《Python核心程式設計》
通過這些書籍的學習,能掌握python常用的基本知識:
1.python資料型別、判斷與迴圈流程,list,tuple,dict,map,filter,reduce等
2.檔案/資料讀寫、物件導向、第三方庫等;
3.python高階特性等等;
python學習總結-【原】
2016.11 主要看的書是關於資料獲取,scrapy等方面的知識,如《用python寫網路爬蟲》李斌譯;
1.requests抓取與靜態網頁解析,bs4的使用;
2.user-agent模擬登陸與分散式爬蟲;
3.selenium與動態網站爬取
資料獲取,解析,儲存等知識的學習總結-【原】
2016.12 主要看的書是關於資料挖據&資料分析方面的知識.如 pandas,numpy,scipy
1.pandas資料統計與分析技能
2.用pandas完成機器學習資料預處理與特徵工程
pandas的學習總結-【原】
numpy的學習總結-[原]
scipy的學習總結-原
2017.01 主要看的書是關於資料視覺化方面的知識.如 matplotlib,d3,process等資料視覺化
1.好用的python視覺化利器matplotlib
2.自帶各種資料擬合分析的視覺化利器seaborn
matplotlib的學習總結【原】
d3的學習總結
process的學習總結
2017.02 主要看的書是關於Spark,hadoop,map-reduce大資料處理等方面的知識
《Spark快速資料處理》 餘璜,張磊譯,《spark sql程式設計指南》 韓保禮 譯
2017.03-04--- 主要看的書是關於機器學習原理到實戰方面的書,如
《統計學習方法-李航》--介紹統計學常用的演算法和模型;
《機器學習實戰-李博》--介紹機器學習常用演算法及阿里巴巴PAI平臺使用的機器演算法解決方案模型
《推薦系統實踐-項亮》--介紹推薦系統方面的知識。
機器學習 周志華
1.機器學習 基本概念,常用經典模型總結【原】
2..機器學習流程、預處理、特徵工程例項總結
3.機器學習演算法特點總結
4.人工智慧,機器學習,深度學習,資料探勘流程 介紹總結
專案:
京東2017 豬臉識別 專案分析實現
百度PaddlePaddle AI大賽 專案分析實現
2017.05-06-- 主要學習是深度學習原理到實戰方面的知識,瞭解常用深度學習模型Tensorflow,caffe
1.深度神經網路、deep模型
2.卷積神經網路、
3.迴圈神經網路、
2017.07-08-- 主要學習的是自然語言處理方面的知識,瞭解常用NLP方面的知識如分詞,詞向量,詞雲,文字分類,jieba,gensim等
0.NLP自然語言處理 jieba中文分詞,關鍵詞提取,詞性標註,NLP WordEmbedding的概念和實現
1.用機器學習方法完成中文文字分類
NB模型
SVM模型
(資料清洗 + 特徵提取(tfidf,textrank) + 抽取有用的特徵,如對文字抽取,詞代模型,NB模型測試, 引數調優,交叉驗證(kf,分組),用不同的演算法svm,tfidf模型測試;
輸出結果和分析,tfidf在多文字類別的分類效果不錯。
2.用Tensorflow深度學習做文字分類
CNN做文字分類
資料預處理
停用詞
構建資料集
神經網路搭建
訓練和預測
3.LSTM/GRU文字分類 捕捉時序資訊的長短時記憶神經網路
詞袋模型
GRU文字分類
4.推薦系統
根據不同使用者的喜好挖掘生成使用者畫像,為每位使用者提供“千人千面”的個性化推薦內容,幫助傳媒、
電商等行業有效提升點選率、轉化率及使用者粘性,極大地增加客戶的經營效益。
推薦系統主要功能:
1.多維度挖掘使用者長短期興趣畫像,精準把脈使用者偏好訴求.
2.基於使用者行為歷史資料探勘多樣性的個性化推薦結果.
3.對使用者興趣和個性化需求進行精準預測.
4.主要解決兩個問題,一個是資訊過載,一個是使用者需求的多樣性.
實現方法:
1. 相似度,通過使用者對物品的歷史行為,例如評分、訪問、下單、收藏等等行為,判斷使用者之間的相似情況輸出推薦列表.
2. 組合推薦:基於使用者推薦(UserCF),物品推薦(ItemCF)和內容的推薦可能會達到比較好的效果.
2017.09-10-11-12 機器學習,深度學習,NLP等方面知識深化學習