【譯文】2016年度Analytics Vidhya上最火爆的36篇文章和資源

錢亦欣發表於2017-01-01

作者 KUNAL JAIN 譯者 錢亦欣

引言

時光猶如白駒過隙,又到一年末尾,該做點總結了。(譯者注:原文有大量抒情文字,我懶得翻譯了。。。)

這篇文章總結了16年度本網站上最火的資源,我們把它們分成了指南,短文,職業文和技能測試四個板塊以方便閱讀。

如果你是個新人,一定會愛死這篇文章,畢竟這是網站一整年的精華。如果你已經是個專家,你也大可以挑選一些感興趣的隨便翻翻。

別了2016,你好2017

於我們而言,2016年是現象級的一年。(譯者注:後面是成果簡介啊,感謝讀者啊,未來展望啊,我懶得翻譯了。。。)

本文的正確開啟方式

本文按照四個板塊將資源分類,大家各取所需。(譯者注:這段我意譯的)

指南類

1. R語言資料科學入門指南

如果你是個徹頭徹尾的R新人,這篇文章不容錯過。它的目標讀者就是那些對機器學習毫無概念的人。它會告訴你R的基本知識,如何做探索性資料分析和資料操作,最後也會教會你如何建立一個預測模型。我保證這是R語言界的最棒的手把手資料科學教程

工具: R

技術: 完整的案例教學

等級: 初學者

2. Python資料科學入門指南

如果你想以python為工具開始你的資料科學之旅,這篇文章就會是你的引路人。同樣,它假定讀者沒有任何python知識,從基礎語法開始教學,同時兼顧常用的python庫。在這之後,它會帶著你探索,整理資料並建立預測模型。

工具: Python

技術: 包括logit模型,決策樹和隨機森林在內的完整案例

等級: 初學者

3. 基於樹的模型導論(R和Python)

這篇指南將一步步教會你建立基於樹的模型,比如決策樹,隨機森林和梯度提升法這類應用廣範的技術。它會告訴你這些演算法的思想和應用的方式,同時也不需要你對機器學習有任何先驗知識,然而你必須對R或者python比較熟悉。

工具: R & Python

技術: 基於樹的模型

等級: 中級

4. 時間序列預測指南 (python)

時間序列是資料科學的重要概念,本文將會帶你領略分析時間序列的各種技術,並提供python程式碼。你將會學到時間序列的特點,如何用Pandas載入並處理時間序列,如何檢驗平穩性,如何進行平穩化處理並做預測。

工具: Python

技術: 時間序列預測

等級: 中級

5. PCA操作指南(R和Python)

有時你處理的資料集可能包含了非常多的變數,在這裡面尋找適宜的子集可能非常麻煩。這時,PCA技術就可以大顯神威了,PCA是從一個大集合中提取重要資訊的技術。通過本文,你將學會PCA的理論基礎,變數規範化,PCA在R與Python中的實現和如何用主成分建模等技術。本文需要讀者有基礎的統計學知識。

工具: R & Python

技術: Principal Component Analysis(主成分分析)

等級: 中級

6. XGBoost調參指南(提供python程式碼))

XGBoost被資料科學家們認為是最強大的演算法之一。用XGBoost老建模很容易,但調參卻是一個苦力活。這篇指南會結合案例教你如何在python中調節XGBoost的引數,讓你知道XGBoost的優勢。要讀懂這篇文章,你得有python方面的知識。(譯者注:我怎麼感覺這麼反諷。。。)

工具: Python

技術: XGBoost

等級: 中級

7. 用Python做嶺迴歸和LASSO

很多人對於迴歸的理解就侷限於線性迴歸和邏輯斯底迴歸,但迴歸的範疇其實遠大於此。本文就是關於嶺迴歸和LASSO迴歸的指南,這是最基本兩種正則化技術。你講學會它們的理論基礎和相對於線性迴歸的優勢。我保證看完這篇文章,你就能將它們運用於實戰。

工具: Python

技術: Ridge & Lasso regression

等級: 中級

8. Python中的梯度提升法(GBM)調參指南

梯度提升法很容易實現,可調參卻很困難。這篇文章會讓你瞭解python中GBM背後的原理。你能學到提升法的工作原理和調參的經驗。在對GBM的調參有簡單認識後,它會讓你掌握通用的調參方法。

工具: Python

技術: Gradient Boosting Model

等級: 中級

9. 資料探索指南

你的預測模型的極限取決於你對於資料的理解。資料探索有助於你構建合適的特徵,並把資料和背景領域結合。這篇指南會教你資料探索和預處理的步驟,比如缺失值處理,離群值的檢測和處理以及特徵工程的藝術。我打賭在本文的幫助下你能在下次的機器學習競賽中提升你的模型表現。

工具: Agnostic

技術: 探索性資料分析,缺失值插值,離群值檢測

等級: 初學者

10.亞馬遜網頁服務(AWS)機器學習建模指南

雲端計算是資料科學家工作流的重要部分。如果你要處理的資料量超過了你的筆記本的能力分為,雲端計算將會是解決方案。本文將會指導你使用AWS的終端和介面,然後你會學會如何配置和載入例項。一旦你熟悉了AWS的工作方式,你就可以使用python構建機器學習模型了。本文對R使用者也會有所幫助,你要做的只是改變程式碼。

工具: R & Python, 雲

技術: NA(譯者注:原文就是NA)

等級: 初學者

文章類

1. Python中進行資料整理的12項Pandas技術

Pandas是Python中用來分析,處理和視覺化資料的利器。本文將教會你利用Pandas處理資料的12項技術,同時用機器學習的資料集做案例。你講了解如何生成邏輯變數,插補缺失值,生成多標籤,生成資料透視表,合併資料框和其他有用技能。它也講解了如何提升每個步驟的執行速度。

工具: Python

技術: 資料探索,資料視覺化

等級: 中級

2. 如何在R中建立XGBoost模型

在進來的一些資料競賽中,XGBoost一直主導著比賽。(譯者注:這算官方吐槽嗎。。。)本文將指導你如何在R中利用XGBoost建模,XGBoost的引數的意義,它的作用機理和如何檢測結果。

工具: R

技術: XGBoost

等級: 中級

3. 人人都該瞭解的7種誤差評價模式

本文將會讓你深入瞭解多種模型結果評價模式,包括混淆矩陣,增益提升圖,AUC和ROC,基尼係數,K-S圖,均方誤差,Concordant – Discordant 比率和交叉驗證。

工具: Agnostic

技術: 模型評價

等級: 初學者

4. 面向小白的貝葉斯統計分析

貝葉斯統計始終是統計的重要概念之一,然而很多分析師和資料科學家對其瞭解並不深入。這方面的數學解釋對很多人而言可能挺有必要,因此這篇文章特意用簡易英語撰寫,幫助你瞭解貝葉斯統計。(譯者注:我就是搞貝葉斯的,大家也可以私信和我交流討論)

工具: Agnostic

技術: 貝葉斯統計

等級: 中級

 

5.5大用來處理缺失值的R包使用指南

缺失值插補是建模前的重要預處理步驟,如果你是個R語言使用者,這篇指南你應該讀一讀。本文將會指導你使用5個R包插補缺失值,它們是MICE,Amelia,MissForest,Hmisc和mi。為方便理解,每個包的使用都配合例項講解。

工具: R

技術: 缺失值插補

等級: 初學者

6. Python推薦引擎構建快速指南

如今想Facebook,Amazon和Youte之類的大網站都會用到推薦引擎,而構建推薦引擎的過程好玩但又有挑戰性。這篇文章會講解推薦引擎的型別和程式實現。你講學到如何建立基於流行度的模型和協同濾波模型,並對電影資料進行例項操作。

工具: Python

內容: 推薦引擎

等級: 中級

7. R語言不平衡資料分類指南

不平衡資料集的處理富有技巧性,本文會告訴你為什麼機器學習演算法的預測金魚會被資料集的不平衡性降低,同時也提供了處理這一難題的幾種方法。為了讓你有實際動手經驗,本文還利用例項提供了在R中實現不平衡資料分類的例項。(譯者注:該文在雪晴資料網上有譯文)

工具: R

技術: 不平衡分類

等級: 中級

8.在Python中利用Theano訓練神經網路

人工神經網路是近年來的熱點,自動駕駛企車,語言識別,影像識別等技術的實現都是依賴於這一模型。本文將會利用Python中的Theano庫來實現這一模型,全文會先介紹Theano的功能,如何在其中實現簡單表示式,Theano的變數和函式的型別等基礎知識。最後會訓練一個簡單的兩層神經網路。

工具: Python – Theano

技術: 人工神經網路

等級: 中級

9.如何在R中實現多項Logit模型和有序Logit模型

本文將會指導你建立多項Logit模型和有序Logit模型來對多水平分類變數進行建模。在幫助你深入瞭解這兩類模型的作用機理後,本文還將指導你在R中實現它們。本文需要讀者對R語言比較熟悉。

工具: R

技術: 多項Logit模型和有序Logit模型

等級: 初學者

 

10. 如何利用R中的Boruta包實現特徵選擇

對任何機器學習模型而言特徵選擇是重要概念,優勢刪去先關變數會對模型表現產生巨大影響。R中恰好有個包就專攻這一領域,本文會告訴你Boruta包的原理和使用方法,讀完本文你就會了解Boruta由於傳統特徵選擇演算法的緣由。本文需要R語言方面的先修知識。

工具: R – Boruta

技術: 特徵選擇

等級: 中級

書籍 / 課程類

1.資料科學領域關於統計與數學的必讀書目(免費)

每個資料科學家都應該對統計和數學有深入瞭解。這個書單能確保你能打好相關技術,書單中的書全都是免費的,可以自由下載,趕緊學習吧!

2. 給程式設計苦手的19個資料科學工具

程式碼可能是那些不大擅長程式設計的資料科學家們職業道路上最大的絆腳石(譯者注:不擅長程式設計還是趁早轉行吧。。。),然而不必擔心,這裡的19個工具可以讓你不再落後於人。它們都提供了非常友好的GUI(圖形介面),你只需要一點點關於程式設計的知識就可以訓練模型了。

3.Github上最活躍的資料科學家,免費圖書,筆記和教程

本文將會幫助你追隨Github上的那些大牛,我們在這篇文章也分享了很多免費電子書和筆記的連結,為了你用起來方便,我們把這些資源給R和Python使用者分別做了歸類。

4.R於Python關於資料科學方面的18本必讀新書

資料科學界關於R和Python誰更好的爭論一直沒有停息,然而不論你使用哪種語言,本文對你都會有所幫助。之前我們也提供了很多教程,課程和開源圖書資源,然而我們認為圖書的幫助範圍更大。這裡列出了一些R和Python資料科學方面的必讀書目,希望對你有用。

5.2015-16年度SAS,R,Python,機器學習,大資料和Spark方面的頂級認證課程

如今網際網路上有不計其數的課程和認證,混淆了大家的視聽。為了幫助你找到最符合你需求的資源,本文列舉了2016年印度評分最高的課程,快去尋找最適合你的那幾門課吧。

職業類

1.2016年資料科學家終極養成指南

成為資料科學家道阻且長,本文則提供了一些有用經驗讓你少走彎路。它將全年計劃按照月份做了拆分來幫助你實現個人目標。通過它你將會實現在資料科學或者機器學習領域覓得一席之地的理想。

2. 機器學習/資料科學新興企業常用的40道面試題

我打賭你在每個面試前都會四處打聽關於資料科學和機器學習的常見面試題,本文就列舉了40道常見面試題幫助你下次面試有更好表現。相信我,這是你在相關領域能得到到的最好的面試指南。

3. 北美名校10大資料科學碩士專案

你是否正在申請北美大學的資料科學碩士專案?入坑之前你最好仔細瞭解每個學校的專案來來決定自己的申請目標。本文列舉了北美名校的10個頂級資料科學方面的碩士專案,通過閱讀你能瞭解它們各自的優勢和不足。

4. 2016年印度資料科學家薪酬報告

本文旨在提供一份關於資料行業的真實的市場報酬報告。自印度成為世界第二大資料人才需求市場後,其工資水平也是水漲船高。這份報告反映了印度市場資料科學方面專家的薪酬水平,如果你是這方面的新手,這會是一份很好的激勵材料。

5.一各能提升你建立含金量的機器學習專案

我們一直在諮詢那些想要甚至嘉興的資料科學從業人員,發現在職業生涯中期要實現這一目標難度不小。而簡歷缺少吸引力則是他們最大的擔憂之一,本文則提供了一個富有挑戰的機器學習專案的手把手教程,相信把這個專案經歷新增進簡歷會有所幫助。

技能測試類

1. 技能測試--機器學習

本年我們已經提供了不少技能測試讓你評估自己對一些基本概念的理解程度,而這份試題則是針對那些機器學習實踐者。它包含了機器學習的多方面概念,同時題目設計又是基於實踐問題。題目共有40道,並且都有詳細的解答。

2. 技能測試--統計學 第一部分 第二部分

統計學是資料科學的基礎,良好的統計功底能讓你的職業生涯扶搖而上九萬里(譯者注:這句我個人用了誇張的修辭手法,因為我是學統計的)。我們設計了初級和高階兩份試題,如果是新人就先做第一部分,掌握第一份提出的內容之後就可以做第二部分了。

3.技能測試--R & Python

讓自己快速掌握程式語言精髓的最好方式之一就是不斷地測試自己,這兩份測試題包含了40道左右的問題,試試你能答對幾道。

4. 技能測試--迴歸

迴歸是統計分析和預測建模的最重要的概念,這裡有關於迴歸和相關技術的45到問題。我們不希望你只是個半吊子資料科學家,所以每一題我們都準備了詳盡的解答。這是你學習迴歸的最好資源之一。

5. 技能測試--基於樹的演算法

諸如隨機森林,決策樹和梯度提升法之類的基於樹的演算法是機器學習的常用演算法。回答這裡的45道測試題能讓你對自己在該領域的學識有所瞭解。如果你想快速掌握基於樹的模型的基本概念,這是最好的材料。

結語

大致就是希望你喜歡,新年快樂之類的,懶得翻譯了。

注:原文刊載於Analytics Vidhya網站 連結:https://www.analyticsvidhya.com/blog/2016/12/top-35-articles-resources-analytics-vidhya-year-2016/

相關文章