Python資料分析從小白到高手的幾個步驟

挖地兔訂閱號發表於2019-02-26

Python資料分析從小白到高手的幾個步驟

上一週,一個非常高階的使用者委託我給他做一個培訓,從Python資料分析的基礎到如何寫一個策略例項,然後再用“江湖”方法實現實盤程式化交易。

一開始其實不太想接,但想到是Tushare使用者的一個很實際的訴求,同時也是自己對曾經學習過的東西一個重新梳理和總結,所以就答應了。

接下來以後,很認真的做了一些準備,從寫提綱到準備講義 ,羅列了很多要點,尤其是在Python資料分析方面所用到的工具和方法,一一進行了講解。

講完以後才想來在2017年的時候,曾經看過一篇老外寫的文章,把Numpy/Pandas甚至各種機器學習和神經網路演算法組織成了不同的結構圖,看起來非常清晰,一目瞭然。

有點遺憾當時沒有拿出來跟那個朋友分享。所以,今天重新組織一下,希望能借別人的精華,把學習的路線和過程傳遞給更多想學習和正在學習的小夥伴。

以下是內容截圖的原文地址,圖片版權歸原作者:

Python起步,基礎知識

在開始資料分析之旅之前,必須要掌握Python的基礎方法和用法,就像一出生先要學會走路一樣,彆著急上跑道,打好基本功才能練就硬本事。

Python資料分析從小白到高手的幾個步驟

Python的基礎知識比如變數宣告,運算子操作,資料型別,常用資料集合操作都是要爛熟於心的。同時也要掌握一些開發工具,穿上鞋走路才能走得更穩,也更加舒服。

Python資料分析之源,Numpy

Numpy幾乎是所有重要Python資料分析工具的依賴,比如後面要介紹的Pandas,以及其他機器學習工具的包,都需要依靠Numpy來完成資料的組織和清理。所以,我把Numpy定義為資料Python資料分析之源。

Python資料分析從小白到高手的幾個步驟

在Numpy裡,需要靈活掌握基本的資料型別的使用,陣列的(花式)切片,資料的廣播運算,資料檔案的讀寫等等,這些知識是為你練就資料神功積攢內力,打通任督二脈的第一步。

Python資料分析神器,Pandas

如果說Numpy可以打通全身經脈提升內力,那麼Pandas就如同賜給了你一把屠龍寶刀,一刀在手,走遍天下無敵手。資料裡披荊斬刺,牛鬼蛇神,幾刀下去就會清清爽爽乾乾淨淨。

Python資料分析從小白到高手的幾個步驟

為啥這麼幹淨利落?因為Pandas有DataFrame,資料裡縱橫馳騁,無非是幾個簡單的函式。另外,不論資料檔案的對接,還是資料庫的存取,也是一兩行程式碼的功夫。

所以,想要行走江湖,Pandas這把殺豬刀,錯了,屠龍寶刀,一定要用好。

資料清洗過程

刀要怎麼用? 橫一刀,豎一刀當然也可以,但我們還是要優雅一點。

肉一點的資料可以切,可以削,帶點骨頭的資料可以劈,可以斬,實在不行捅也行。(還是殺豬。。。)

Python資料分析從小白到高手的幾個步驟

所以,我們在處理資料的時候,基礎會對資料進行切片,補全,去重,重塑等等,之後的統計分析也變得異常簡單。

Python資料分析從小白到高手的幾個步驟


Python資料視覺化,經典Matplotlib

雖然目前已經出現了很多優秀的支援Python的視覺化工具,比如之前介紹過的Dash,Pyecharts,但Python御用的視覺化工具Matplotlib在任何時候都可能出現在不同場合並有著不凡的表現。

Python資料分析從小白到高手的幾個步驟

視覺化就像給資料穿上靚麗的外衣,辛苦折騰出的結果或者結論一定要有一個漂亮的呈現。所以,一個驚豔的圖表報告能給一次“驚險”的資料之旅畫上一個圓滿的句號。

裝逼第一步,機器學習

這幾年人工智慧火爆發展,強勢入駐IT及網際網路領域,連金融投資也要處處強調智慧化。作為“智慧”實現的第一步,機器學習承載了所有有志進入人工智慧領域人的夢想,也是所有“碼農”血洗屌絲形象,進入更高薪領域必備良器。

Python資料分析從小白到高手的幾個步驟

不管監督學習也好,半監督還是無監督也好,反正演算法從此掛上了嘴巴,隨口不蹦出幾個經典演算法來,都顯示不出專業性,尤其是一些效能又高,知道的人又少的演算法,那更是可以讓人說話聲音都要高出幾個分貝。

但是裝逼有時候也不太好裝,騷年一定要認真學好,各處細節都要了解清楚,尤其是一些常用工具要掌握到位,比如下圖的流程,可以讓你快速定位問題,並制定出解決方案。

Python資料分析從小白到高手的幾個步驟

另外,我們也可以掌握一些演算法速查表。

Python資料分析從小白到高手的幾個步驟

當然,如果能掌握一些系統性的工具包,更有利於對機器學習的理解和運用,Scikit-Learn或許是首先。

Python資料分析從小白到高手的幾個步驟

裝逼第二步,神經網路

神經網路錯綜複雜的各種圖或許會讓你眼花繚亂,但這豈能讓這種既像跳棋遊戲又像電路板的東西擋住了我們裝逼的路。

先來看看這些神經網路圖,簡稱神圖。

Python資料分析從小白到高手的幾個步驟

如果還沒看過癮,再來一版。

Python資料分析從小白到高手的幾個步驟

如果以上覺得還不夠高階,那我們再來看看自帶數學神秘光環的公式圖。

Python資料分析從小白到高手的幾個步驟
Python資料分析從小白到高手的幾個步驟

如果看上面的圖很燒腦,那我們還是看看對曾經風靡一時的TensorFlow的一個總結吧。

Python資料分析從小白到高手的幾個步驟

裝逼第三步,搞定資料來源

有了槍有了炮,總得要有彈藥。

資料就是各類機器學習和人工智慧實現價值的彈藥,而金融資料是目前相對比較整潔,並且容易獲得,也契合這些神經網路等高階玩意高起點,高價值,高逼格特點的一種資料來源。

Tushare Pro為各路英雄豪傑提供了免費的,高質量的金融時間序列資料,除了提供各種資產類別的市場資料,也將提供宏觀及行業資料,持續不斷地為大家提供穩定的資料支援和服務。

有志在機器學習展現能力,又想透過金融市場體現價值的夥伴,可以藉助Tushare開放平臺獲得免費資料支援。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69908612/viewspace-2637031/,如需轉載,請註明出處,否則將追究法律責任。

相關文章