TOP 3大開源Python資料分析工具!
在大資料庫領域,Python是最常被使用的程式語言,因此瞭解與其相關的資料分析工具是很有必要的。如果你正在使用virtualenv、pyenv或其他變體在自己的環境中執行Python,那麼,可以嘗試本文推薦的三大開源工具。
(注:本文示例使用IPython,如果感興趣,請確保已經安裝)
$ mkdir python-big-data
$ cd python-big-data
$ virtualenv ../venvs/python-big-data
$ source ../venvs/python-big-data/bin/activate
$ pip install ipython
$ pip install pandas
$ pip install pyspark
$ pip install scikit-learn
$ pip install scipy
本文選取的示例資料是最近幾天從某網站獲取的實際生產日誌資料,從技術層面來看,這些資料並不能算作是大資料,因為它的大小隻有大約2Mb,但就演示來說已經足夠了。
如果你想獲取這些示例資料,可以使用git從作者的公共GitHub儲存庫中下載:admintome / access-log-data
$ git clone https://github.com/admintome/access-log-data.git
資料是一個簡單的CSV檔案,因此每行代表一個單獨的日誌,欄位用逗號分隔:
2018-08-01 17:10,'www2','www_access','172.68.133.49 - - [01/Aug/2018:17:10:15 +0000] "GET /wp-content/uploads/2018/07/spark-mesos-job-complete-1024x634.png HTTP/1.0" 200 151587 "https://dzone.com/" "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36"'
以下是日誌行架構:
由於對資料可執行的操作的複雜性不確定,因此本文重點選取載入資料和獲取資料樣本兩個操作來講解三個工具。
1、Python Pandas
我們討論的第一個工具是Python Pandas。正如它的網站所述,Pandas是一個開源的Python資料分析庫。它最初由AQR Capital Management於2008年4月開發,並於2009年底開源,目前由專注於Python資料包開發的PyData開發團隊繼續開發和維護,屬於PyData專案的一部分。Pandas最初被作為金融資料分析工具而開發出來,因此,pandas為時間序列分析提供了很好的支援。
首先,啟動IPython並對示例資料進行一些操作。(因為pandas是python的第三方庫所以使用前需要安裝一下,直接使用pip install pandas 就會自動安裝pandas以及相關元件)
import pandas as pd headers = ["datetime", "source", "type", "log"] df = pd.read_csv('access_logs_parsed.csv', quotechar="'", names=headers)
大約一秒後,我們會收到如下回復:
[6844 rows x 4 columns] In [3]:
如上所見,我們有大約7000行資料,它從中找到了四個與上述模式匹配的列。
Pandas自動建立了一個表示CSV檔案的DataFrame物件,Pandas中的DataFrame資料既可以儲存在SQL資料庫中,也可以直接儲存在CSV檔案中。接下來我們使用head()函式匯入資料樣本。
In [11]: df.head() Out[11]: datetime source type log 0 2018-08-01 17:10 www2 www_access 172.68.133.49 - - [01/Aug/2018:17:10:15 +0000]... 1 2018-08-01 17:10 www2 www_access 162.158.255.185 - - [01/Aug/2018:17:10:15 +000... 2 2018-08-01 17:10 www2 www_access 108.162.238.234 - - [01/Aug/2018:17:10:22 +000... 3 2018-08-01 17:10 www2 www_access 172.68.47.211 - - [01/Aug/2018:17:10:50 +0000]... 4 2018-08-01 17:11 www2 www_access 141.101.96.28 - - [01/Aug/2018:17:11:11 +0000]...
使用Python Pandas可以做很多事情, 資料科學家通常將Python Pandas與IPython一起使用,以互動方式分析大量資料集,並從該資料中獲取有意義的商業智慧。
2、PySpark
我們討論的第二個工具是PySpark,該工具來自Apache Spark專案的大資料分析庫。
PySpark提供了許多用於在Python中分析大資料的功能,它自帶shell,使用者可以從命令列執行。
$ pyspark
這會載入pyspark shell:
(python-big-data)[email protected]:~/Development/access-log-data$ pyspark Python 3.6.5 (default, Apr 1 2018, 05:46:30) [GCC 7.3.0] on linux Type "help", "copyright", "credits" or "license" for more information. 2018-08-03 18:13:38 WARN Utils:66 - Your hostname, admintome resolves to a loopback address: 127.0.1.1; using 192.168.1.153 instead (on interface enp0s3) 2018-08-03 18:13:38 WARN Utils:66 - Set SPARK_LOCAL_IP if you need to bind to another address 2018-08-03 18:13:39 WARN NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel). Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 2.3.1 /_/ Using Python version 3.6.5 (default, Apr 1 2018 05:46:30) SparkSession available as 'spark'. >>>
當你啟動shell時,你會得到一個Web GUI檢視你的工作狀態,只需瀏覽到http:// localhost:4040即可獲得PySpark Web GUI。
讓我們使用PySpark Shell載入示例資料:
dataframe = spark.read.format("csv").option("header","false").option("mode","DROPMALFORMED").option("quote","'").load("access_logs.csv") dataframe.show()
PySpark提供了已建立的DataFrame示例:
>>> dataframe2.show() +----------------+----+----------+--------------------+ | _c0| _c1| _c2| _c3| +----------------+----+----------+--------------------+ |2018-08-01 17:10|www2|www_access|172.68.133.49 - -...| |2018-08-01 17:10|www2|www_access|162.158.255.185 -...| |2018-08-01 17:10|www2|www_access|108.162.238.234 -...| |2018-08-01 17:10|www2|www_access|172.68.47.211 - -...| |2018-08-01 17:11|www2|www_access|141.101.96.28 - -...| |2018-08-01 17:11|www2|www_access|141.101.96.28 - -...| |2018-08-01 17:11|www2|www_access|162.158.50.89 - -...| |2018-08-01 17:12|www2|www_access|192.168.1.7 - - [...| |2018-08-01 17:12|www2|www_access|172.68.47.151 - -...| |2018-08-01 17:12|www2|www_access|192.168.1.7 - - [...| |2018-08-01 17:12|www2|www_access|141.101.76.83 - -...| |2018-08-01 17:14|www2|www_access|172.68.218.41 - -...| |2018-08-01 17:14|www2|www_access|172.68.218.47 - -...| |2018-08-01 17:14|www2|www_access|172.69.70.72 - - ...| |2018-08-01 17:15|www2|www_access|172.68.63.24 - - ...| |2018-08-01 17:18|www2|www_access|192.168.1.7 - - [...| |2018-08-01 17:18|www2|www_access|141.101.99.138 - ...| |2018-08-01 17:19|www2|www_access|192.168.1.7 - - [...| |2018-08-01 17:19|www2|www_access|162.158.89.74 - -...| |2018-08-01 17:19|www2|www_access|172.68.54.35 - - ...| +----------------+----+----------+--------------------+ only showing top 20 rows
我們再次看到DataFrame中有四列與我們的模式匹配,DataFrame此處可以被視為資料庫表或Excel電子表格。
3、Python SciKit-Learn
任何關於大資料的討論都會引發關於機器學習的討論,幸運的是,Python開發人員有很多選擇來使用機器學習演算法。
在沒有詳細介紹機器學習的情況下,我們需要獲得一些執行機器學習的資料,我在本文中提供的示例資料不能正常工作,因為它不是數字型別的資料。我們需要操縱資料並將其呈現為數字格式,這超出了本文的範圍,例如,我們可以按時間對映日誌以獲得具有兩列的DataFrame:一分鐘內的日誌數和當前時間:
+------------------+---+ | 2018-08-01 17:10 | 4 | +------------------+---+ | 2018-08-01 17:11 | 1 | +------------------+---+
通過這種形式的資料,我們可以執行機器學習演算法來預測未來可能獲得的訪客數量,SciKit-Learn附帶了一些樣本資料集,我們可以載入一些示例資料,來看一下具體如何運作。
In [1]: from sklearn import datasets In [2]: iris = datasets.load_iris() In [3]: digits = datasets.load_digits() In [4]: print(digits.data) [[ 0. 0. 5. ... 0. 0. 0.] [ 0. 0. 0. ... 10. 0. 0.] [ 0. 0. 0. ... 16. 9. 0.] ... [ 0. 0. 1. ... 6. 0. 0.] [ 0. 0. 2. ... 12. 0. 0.] [ 0. 0. 10. ... 12. 1. 0.]]
這將載入兩個用於機器學習分類的演算法,用於對資料進行分類。
結論
在大資料領域,Python、R以及Scala是主要的參與者,開源社群中有不少針對這三者的工具,國內網際網路企業一向很喜歡基於開源工具自研,選擇之前不妨做好功課,抽取使用人數較多且應用場景最接近實際需求的方案。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31077337/viewspace-2199347/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 2018TOP100資料科學資源和工具(上)資料科學
- 2018TOP100資料科學資源和工具(下)資料科學
- 大資料分析系統Hadoop的13個開源工具!大資料Hadoop開源工具
- 大資料分析系統Hadoop的13個開源工具大資料Hadoop開源工具
- Python+資料分析:資料分析:北京Python開發的現狀Python
- Python入門教程—資料分析工具PandasPython
- 開源新聞:開源仿生腿、Python 資料管道、資料洩露檢測Python
- 從事Python資料分析師,必須掌握的Python工具!Python
- 2018年8月Top 10 Python開源專案Python
- Python為何能成為資料分析的主流工具?Python
- 2018年7月 Top10 Python開源專案Python
- Python資料分析工具庫-Numpy 陣列支援庫(一)Python陣列
- Python資料分析--工具安裝及Numpy介紹(1)Python
- Python中常用的資料分析工具(模組)有哪些?Python
- 做資料分析,推薦7款好用的Python工具!Python
- 西雅圖AirBnB資料分析的開源案例AI
- 【視覺化分析案例】用python分析B站Top100排行榜資料視覺化Python
- Python與開源GIS:資料處理、空間分析與地圖製圖教程Python地圖
- 最好用的開源日誌分析工具
- 開源共建 | TIS整合資料同步工具ChunJun,攜手完善開源生態
- Python資料分析 – numpyPython
- Python - pandas 資料分析Python
- tiktok小店資料分析工具
- iOS - 最易用的資料庫工具類 XWDatabase 開源iOS資料庫Database
- 開源滲透測試工具--關於資料庫資料庫
- Python培訓分享:Python中常用的資料分析工具(模組)有哪些?Python
- 做資料分析,軟體工具少不了,好用的資料分析軟體工具
- Tracardi:開源客戶資料整合與分析平臺
- GoAccess 開源日誌輕工具部署與分析Go
- 5 個有用的開源日誌分析工具
- 我們分析了近10000個Python開源專案,精選出最實用的Top5!Python
- 大資料平臺最常用的30款開源工具大資料開源工具
- 根據開源資料庫選擇合適的工具資料庫
- Python | 資料分析實戰ⅠPython
- Python | 資料分析實戰 ⅡPython
- Python資料分析之numpyPython
- Python資料分析之pandasPython
- python資料分析-Anaconda使用Python