Python資料科學（一） python與資料科學應用(Ⅰ)

一隻寫程式的猿發表於2017-12-14

原文網址 : https://juejin.im/post/5a31007ff265da43163d1162

傳送門：

Python資料科學（一）- python與資料科學應用(Ⅰ)

Python資料科學（二）- python與資料科學應用(Ⅱ)

Python資料科學（三）- python與資料科學應用(Ⅲ)

Python資料科學（四）- 資料收集系列

Python資料科學（五）- 資料處理和資料採集

Python資料科學（六）- 資料清理(Ⅰ)

Python資料科學（七）- 資料清理(Ⅱ)

1.資料科學簡介與應用

資料科學主要以統計學、機器學習、資料視覺化以及（某一）領域知識為理論基礎，其主要研究內容包括資料科學基礎理論、資料預處理、資料計算和資料管理(來自百度百科)。

1.資料科學所要具備的能力

統計(Statistic)
- 單變數分析、多變數分析、變異數分析
資料處理(Data Munging)
- 抓取資料、清理資料、轉換資料
資料視覺化(Data Visualization)
- 圖表、商業智慧系統

2.資料科學主要分為以下幾個步驟

按職能來拆分可分為資料科學家和資料工程師，
其中資料科學家主要負責前三步、而資料工程師則負責後兩步。

2.Python與資料科學

1.python語言

Python是什麼，請直接閱讀連結第一部分。

通過對比，可以突出python的簡單易用

#使用JAVA輸出Hello World 
class test{
        public static void main(String args[]){
            System.out.println("Hello World");
  }
}

#使用python語言輸出Hello World 僅需一行程式碼
print("Hello World")
複製程式碼

2.python具備完整的資料分析套件

如果需要做統計科學計算，python中具備Numpy、Scipy、statsmodels.
如果需要進行深度學習，又可以使用TensorFlow、MXNET，它們都有python的介面
做結構化資料處理與分析，又可以用Pandas
對大資料進行處理，可以使用PySpark
機器學習， python上又有Scikit-learn

3.安裝Anaconda

看過我之前文章的同學都知道，我一直用的是python2.7 最早也使用過3.5，現在卻要帶大家安裝Anaconda，原諒我當初學習python的時候太年輕，Python易學，但用好卻不容易，其中比較頭疼的就是包的管理和Python不同版本的問題，特別是當你使用Windows的時候。然後就出現了發行版的Python（比如Anaconda），發行版最直接的好處就是將python和許多常用的package打包，方便我們使用。接下來我帶大家安裝Anaconda.

建議安裝使用Python3，理由如下

python3和python2有很多語法的差異，具體參考解釋 Python 2 和 Python 3 的版本之間差別
Python語言作者Guido van Rossum郵件通知Python 2.7支援時間延長到2020年，到時候將不再進行維護

然後根據自己電腦進行32/64位的下載。

4.使用Jupyter notebook

Jupyter Notebook（此前被稱為 IPython notebook）是一個互動式筆記本，支援執行 40 多種程式語言。Jupyter Notebook 的本質是一個 Web 應用程式，便於建立和共享文學化程式文件，支援實時程式碼，數學方程，視覺化和 markdown。用途包括：資料清理和轉換，數值模擬，統計建模，機器學習等等。這也是我們為什麼要使用它的原因。

5.Python 3 語法

1.變數型別

和其他語言一樣，python3有六個標準的資料型別：

Number（數字）

String（字串）

List（列表）

Tuple（元組）

Sets（集合）

Dictionary（字典）

其中數字包括int、float、bool、complex（複數）。
內建的 type() 函式可以用來查詢變數所指的物件型別。此外還可以用Python的自省 isinstance 來判斷

>>>a = 0609
>>> isinstance(a, int)
True
>>>
複製程式碼

2.列表

Python內建的一種資料型別是列表：list。
list是一種有序的集合，可以隨時新增和刪除其中的元素。
序列中的每個元素都分配一個數字 - 它的位置，或索引，第一個索引是0，第二個索引是1，依此類推。
列表可以存放各種型別的資料

#設定一個list
li = [304,12,999,46,405]

#檢視list的相關功能使用dir()
dir(li)
複製程式碼

#檢視list的長度
>>>len(li)
5

#檢視list內容
>>>print(li)
[304,12,999,46,405]

#通過下標取值
>>>li[0]
304
>>>li[-1]
405
>>>li[0:3]
[304,12,999]

#列表增加
>>>li.append(609)
>>>print(li)
[304,12,999,46,405,609]

#列表擴充套件extend 接受一個引數，這個引數總是一個 list，
並且把這個 list 中的每個元素新增到原 list 中
>>>li.extend(['xlm','love'])
>>>print(li)
[304,12,999,46,405,'xlm','love']

#list排序
>>>li.sort
>>>print(li)
[12, 46, 304, 405, 999, 'xlm', 'love']

#將一個列表降序排列
>>>li = [304,12,999,46,405]
>>>li.sort(reverse=True)
>>>print(li) 
[999, 405, 304, 46, 12]
複製程式碼

3.元組

元組（tuple）與列表類似，不同之處在於元組的元素不能修改。

tuple = (304,12,999,46,405)
複製程式碼

4.字典

字典（dictionary）是Python中另一個非常有用的內建資料型別。
列表是有序的物件結合，字典是無序的物件集合。兩者之間的區別在於：字典當中的元素是通過鍵來存取的，而不是通過偏移存取。
字典是一種對映型別，字典用"{ }"標識，它是一個無序的鍵(key) : 值(value)對集合。
鍵(key)必須使用不可變型別。
在同一個字典中，鍵(key)必須是唯一的。

未完待續，連載中...

python應用資料科學的優勢
2021-09-11
Python資料科學
用 Python 入門資料科學
2019-09-30
Python資料科學
Python 資料科學之 Pandas
2020-03-16
Python資料科學
【Python資料科學】之Numpy
2019-04-29
Python資料科學
資料科學與Python（習題彙總）
2024-11-27
資料科學Python
Python資料科學（八）- 資料探索與資料視覺化
2019-03-02
Python資料科學視覺化
《Python入門與資料科學庫》學習筆記
2021-02-12
Python資料科學筆記
資料科學的原理與技巧一、資料科學的生命週期
2018-05-30
資料科學
（資料科學學習手札120）Python+Dash快速web應用開發——整合資料庫
2021-05-09
資料科學PythonWeb資料庫
常用構建資料科學應用程式的七個Python庫
2021-05-10
資料科學Python
每週一書《Python資料科學手冊》分享！
2019-02-22
Python資料科學
10大Python資料科學原始碼教程
2022-03-30
Python資料科學原始碼
資料科學
2021-09-09
資料科學
你與資料科學家只差這26條python技巧
2019-02-13
資料科學Python
3 個用於資料科學的頂級 Python 庫
2018-10-04
資料科學Python
【資料科學家】如何成為一名資料科學家？
2018-05-05
資料科學
（資料科學學習手札119）Python+Dash快速web應用開發——多頁面應用
2021-05-01
資料科學PythonWeb
Python---資料科學領域常用的15個Python包
2018-09-07
Python資料科學
（資料科學學習手札118）Python+Dash快速web應用開發——特殊部件篇
2021-04-24
資料科學PythonWeb
Python機器學習 5個資料科學家案例解析
2018-10-16
Python機器學習資料科學
[譯] 鮮為人知的資料科學 Python 庫
2018-12-05
資料科學Python
資料科學大Battle，你站Python還是R
2018-06-30
資料科學BATPython
本週Github上資料科學Python有趣專案
2024-03-16
Github資料科學Python
盤點5個常用的Python資料科學庫！
2022-09-30
Python資料科學
Web開發與資料科學家：誰在統治Python世界？
2018-03-30
Web資料科學Python
如何將 Scikit-learn Python 庫用於資料科學專案
2018-10-14
Python資料科學
資料科學的原理與技巧二、資料生成
2018-06-03
資料科學
資料分析與資料探勘 - 04科學計算
2020-09-09
（資料科學學習手札123）Python+Dash快速web應用開發——部署釋出篇
2021-05-29
資料科學PythonWeb
（資料科學學習手札102）Python+Dash快速web應用開發——基礎概念篇
2021-01-10
資料科學PythonWeb
（資料科學學習手札163）ibis：極具潛力的Python資料分析框架
2024-08-07
資料科學Python框架
（資料科學學習手札125）在Python中操縱json資料的最佳方式
2021-08-01
資料科學PythonJSON
理工大學大資料應用的三個學科
2018-06-15
大資料
資料科學、資料工程學習路線
2022-05-07
資料科學
通往資料科學之路
2020-06-16
資料科學
資料科學領域，你該選 Python 還是 R ？
2018-08-02
資料科學Python
在資料科學方面，python和R有何區別?
2020-08-21
資料科學Python
Python中非常有用的三個資料科學庫
2021-08-25
Python資料科學
Python或將成資料科學家首選語言
2021-09-11
Python資料科學