python資料分析與視覺化基礎

Mrwhite86發表於2024-08-02

一、資料分析介紹:
1.資料分析含義:
資料分析是指用適當的統計分析方法對收集來的大量資料進行分析,將它們加以彙總和理解並消化,以求最大化地開發資料的功能,發揮資料的作用。資料分析是為了提取有用資訊和形成結論而對資料加以詳細研究和概括總結的過程。

資料分析的數學基礎在20世紀早期就已確立,但直到計算機的出現才使得實際操作成為可能,並使得資料分析得以推廣。資料分析是數學與電腦科學相結合的產物。

2.常用資料分析方法:

1) 列表法:

將資料按一定規律用列表方式表達出來,是記錄和處理最常用的方法。表格的設計要求對應關係清楚,簡單明瞭,有利於發現相關量之間的相關關係;此外還要求在標題欄中註明各個量的名稱、符號、數量級和單位等:根據需要還可以列出除原始資料以外的計算欄目和統計欄目等。

2)作圖法:

作圖法可以最醒目地表達各個物理量間的變化關係。從圖線上可以簡便求出實驗需要的某些結果,還可以把某些複雜的函式關係,透過一定的變換用圖形表示出來。 [3]
圖表和圖形的生成方式主要有兩種:手動製表和用程式自動生成,其中用程式製表是透過相應的軟體,例如SPSS、Excel、MATLAB等。將調查的資料輸入程式中,透過對這些軟體進行操作,得出最後結果,結果可以用圖表或者圖形的方式表現出來。圖形和圖表可以直接反映出調研結果,這樣大大節省了設計師的時間,幫助設計者們更好地分析和預測市場所需要的產品,為進一步的設計做鋪墊。同時這些分析形式也運用在產品銷售統計中,這樣可以直觀地給出最近的產品銷售情況,並可以及時地分析和預測未來的市場銷售情況等。所以資料分析法在工業設計中運用非常廣泛,而且是極為重要的。

一、資料視覺化介紹:

1. 資料視覺化含義:

資料視覺化,是關於資料視覺表現形式的科學技術研究。其中,這種資料的視覺表現形式被定義為,一種以某種概要形式抽提出來的資訊,包括相應資訊單位的各種屬性和變數。

它是一個處於不斷演變之中的概念,其邊界在不斷地擴大。主要指的是技術上較為高階的技術方法,而這些技術方法允許利用圖形、影像處理、計算機視覺以及使用者介面,透過表達、建模以及對立體、表面、屬性以及動畫的顯示,對資料加以視覺化解釋。與立體建模之類的特殊技術方法相比,資料視覺化所涵蓋的技術方法要廣泛得多。

2. 工具軟體:

目前市面上的資料視覺化工具多種多樣,其中Excel可以說是典型的入門級資料視覺化工具。從資料視覺化的自動化方面來看,建議使用 Python 程式設計來實現。Python 中用於資料視覺化的庫有很多,比較常見的有: Matplotlib(強大、複雜)、Seaborn(基於Matplotlib、簡單)、pyecharts(基於Echarts、炫酷)、plotnine(移植於R的ggplot2、圖形語法)、PyQtGraph(互動、高效能)。

三、常見的資料分析與視覺化類庫:

1. NumPy:

NumPy(Numerical Python)是Python的一種開源的數值計算擴充套件。這種工具可用來儲存和處理大型矩陣,比Python自身的巢狀列表(nested list structure)結構要高效的多(該結構也可以用來表示矩陣(matrix)),支援大量的維度陣列與矩陣運算,此外也針對陣列運算提供大量的數學函式庫

2. pandas:

pandas 是基於NumPy 的一種工具,該工具是為解決資料分析任務而建立的。Pandas 納入了大量庫和一些標準的資料模型,提供了高效地操作大型資料集所需的工具。pandas提供了大量能使我們快速便捷地處理資料的函式和方法。你很快就會發現,它是使Python成為強大而高效的資料分析環境的重要因素之一

3. Matplotlib

Matplotlib 是一個 Python 的 2D繪相簿,它以各種硬複製格式和跨平臺的互動式環境生成出版質量級別的圖形。

4. SciPy:

SciPy是一個基於Python的開源庫,主要用於科學計算。它透過提供一系列的演算法和數學工具,幫助使用者解決最最佳化、積分、插值、特徵值問題、代數方程、微分方程和統計等問題。

5.Scikit-learn:

Scikit-learn(以前稱為scikits.learn,也稱為sklearn)是針對Python 程式語言的免費軟體機器學習庫 [1]。它具有各種分類,迴歸和聚類演算法,包括支援向量機,隨機森林,梯度提升,k均值和DBSCAN,並且旨在與Python數值科學庫NumPy和SciPy聯合使用。

6. Wordcloud:

WordCloud 庫是一個非常有用的工具。它能夠將文字中的關鍵詞以詞雲的形式呈現出來,使得人們可以直觀地瞭解文字的主題和關鍵詞。WordCloud 庫不僅能夠簡單地生成詞雲,還提供了豐富的配置選項,使使用者可以根據自己的需求定製詞雲的外觀和佈局。作為Python開源庫中的一員,WordCloud 庫已經被廣泛應用於各種領域,包括資料分析、自然語言處理、社交媒體分析等。

7. jieba:

jieba 是目前表現較為不錯的 Python 中文分片語件,jieba庫的分詞原理:利用一箇中文詞庫,確定漢字之間的關聯機率,漢字間機率大的組成片語,形成分詞結果。除了分詞,使用者還可以新增自定義的片語。

四、相關參考文獻:
1. 資料分析百度百科https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90/6577123?fr=ge_ala

2. 資料視覺化百度百科https://baike.baidu.com/item/%E6%95%B0%E6%8D%AE%E5%8F%AF%E8%A7%86%E5%8C%96/1252367

3. numpyhttps://baike.baidu.com/item/numpy/5678437?fr=ge_ala

4. pandashttps://baike.baidu.com/item/pandas?fromModule=lemma_search-box

5. Matplotlibhttps://baike.baidu.com/item/Matplotlib?fromModule=lemma_search-box

6. SciPyhttps://zhuanlan.zhihu.com/p/686571574

7. Scikit-learnhttps://baike.baidu.com/item/Scikit-learn/3006276?fr=ge_ala

8. Wordcloudhttps://blog.csdn.net/qq_23091073/article/details/137687456

9. jiebahttps://blog.csdn.net/m0_63244368/article/details/126837925

Wordcloud

相關文章