使用Python分析大量資料應該學些什麼?

banq 發表於 2022-01-23
Python

如果您想使用 Python 分析大量資料,該研究什麼?

對於大資料,我們不能相信只有語言就足夠了。Python 之所以合適,是因為它可以方便地管理數學庫、簡潔且易於管理異構和多維資料結構,但大資料還需要 IT 結構。例如,我們需要一個系統來管理非常大的檔案,並且我們需要結構來對映和減少這些巨大的檔案。

Apache Hadoop及其專用的 HDFS 檔案系統已成功解決了這些問題。

Python 通過Pydoop 庫與它驚人地互動。

推薦的步驟如下:

  • 從兩個方面開始:學習必要的數學,通過您編寫的簡單教育程式加深 Python 的各個方面。通過這種方式,您將同時學習 Python 和所需的數學,您將學習在程式碼中以實用的方式使用數學。
  • 只有當你對前一點感到非常強大時,研究它是如何工作的以及如何安裝hadoop,開始玩pydoop,做一些非常簡單的事情:儘管庫和語言在理論上很簡單,但這將是一個荊棘床。
  • 一旦你瞭解了這些工具,就可以找到一些實際的應用程式並投入使用。它將付出痛苦和棄絕、迷失的夜晚和各種詛咒的代價。你經常會想放手,不要。
  • 一旦您解決了一些實際問題,您將準備好在使用大資料的工作世界中面對自己。顯然你會非常初級,一開始會非常困難。如果您沒有明確的行業工作路徑,請使用您的案例研究來介紹自己。