[譯] 鮮為人知的資料科學 Python 庫

leeyang-tju發表於2018-12-05

原文網址 : https://flycode.co/archives/54119

原文地址：Lesser Known Python Libraries for Data Science

原文作者：Parul Pandey

譯文出自：掘金翻譯計劃

本文永久連結：github.com/xitu/gold-m…

譯者：haiyang-tju

校對者：TrWestdoor

PC：Hitesh Choudhary 來自於 Unsplash

Python 是一個很棒的語言。它是世界上發展最快的程式語言之一。它一次又一次地證明了在開發人員職位中和跨行業的資料科學職位中的實用性。整個 Python 及其庫的生態系統使它成為全世界使用者（初學者和高階使用者）的合適選擇。它的成功和流行的原因之一是它強大的第三方庫的集合，這些庫使它可以保持活力和高效。

在本文中，我們會研究一些用於資料科學任務的 Python 庫，而不是常見的比如 panda、scikit-learn 和 matplotlib 等的庫。儘管像 panda 和 scikit-learn 這樣的庫，是在機器學習任務中經常出現的，但是瞭解這個領域中的其它 Python 產品總是很有好處的。

Wget

從網路上提取資料是資料科學家的重要任務之一。Wget 是一個免費的實用程式，可以用於從網路上下載非互動式的檔案。它支援 HTTP、HTTPS 和 FTP 協議，以及通過 HTTP 的代理進行檔案檢索。由於它是非互動式的，即使使用者沒有登入，它也可以在後臺工作。所以下次當你想要下載一個網站或者一個頁面上的所有圖片時，wget 可以幫助你。

安裝：

$ pip install wget
複製程式碼

例子：

import wget
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)
100% [................................................] 3841532 / 3841532

filename
'razorback.mp3'
複製程式碼

Pendulum

對於那些在 python 中處理日期時間時會感到沮喪的人來說，Pendulum 很適合你。它是一個簡化日期時間操作的 Python 包。它是 Python 原生類的簡易替代。請參閱文件深入學習。

安裝：

$ pip install pendulum
複製程式碼

例子：

import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')

print(dt_vancouver.diff(dt_toronto).in_hours())

3
複製程式碼

結果展示也是資料科學中的一個重要方面。能夠將結果進行視覺化將具有很大優勢。IPyvolume 是一個可以在 Jupyter notebook 中視覺化三維體和圖形（例如三維散點圖等）的 Python 庫，並且只需要少量配置。但它目前還是 1.0 之前的版本階段。用一個比較恰當的比喻來解釋就是：IPyvolume 的 volshow 對於三維陣列就像 matplotlib 的 imshow 對於二維陣列一樣好用。可以在這裡獲取更多。

使用 pip
$ pip install ipyvolume

使用 Conda/Anaconda
$ conda install -c conda-forge ipyvolume
複製程式碼

例子

動畫

體繪製

Dash

Dash 是一個高效的用於構建 web 應用程式的 Python 框架。它是在 Flask、Plotly.js 和 React.js 基礎上設計而成的，繫結了很多比如下拉框、滑動條和圖表的現代 UI 元素，你可以直接使用 Python 程式碼來寫相關分析，而無需再使用 javascript。Dash 非常適合構建資料視覺化應用程式。然後，這些應用程式可以在 web 瀏覽器中呈現。使用者指南可以在這裡獲取。

安裝

pip install dash==0.29.0  # 核心 dash 後端
pip install dash-html-components==0.13.2  # HTML 元件
pip install dash-core-components==0.36.0  # 增強元件
pip install dash-table==3.1.3  # 互動式 DataTable 元件（最新！）
複製程式碼

例子

下面的例子展示了一個具有下拉功能的高度互動式圖表。當使用者在下拉選單中選擇一個值時，應用程式程式碼將動態地將資料從 Google Finance 匯出到 panda DataFrame。原始碼在這裡

Gym

OpenAI 的 Gym 是一款用於增強學習演算法的開發和比較工具包。它相容任何數值計算庫，如 TensorFlow 或 Theano。Gym 庫是測試問題集合的必備工具，這個集合也稱為環境 —— 你可以用它來開發你的強化學習演算法。這些環境有一個共享介面，允許你進行通用演算法的編寫。

安裝

pip install gym
複製程式碼

例子

這個例子會執行 CartPole-v0 環境中的一個例項，它的時間步數為 1000，每一步都會渲染整個場景。

你可以在這裡獲取其它環境的相關資料。

總結

以上這些有用的資料科學 Python 庫都是我精心挑選出來的，不是常見的如 numpy 和 pandas 等庫。如果你知道其它庫，可以新增到列表中來，請在下面的評論中提一下。另外別忘了先嚐試執行一下它們。

如果發現譯文存在錯誤或其他需要改進的地方，歡迎到掘金翻譯計劃對譯文進行修改並 PR，也可獲得相應獎勵積分。文章開頭的 本文永久連結 即為本文在 GitHub 上的 MarkDown 連結。

掘金翻譯計劃是一個翻譯優質網際網路技術文章的社群，文章來源為掘金上的英文分享文章。內容覆蓋 Android、iOS、前端、後端、區塊鏈、產品、設計、人工智慧等領域，想要檢視更多優質譯文請持續關注掘金翻譯計劃、官方微博、知乎專欄。

鮮為人知的 Python 語法
2018-08-03
Python
Python：鮮為人知的功能特性（下）
2019-03-03
Python
有趣且鮮為人知的 Python “特性”
2018-12-05
Python
Python：鮮為人知的功能特性（上）
2019-03-01
Python
鮮為人知的python位運算
2021-09-11
Python
一份鮮為人知的Python特性
2018-12-04
Python
這9個鮮為人知的Python庫，你用過幾個？
2019-03-12
Python
鮮為人知的JavaScript功能
2018-12-15
JavaScript
鮮為人知的 PostgreSQL 特性 - hakibenita
2021-11-10
SQL
中老年人群鮮為人知的六個性行為統計資料
2022-06-05
盤點5個常用的Python資料科學庫！
2022-09-30
Python資料科學
3 個用於資料科學的頂級 Python 庫
2018-10-04
資料科學Python
Python中非常有用的三個資料科學庫
2021-08-25
Python資料科學
《Python入門與資料科學庫》學習筆記
2021-02-12
Python資料科學筆記
5個鮮為人知Java集合特性
2024-04-13
Java
推薦六個鮮為人知的 Composer 命令
2019-09-02
十個鮮為人知的Linux命令 - Part 5
2022-11-26
Linux
（資料科學學習手札137）orjson：Python中最好用的json庫
2022-06-05
資料科學JSONPython
鮮為人知的軟體專案管理原則
2019-04-01
專案管理
SQL Server 2012鮮為人知的兩個功能MO
2022-03-21
SQLServer
Python 資料科學之 Pandas
2020-03-16
Python資料科學
【Python資料科學】之Numpy
2019-04-29
Python資料科學
鑄博皇御：鮮為人知的現貨黃金投資策略
2022-01-06
常用構建資料科學應用程式的七個Python庫
2021-05-10
資料科學Python
[譯] 初創公司的資料科學：簡介
2019-03-04
資料科學
【資料科學家】如何成為一名資料科學家？
2018-05-05
資料科學
[譯] 資料科學領域十大必知機器學習演算法
2019-02-25
資料科學機器學習演算法
11 個鮮為人知卻超實用的 Linux 命令！
2019-01-08
Linux
那些功能逆天，卻鮮為人知的pandas騷操作
2020-04-16
這些鮮為人知的前端冷知識，你都GET了嗎？
2020-12-02
前端
python應用資料科學的優勢
2021-09-11
Python資料科學
2018年，20大Python資料科學庫都做了哪些更新？
2018-07-16
Python資料科學
用 Python 入門資料科學
2019-09-30
Python資料科學
任天堂鮮為人知的產品哲學：創意比技術更重要
2020-06-10
為什麼Python是資料科學領域的首選語言?Python入門學習
2021-08-23
Python資料科學
資料工程師、掌握資料分析，成為資料科學家、資料庫遷移專家
2022-03-20
工程師資料科學資料庫
（資料科學學習手札135）tenacity：Python中最強大的錯誤重試庫
2022-03-25
資料科學Python
有哪些鮮為人知，但是很有意思的網站？
2019-01-15
網站

[譯] 鮮為人知的資料科學 Python 庫

Wget

安裝：

例子：

Pendulum

安裝：

例子：

imbalanced-learn

安裝：

例子：

FlashText

安裝：

例子：

Fuzzywuzzy

安裝：

例子：

PyFlux

安裝

例子

Ipyvolume

例子

Dash

安裝

例子

Gym

安裝

總結

相關文章