Python 庫這非常的實用
Python 是一個很棒的語言。它是世界上發展最快的程式語言之一。它一次又一次地證明了在開發人員職位中和跨行業的資料科學職位中的實用性。整個 Python 及其庫的生態系統使它成為全世界使用者(初學者和高階使用者)的合適選擇。它的成功和流行的原因之一是它強大的第三方庫的集合,這些庫使它可以保持活力和高效。
在本文中,我們會研究一些用於資料科學任務的 Python 庫,而不是常見的比如 panda、scikit-learn 和 matplotlib 等的庫。儘管像 panda 和 scikit-learn 這樣的庫,是在機器學習任務中經常出現的,但是瞭解這個領域中的其它 Python 產品總是很有好處的。
Wget
從網路上提取資料是資料科學家的重要任務之一。Wget 是一個免費的實用程式,可以用於從網路上下載非互動式的檔案。它支援 HTTP、HTTPS 和 FTP 協議,以及通過 HTTP 的代理進行檔案檢索。由於它是非互動式的,即使使用者沒有登入,它也可以在後臺工作。所以下次當你想要下載一個網站或者一個頁面上的所有圖片時,wget 可以幫助你。安裝:
$ pip install wget
例子:
import wgeturl = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'filename = wget.download(url)100% [................................................] 3841532 / 3841532filename'razorback.mp3'### Pendulum
對於那些在 python 中處理日期時間時會感到沮喪的人來說,Pendulum 很適合你。它是一個簡化日期時間操作的 Python 包。它是 Python 原生類的簡易替代。請參閱文件深入學習。
安裝:
$ pip install pendulum
例子:
import pendulumdt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')print(dt_vancouver.diff(dt_toronto).in_hours())3
imbalanced-learn
可以看出,當每個類的樣本數量基本相同時,大多數分類演算法的效果是最好的,即需要保持資料平衡。但現實案例中大多是不平衡的資料集,這些資料集對機器學習演算法的學習階段和後續預測都有很大影響。幸運的是,這個庫就是用來解決此問題的。它與 scikit-learn 相容,是 scikit-lear-contrib 專案的一部分。下次當你遇到不平衡的資料集時,請嘗試使用它。
安裝:
pip install -U imbalanced-learn# 或者conda install -c conda-forge imbalanced-learn
例子:
使用方法和例子請參考文件。
FlashText
在 NLP 任務中,清理文字資料往往需要替換句子中的關鍵字或從句子中提取關鍵字。通常,這種操作可以使用正規表示式來完成,但是如果要搜尋的術語數量達到數千個,這就會變得很麻煩。Python 的 FlashText 模組是基於 FlashText 演算法為這種情況提供了一個合適的替代方案。FlashText 最棒的一點是,不管搜尋詞的數量如何,執行時間都是相同的。你可以在這裡瞭解更多內容。
安裝:
$ pip install flashtext
例子:
提取關鍵字
from flashtext import KeywordProcessorkeyword_processor = KeywordProcessor()# keyword_processor.add_keyword(<unclean name>, <standardised name>)keyword_processor.add_keyword('Big Apple', 'New York')keyword_processor.add_keyword('Bay Area')keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')keywords_found['New York', 'Bay Area']
替換關鍵字
keyword_processor.add_keyword('New Delhi', 'NCR region')new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')new_sentence'I love New York and NCR region.'Fuzzywuzzy
這個庫的名字聽起來很奇怪,但是在字串匹配方面,fuzzywuzzy 是一個非常有用的庫。可以很方便地實現計算字串匹配度、令牌匹配度等操作,也可以很方便地匹配儲存在不同資料庫中的記錄。
安裝:
$ pip install fuzzywuzzy
例子:
from fuzzywuzzy import fuzzfrom fuzzywuzzy import process# 簡單匹配度fuzz.ratio("this is a test", "this is a test!")97# 模糊匹配度fuzz.partial_ratio("this is a test", "this is a test!") 100
更多有趣例子可以在 GitHub 倉庫找到。
PyFlux
時間序列分析是機器學習領域中最常見的問題之一。PyFlux 是 Python 中的一個開源庫,它是為處理時間序列問題而構建的。該庫擁有一系列優秀的現代時間序列模型,包括但不限於 ARIMA、GARCH 和 VAR 模型。簡而言之,PyFlux 為時間序列建模提供了一種概率方法。值得嘗試一下。
安裝
pip install pyflux
例子
詳細用法和例子請參考官方文件。
Ipyvolume
結果展示也是資料科學中的一個重要方面。能夠將結果進行視覺化將具有很大優勢。IPyvolume 是一個可以在 Jupyter notebook 中視覺化三維體和圖形(例如三維散點圖等)的 Python 庫,並且只需要少量配置。但它目前還是 1.0 之前的版本階段。用一個比較恰當的比喻來解釋就是:IPyvolume 的 volshow 對於三維陣列就像 matplotlib 的 imshow 對於二維陣列一樣好用。可以在這裡獲取更多。
使用 pip
$ pip install ipyvolume
使用 Conda/Anaconda
$ conda install -c conda-forge ipyvolume
例子
- 動畫
image
- 體繪製
image
Dash
Dash 是一個高效的用於構建 web 應用程式的 Python 框架。它是在 Flask、Plotly.js 和 React.js 基礎上設計而成的,繫結了很多比如下拉框、滑動條和圖表的現代 UI 元素,你可以直接使用 Python 程式碼來寫相關分析,而無需再使用 javascript。Dash 非常適合構建資料視覺化應用程式。然後,這些應用程式可以在 web 瀏覽器中呈現。使用者指南可以在這裡獲取。
安裝
pip install dash==0.29.0 # 核心 dash 後端pip install dash-html-components==0.13.2 # HTML 元件pip install dash-core-components==0.36.0 # 增強元件pip install dash-table==3.1.3 # 互動式 DataTable 元件(最新!)
例子下面的例子展示了一個具有下拉功能的高度互動式圖表。當使用者在下拉選單中選擇一個值時,應用程式程式碼將動態地將資料從 Google Finance 匯出到 panda DataFrame。
image
Gym
OpenAI 的 Gym 是一款用於增強學習演算法的開發和比較工具包。它相容任何數值計算庫,如 TensorFlow 或 Theano。Gym 庫是測試問題集合的必備工具,這個集合也稱為環境 —— 你可以用它來開發你的強化學習演算法。這些環境有一個共享介面,允許你進行通用演算法的編寫。
安裝
pip install gym
例子
這個例子會執行CartPole-v0
環境中的一個例項,它的時間步數為 1000,每一步都會渲染整個場景。
總結
以上這些有用的資料科學 Python 庫都是精心挑選出來的,不是常見的如 numpy 和 pandas 等庫。如果你知道其它庫,可以新增到列表中來,請在下面的評論中提一下。另外別忘了先嚐試執行一下它們。
相關文章
- 非常實用的15款開源PHP類庫PHP
- 分享6個Python程式設計非常實用的技巧!Python程式設計
- 即學即用的 30 段 Python 非常實用的程式碼Python
- pdf怎麼轉cad格式?這些方法非常實用
- 確實是非常實用的Ubuntu命令Ubuntu
- 非常實用的站點收錄
- 非常實用的Oracle資料庫資料恢復方法案例Oracle資料庫資料恢復
- 厲害啦!!這8個非常實用的小技巧,你肯定會用得上!
- 自媒體素材採集工具有哪些?這3個非常實用
- 12個非常實用的JavaScript小技巧JavaScript
- JavaScript開發者的工具箱 非常實用JavaScript
- 用python登入WeChat 實現自動回覆(非常詳細)Python
- 如果你在用flutter,千萬要記得這幾個小技巧,非常實用Flutter
- macos big sur新體驗:這17 個功能亮點非常實用Mac
- Python實用庫--PrettyTablePython
- XQRCode 一個非常方便實用的二維碼掃描、解析、生成庫
- 10個非常實用的程式設計技巧程式設計
- 非常實用的PHP程式碼片段推薦PHP
- 12 個非常實用的 jQuery 程式碼片段jQuery
- 10個*級且實用的python庫!Python
- pdf轉換成word,非常實用
- 分享8個非常實用的Vue自定義指令Vue
- Python中非常有用的三個資料科學庫Python資料科學
- 實用!7個強大的Python機器學習庫!⛵Python機器學習
- orjson,一個超實用的python庫JSONPython
- Python培訓教程分享:“高效實用” 的Python工具庫Python
- 入門Python神經機器翻譯,這是一篇非常精簡的實戰指南Python
- 利用php生成二維碼,非常實用PHP
- 一個非常實用的引流拓客方式!實體商家必看!
- 「實用」打造自我感覺非常漂亮的Mac終端Mac
- 分享5款非常實用的黑科技線上工具
- C#中檢查null的語法糖,非常實用C#Null
- win7中實用性非常強的快捷鍵Win7
- 四個 Python 庫,實現超實用的命令列功能Python命令列
- 怎樣用Python提取資訊呢?分享這3個Python PDF庫Python
- 使用Python這麼多年,竟然還有這些實用的功能和特點!Python
- 這9個鮮為人知的Python庫,你用過幾個?Python
- Win 7系統隱藏的兩個非常實用的功能