這9個鮮為人知的Python庫，你用過幾個？

AMiner學術頭條發表於2019-03-12

原文網址 : http://www.jiqizhixin.com/articles/2019-03-12-5

我們曾為大家分享過12種Python 機器學習 & 資料探勘工具包（附連結）

今天會為大家介紹9個鮮為人知的Python庫（排名不分先後）

Wget
Pendulum
imbalanced-learn
FlashText
Fuzzywuzzy
PyFlux
Ipyvolume
Dash
Gym

01 Wget

網址：https://pypi.org/project/wget/

Wget是一個免費的實用程式，用於從Web上非互動式下載檔案。它支援HTTP，HTTPS和FTP協議，以及通過HTTP代理進行檢索。由於它是非互動式的，即使使用者沒有登入也可以在後臺執行。因此，下次你想要從網頁下載所有影像時，wget可以幫助你。

這9個鮮為人知的Python庫，你用過幾個？

安裝

$ pip install wget

示例：

import wget
url = 'http://www.futurecrew.com/skaven/song_files/mp3/razorback.mp3'

filename = wget.download(url)
100% [................................................] 3841532 / 3841532

filename 'razorback.mp3'

02 Pendulum

網址：https://github.com/sdispater/pendulum

它是一個Python包，可以簡化日期操作。它是Python本機類的直接替代品。

這9個鮮為人知的Python庫，你用過幾個？

安裝：

$ pip install pendulum

示例：

import pendulum

dt_toronto = pendulum.datetime(2012, 1, 1, tz='America/Toronto')
dt_vancouver = pendulum.datetime(2012, 1, 1, tz='America/Vancouver')

print(dt_vancouver.diff(dt_toronto).in_hours())

3

03 imbalanced-learn

網址：https://github.com/scikit-learn-contrib/imbalanced-learn

可以看出，當每個類中的樣本數幾乎相同（即平衡）時，大多數分類演算法效果最好。但是，現實生活中的案例中充滿了不平衡的資料集，這些資料集可能會影響學習階段和機器學習演算法的後續預測。幸運的是，已建立此庫解決該問題。它與scikit-learn相容，是scikit-learn-contrib專案的一部分。下次遇到不平衡資料集時可嘗試一下。

這9個鮮為人知的Python庫，你用過幾個？

安裝：

pip install -U imbalanced-learn

# or

conda install -c conda-forge imbalanced-learn

04 FlashText

網址：https://github.com/vi3k6i5/flashtext

在NLP任務期間清理文字資料通常需要替換句子中的關鍵詞或從句子中提取關鍵詞。通常，這種操作可以用正規表示式完成，但如果要搜尋的術語數量達到數千，則可能變得很麻煩。Python的FlashText模組基於FlashText演算法，為這種情況提供了一種合適的替代方案。FlashText的最佳部分是執行時是相同的，而與搜尋項的數量無關。

這9個鮮為人知的Python庫，你用過幾個？

安裝：

$ pip install flashtext

示例：

from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()

# keyword_processor.add_keyword(<unclean name>, <standardised name>)

keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('Bay Area')
keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')

keywords_found
['New York', 'Bay Area']

05 Fuzzywuzzy

網址：https://github.com/seatgeek/fuzzywuzzy

這個名字聽起來很奇怪，但是當涉及字串匹配時，fuzzywuzzy是一個非常有用的庫。可以輕鬆實現字串比較比率等操作，還可以方便地匹配儲存在不同資料庫中的記錄。

這9個鮮為人知的Python庫，你用過幾個？

安裝：

$ pip install fuzzywuzzy

示例：

from fuzzywuzzy import fuzz
from fuzzywuzzy import process

# Simple Ratio

fuzz.ratio("this is a test", "this is a test!")
97

# Partial Ratio
fuzz.partial_ratio("this is a test", "this is a test!")
 100

06 PyFlux

網址：https://github.com/RJT1990/pyflux

時間序列分析是機器學習領域中最常遇到的問題之一。PyFlux是Python中的一個開源庫，專門用於處理時間序列問題。該庫擁有一系列優秀的現代時間序列模型，包括但不限於ARIMA、GARCH和VAR模型。簡而言之，PyFlux提供了一種時間序列建模的概率方法，值得一試。

這9個鮮為人知的Python庫，你用過幾個？

安裝：

pip install pyflux

07 Ipyvolume

網址：https://github.com/maartenbreddels/ipyvolume

溝通結果是資料科學的一個重要方面。能夠視覺化結果具有顯著的優勢。IPyvolume是一個Python庫，用於在Jupyter筆記本中視覺化3d體積和字形（例如3d散點圖），只需最少的配置和精力。但是，它目前處於1.0之前的階段。一個很好的比喻是這樣的：IPyvolume的volshow是3d陣列matplotlib的imshow是2d陣列。

這9個鮮為人知的Python庫，你用過幾個？

安裝：

Using pip $ pip install ipyvolume

Conda/Anaconda $ conda install -c conda-forge ipyvolume

08 Dash

網址：https://github.com/plotly/dash

Dash是一個用於構建Web應用程式的高效Python框架。它寫在Flask，Plotly.js和React.js之上，並將現有UI元素（如下拉選單，滑塊和圖形）與您的分析Python程式碼聯絡起來，而無需使用javascript。Dash非常適合構建資料視覺化應用程式。然後，可以在Web瀏覽器中呈現這些應用程式。

這9個鮮為人知的Python庫，你用過幾個？

安裝：

pip install dash==0.29.0  # The core dash backend
pip install dash-html-components==0.13.2  # HTML components
pip install dash-core-components==0.36.0  # Supercharged components
pip install dash-table==3.1.3  # Interactive DataTable component (new!)

09 Gym

網址：https://github.com/openai/gym

OpenAI的 Gym 是一個用於開發和比較強化學習演算法的工具包。它與任何數值計算庫相容，如TensorFlow或Theano。The gym library必然是測試問題的集合，也稱為環境 - 您可以使用它來計算強化學習演算法，這些環境具有共享介面，允許您編寫通用演算法。

這9個鮮為人知的Python庫，你用過幾個？

安裝：

pip install gym

如果各位有推薦的Python庫，也可以留言分享給我們。

資訊來源：Medium

相關文章

11 個鮮為人知卻超實用的 Linux 命令！
2019-01-08
Linux
常用的Python機器學習庫合集，你用過幾個?
2023-11-03
Python機器學習
這幾個python常用的庫你必須知道！
2020-08-26
Python
Python機器學習常用庫，你用過哪幾個?
2021-03-31
Python機器學習
5個鮮為人知Java集合特性
2024-04-13
Java
[譯] 鮮為人知的資料科學 Python 庫
2018-12-05
資料科學Python
鮮為人知的 Python 語法
2018-08-03
Python
推薦六個鮮為人知的 Composer 命令
2019-09-02
十個鮮為人知的Linux命令 - Part 5
2022-11-26
Linux
8個最高效的Python爬蟲框架，你用過幾個？
2018-07-14
Python爬蟲框架
這些鮮為人知的前端冷知識，你都GET了嗎？
2020-12-02
前端
目前最受歡迎的12個Python web框架，你用過幾個？
2018-12-17
PythonWeb框架
SQL Server 2012鮮為人知的兩個功能MO
2022-03-21
SQLServer
Python：鮮為人知的功能特性（下）
2019-03-03
Python
有趣且鮮為人知的 Python “特性”
2018-12-05
Python
Python：鮮為人知的功能特性（上）
2019-03-01
Python
鮮為人知的python位運算
2021-09-11
Python
一份鮮為人知的Python特性
2018-12-04
Python
這些強大的辦公軟體你用過幾個
2019-07-10
Python機器學習庫，看看你用過幾個?
2023-04-21
Python機器學習
5 個鮮為人知 GNU 偵錯程式（GDB）技巧
2019-12-05
這9個單例被破壞的事故現場，你遇到過幾個? 評論區見
2021-10-26
單例
（騷操作）Laravel 中一個鮮為人知的雞肋功能
2019-01-23
Laravel
鮮為人知的JavaScript功能
2018-12-15
JavaScript
因為你這個人，我選擇了這個公司
2018-06-25
面試中的這些坑，你踩過幾個？
2018-09-10
面試
12個超好用的IntelliJ IDEA 外掛！你用過幾個？
2019-08-20
IntelliJIdea
這些成功的人工智慧應用，你見過哪幾個？
2019-07-05
人工智慧
中老年人群鮮為人知的六個性行為統計資料
2022-06-05
這些Java8官方挖過的坑，你踩過幾個？
2020-06-01
Java
鮮為人知的 PostgreSQL 特性 - hakibenita
2021-11-10
SQL
Python程式設計必備5大工具，你用過幾個?
2020-06-11
Python程式設計
python的五個特點，你知道幾個?
2022-04-12
Python
這幾個好用的Python開源框架，你都知道嗎?
2019-12-19
Python框架
榮耀9隱藏的3個功能你知道幾個？
2018-05-03
十大Python機器學習常用庫python開發，你用過你個？
2018-05-05
Python機器學習
警惕！Python 中少為人知的 10 個安全陷阱！
2022-02-14
Python
這些Git事故災難, 你經歷過幾個?
2024-04-17
Git