你與資料科學家只差這26條python技巧
作者:Peter Gleeson
來源:Python資料科學
編譯:wLsq
Python是目前世界上最流行的程式語言之一。因為:
1.它容易學習
2.它用途超廣
3.它有非常多的開源支援(大量的模組和庫)
作者 Peter Gleeson 是一名資料科學家,日常工作幾乎離不python。一路走來,他積累了不少有用的技巧和tips,現在就將這些技巧分享給大家。這些技巧將根據其首字母按A-Z的順序進行展示。
ALL OR ANY
Python之所以成為這麼一門受歡迎的語言一個原因是它的可讀性和表達能力非常強。Python也因此經常被調侃為“可執行的虛擬碼”。不信你看:
x = [True, True, False]
if any(x):
print("At least one True")
if all(x):
print("Not one False")
if any(x) and not all(x):
print("At least one True and one False")
BASHPLOTIB
你想要在控制檯繪圖嘛?
$ pip install bashplotlib
現在,你的控制檯中就可以有圖了
COLLECTIONS
Python有一些很棒的預設資料型別,但是有時候他們並不會像你所希望的那樣發揮作用。
幸運的是,Python 標準庫提供了collection模組。它讓你可以使用更為多樣資料型別。
from collections import OrderedDict, Counter
# Remembers the order the keys are added!
x = OrderedDict(a=1, b=2, c=3)
# Counts the frequency of each character
y = Counter("Hello World!")
DIR
面對一個Python物件,你是否曾想過可以直接看到其屬性?你也許可以試試以下的程式碼:
>>> dir()
>>> dir("Hello World")
>>> dir(dir)
這是執行Python的時候一個非常有用的功能,用於動態探索你所使用的物件和模組。更多詳情,可以檢視這裡:
EMOGI
對的,你沒看錯!
$ pip install emoji
用python來建立表情包,你也可以。
from emoji import emojize
print(emojize(":thumbs_up:"))
FROM_GUTURE_IMPORT
Python非常受歡迎,這也就導致了它的版本更新非常快,新的版本往往會有很多新特性。你不更新,就無法使用。
然而,不要害怕。__future__ 模組可以讓你匯入未來版本的功能。有點像時空穿梭有木有!
from __future__ import print_function
print("Hello World!")
GEOPY
對於程式猿來說地理可能是一個非常有挑戰性的領域。但是,geopy模組則讓它變得非常簡單。
$ pip install geopy
它透過提取一系列不同地理編碼服務的api來工作,讓你能夠獲得一個地方的完整街道地址、緯度、經度,甚至海拔。
這裡面同時還包含一個有用的“距離”類別。它能使用你選定的度量去計算了兩個地點之間的距離。
from geopy import GoogleV3
place = "221b Baker Street, London"
location = GoogleV3().geocode(place)
print(location.address)
print(location.location)
HOWDOI
有時候你碰到了一個程式設計問題,覺得自己之前明明見過它的解決方法,但是卻記不起來具體是怎麼樣的了。於是你想要去StackOverflow上找,但又不想離開這個終端。這個時候,你需要下面這個工具——howdoi
$ pip install howdoi
你所遇到的任何問題都可以問它,它會盡他所能給你返回一個答案。
$ howdoi vertical align css
$ howdoi for loop in java
$ howdoi undo commits in git
需要注意的是——它只從StackOverflow最頂端的答案中抓取程式碼。所以它給你返回的不總是最有用的資訊...
$ howdoi exit vim
INSPECT
Python的inspect模組用於收集Python物件的資訊,可以獲取類或函式的引數的資訊,原始碼,解析堆疊等等
下方的程式碼樣例使用了 inspect.getsource() 來列印它自身的原始碼。同樣還使用了 inspect.getmodule()來列印定義了inspect.getmodule()的模組。最後一行程式碼則是列印了本行程式碼所在的行號。在本例中,就是 4 。
import inspect
print(inspect.getsource(inspect.getsource))
print(inspect.getmodule(inspect.getmodule))
print(inspect.currentframe().f_lineno)
inspect模組可以有效地讓你知道你的程式碼是如何工作的,你也可以利用它來完成一些個人的原始碼。
JEDI
Jedi庫是一個程式碼自動補齊和靜態分析的庫。它可以使你更快更高效地書寫程式碼。
除非你在開發自己的編輯器,否則你可能會非常喜歡將Jedi作為自己的編輯外掛。
你可能已經正在使用Jedi而只是沒發現。IPython專案就是利用Jedi來實現其自動補全功能。
**KWARGS
無論你學習那種語言,在這條學習之路上總有那麼一些里程碑。在Python的程式設計學習中,理解神秘的**kwargs語法應該算是一個重要的里程碑。
雙星“**”放在字典的前面可以讓你將字典的內容作為命名引數傳遞給函式。字典的鍵是引數的名字,鍵的值作為引數的值傳遞給函式。如下所示:
dictionary = {"a": 1, "b": 2}
def someFunction(a, b):
print(a + b)
return
# these do the same thing:
someFunction(**dictionary)
someFunction(a=1, b=2)
當你想要建立一個函式,它需要能處理事先沒有定義過的引數,那麼就要用到前面提到的技巧了。
LIST COMPREHENSIONS
List comprehensions(列表推導式)
列表推導式可以說是我最喜歡的Python技巧之一。這種表示式可以讓你寫出像自然語言一樣易於理解並且還很簡潔的程式碼。
你可以透過這個連結瞭解更多關於列表推導式的用法。地址:
numbers = [1,2,3,4,5,6,7]
evens = [x for x in numbers if x % 2 is 0]
odds = [y for y in numbers if y not in evens]
cities = ['London', 'Dublin', 'Oslo']
def visit(city):
print("Welcome to "+city)
for city in cities:
visit(city)
MAP
Python有許多非常有用的內建函式。其中一個就是map()——特別是和lambda函式相結合的時候。
x = [1, 2, 3]
y = map(lambda x : x + 1 , x)
# prints out [2,3,4]
print(list(y))
在這個例子中,map()對x中的每一個元素都應用了一個簡單的lambda函式。它會返回一個map物件,這個物件可以被轉化成可迭代物件,如列表或者元組。
NEWSPAPER3K
newspaper3k,如果你還沒有見過它,那麼你可能會被這個Python newspaper模組所驚豔到。
它可以讓你檢索到一系列國際領先出版物中的新聞和相關的後設資料。你可以檢索圖片、文字和作者名。它甚至有一些內建的自然語言處理功能。所以,如果你正在考慮使用BeautifulSoup 或其他自制的爬蟲庫來應用於你的下一個專案。那麼,省省時間和精力吧,你其實只需要$ pip install newspaper3k。
OPERATOR OVERLOADING(運算子過載)
Python支援運算子過載。“運算子過載”其實是個簡單的概念,你是否曾經想過為什麼Python可以讓你使用“+”運算子來同時實現加法和連線字串?這就是運算子過載在發揮作用。
你可以定義使用Python標準運算子符號的物件,這可以讓你在特定的環境中使用特定的物件,就像下方的例子一樣。
class Thing:
def __init__(self, value):
self.__value = value
def __gt__(self, other):
return self.__value > other.__value
def __lt__(self, other):
return self.__value < other.__value
something = Thing(100)
nothing = Thing(0)
# True
something > nothing
# False
something < nothing
# Error
something + nothing
PPRINT
Python的預設print函式可以滿足日常的輸出任務,但如果要列印更大的、巢狀式的物件,那麼使用預設的print函式列印出來的內容會很醜陋。
這個時候我們就需要pprint了,它可以讓複雜的結構型物件以可讀性更強的格式顯示。這對於經常要面對非普通資料結構的Python開發者來說是必不可少的工具。
import requests
import pprint
url = '
users = requests.get(url).json()
pprint.pprint(users)
QUEUE(佇列)
Python支援多執行緒,它是透過標準庫中的Queue模組來實現的。這個模組可以讓你實現佇列資料結構。這種資料結構可以讓你根據特定的規則新增和檢索條目。
“先進先出”(FIFO)佇列可以讓你按照新增物件的順序來檢索他們。“後進先出”(LIFO)佇列可以讓你首先訪問最近新增的物件。最後,優先佇列可以讓你根據他們排序的順序進行檢索。
_REPR_
當你定義一個類的時候,提供一個方法可以返回用來表示該類物件的可列印字串會非常有用。例如:
>>> file = open('file.txt', 'r')
>>> print(file)
<open file 'file.txt', mode 'r' at 0x10d30aaf0>
這使得debug更加方便,具體的定義方式如下:
class someClass:
def __repr__(self):
return "<some description here>"
someInstance = someClass()
# prints <some description here>
print(someInstance)
SH
sh庫讓你像呼叫方法那樣呼叫系統中的命令。
import sh
sh.pwd()
sh.mkdir('new_folder')
sh.touch('new_file.txt')
sh.whoami()
sh.echo('This is great!')
TYPE HINT(型別提示)
Python是一種動態型別語言。當你定義變數、函式、類別的時候,你不需要指定資料的型別。這可以大大提升你的開發速度,但也是有代價的。你可能會因為一個簡單的輸入問題而導致執行出錯。
在Python3.5之後,這就不是問題了,在定義函式的時候你可以自主選擇要不要提供型別提示。
def addTwo(x : Int) -> Int:
return x + 2
你還可以定義型別的別名:
from typing import List
Vector = List[float]
Matrix = List[Vector]
def addMatrix(a : Matrix, b : Matrix) -> Matrix:
result = []
for i,row in enumerate(a):
result_row =[]
for j, col in enumerate(row):
result_row += [a[i][j] + b[i][j]]
result += [result_row]
return result
x = [[1.0, 0.0], [0.0, 1.0]]
y = [[2.0, 1.0], [0.0, -2.0]]
z = addMatrix(x, y)
雖然不是強制性的,型別註釋可以讓你的程式碼理解起來更加簡單。它們也允許你使用型別檢測工具在執行之前捕獲這些零散的型別錯誤。如果你正在從事大型、複雜的專案,那麼型別註釋也許會非常有幫助
UUID
透過Python標準庫中的uuid模組,可以快速並簡單地生成統一的唯一ID(又稱UUID).
import uuid
user_id = uuid.uuid4()
print(user_id)
UUID是128位的全域性唯一識別符號,通常由32位元組的字串表示。它可以保證時間和空間的唯一性,也稱為GUID,全稱為:UUID —— Universally Unique IDentifier,Python 中叫 UUID。它透過MAC地址、時間戳、名稱空間、隨機數、偽隨機數來保證生成ID的唯一性。
VRITUAL ENVIRONMENTS
這可能是我最喜歡的Python技巧了。你可能經常要處理不止一個Python專案,不幸的是,有時候不同專案會依賴不同的Python版本。這個時候,你應該在系統裡安裝哪個Python版本呢?
幸運的是,Python可以支援建立不同的虛擬環境來滿足不同的版本需求。
python -m venv my-project
source my-project/bin/activate
pip install all-the-modules
現在你可以在一臺機器上安裝和執行各個獨立版本的Python。太棒了!
WIKIPEDIA
Wikipedia有一個很棒的API,它可以讓使用者透過程式設計訪問到維基的詞條內容。使用Python中的wikipedia模組可以讓你以最便捷的方式訪問該API。
import wikipedia
result = wikipedia.page('freeCodeCamp')
print(result.summary)
for link in result.links:
print(link)
與真實站點一樣,該模組支援多種語言、頁面消除歧義、隨機頁面檢索,甚至還有donate()方法。
YAML
YAML是“YAML不是一種標記語言”的外語縮寫。它是一個資料格式語言,是JSON的父集。和JSON不同的是,它可以儲存更復雜的物件,並且可以引用自身的元素。你還可以寫註釋,這讓YAML特別適合於書寫配置檔案。
PyYAML模組可以讓你使用Python呼叫YAML。使用下列語句安裝:
$ pip install pyyaml
然後匯入到專案中:
import yaml
PyYAML 使你能夠儲存任何資料型別的Python物件,以及任何使用者定義類的例項。
ZIP
最後一個技巧也非常酷。你是否曾想要讓兩個列表中的元素逐個對映,組合成字典?那麼你應該使用zip。
keys = ['a', 'b', 'c']
vals = [1, 2, 3]
zipped = dict(zip(keys, vals))
內建函式zip()接收若干可迭代物件,然後返回一個由多個元組組成的列表。每個元組根據輸入物件的位置索引對其元素進行分組。還可以使用*zip()來“解壓”物件。
python大法好,掌握這些小的技巧,助你在python大神的道路上,披荊斬棘,所向披靡。
原文連結:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31555699/viewspace-2629929/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料科學家的命令列技巧資料科學命令列
- 這七家BAT公司,誰家資料科學家更多BAT資料科學
- Python資料科學(三) python與資料科學應用(Ⅲ)Python資料科學
- Python資料科學(二) python與資料科學應用(Ⅱ)Python資料科學
- Python資料科學(一) python與資料科學應用(Ⅰ)Python資料科學
- 資料科學的原理與技巧 一、資料科學的生命週期資料科學
- 資料科學的原理與技巧二、資料生成資料科學
- 【資料科學家】如何成為一名資料科學家?資料科學
- Web開發與資料科學家:誰在統治Python世界?Web資料科學Python
- Python機器學習 5個資料科學家案例解析Python機器學習資料科學
- 噓!這有幾條沒人會告訴你的資料科學求職祕密資料科學求職
- 美國資深資料科學家暢聊:資料分析與北美電商資料科學
- 人的資料科學與機器資料科學資料科學
- 機器學習工程師與資料科學家的大斗法機器學習工程師資料科學
- TikTok機器學習與資料科學家的面試題 - Reddit機器學習資料科學面試題
- Python或將成資料科學家首選語言Python資料科學
- 這一年來,資料科學家都用哪些演算法?資料科學演算法
- 資料科學與Python(習題彙總)資料科學Python
- 業界 | 資料科學家“恐怖故事”資料科學
- 公民資料科學家的侷限性資料科學
- 資料科學家面試如何準備?資料科學面試
- 資料科學家準則(轉載)資料科學
- Python資料科學(八)- 資料探索與資料視覺化Python資料科學視覺化
- 資深專家分享:從numpy開啟Python資料科學之旅!Python資料科學
- 資料科學大Battle,你站Python還是R資料科學BATPython
- 關於資料科學家,我們應該知道的這些事資料科學
- (資料科學學習手札91)在Python中妥善使用進度條資料科學Python
- Python資料科學(七) 資料清理(Ⅱ)Python資料科學
- Python資料科學(六) 資料清理(Ⅰ)Python資料科學
- 資料科學家需要的基礎技能資料科學
- 資料科學家最需要什麼技能?資料科學
- 如何成為資料科學家? - kdnuggets資料科學
- 什麼是全棧資料科學家?全棧資料科學
- 資料科學家的15項原則資料科學
- IT屌絲如何成為資料科學家?資料科學
- 《Python入門與資料科學庫》學習筆記Python資料科學筆記
- 大資料與生命科學大資料
- 資料科學家與機器學習工程師的區別? - kdnuggets資料科學機器學習工程師