python基礎day4

菜鳥小於發表於2018-07-25

1.列表生成式,迭代器&生成器

列表生成式

將列表[0,1,2,3,4,5,6,7,8]中的每個值加1,如何實現?常用的幾種方法

方法一:

a=[0,1,2,3,4,5,6,7,8]
for i in a:
    a[i] +=1
    b=a
print(b)
a=[0,1,2,3,4,5,6,7,8]
b=[]
for i in a:b.append(i+1)
print(b)

方法二:

a=[0,1,2,3,4,5,6,7,8]
for index,i in enumerate(a):
    a[index] +=1
print(a)

方式三:

a=[0,1,2,3,4,5,6,7,8]
a = map(lambda x:x+1, a)
for i in a:print(i)

其實還有一種寫法,如下 

a=[i+1 for i in range(9)]
print(a)

這就是列表生成式.

生成器

通過列表生成式,我們可以直接建立一個列表。但是,受到記憶體限制,列表容量肯定是有限的。而且,建立一個包含100萬個元素的列表,不僅佔用很大的儲存空間,如果我們僅僅需要訪問前面幾個元素,那後面絕大多數元素佔用的空間都白白浪費了。

所以,如果列表元素可以按照某種演算法推算出來,那我們是否可以在迴圈的過程中不斷推算出後續的元素呢?這樣就不必建立完整的list,從而節省大量的空間。在Python中,這種一邊迴圈一邊計算的機制,稱為生成器:generator。

要建立一個generator,有很多種方法。第一種方法很簡單,只要把一個列表生成式的[]改成(),就建立了一個generator:

L = [x * x for x in range(9)]
print(L)#[0, 1, 4, 9, 16, 25, 36, 49, 64]
#generator
g = (x * x for x in range(9))
print(g)#<generator object <genexpr> at 0x0000020139A5DEB8>

建立Lg的區別僅在於最外層的[]()L是一個list,而g是一個generator。

我們可以直接列印出list的每一個元素,但我們怎麼列印出generator的每一個元素呢?

如果要一個一個列印出來,可以通過next()函式獲得generator的下一個返回值

>>> g = (x * x for x in range(9))
>>> g
<generator object <genexpr> at 0x000001FC6C48CFC0>
>>> next(g)
0
>>> next(g)
1
>>> next(g)
4
>>> next(g)
9
>>> next(g)
16
>>> next(g)
25
>>> next(g)
36
>>> next(g)
49
>>> next(g)
64
>>> next(g)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
StopIteration

我們講過,generator儲存的是演算法,每次呼叫next(g),就計算出g的下一個元素的值,直到計算到最後一個元素,沒有更多的元素時,丟擲StopIteration的錯誤。

當然,上面這種不斷呼叫next(g)實在是太噁心了,正確的方法是使用for迴圈,因為generator也是可迭代物件:

>>> g = (x * x for x in range(10))
>>> for n in g:
...     print(n)
...
0
1
4
9
16
25
36
49
64
81

所以,我們建立了一個generator後,基本上永遠不會呼叫next(),而是通過for迴圈來迭代它,並且不需要關心StopIteration的錯誤。

generator非常強大。如果推算的演算法比較複雜,用類似列表生成式的for迴圈無法實現的時候,還可以用函式來實現。

比如,著名的斐波拉契數列(Fibonacci),除第一個和第二個數外,任意一個數都可由前兩個數相加得到:

 1, 1, 2, 3, 5, 8, 13, 21, 34, …

斐波拉契數列用列表生成式寫不出來,但是,用函式把它列印出來卻很容易:

def fib(max):
    n,a,b = 0,0,1
    while n<max:
        print(b)
        a,b = b,a+b
        n=n+1
    return `-----done-------`

注意:賦值語句

 a,b = b,a+b

相當於:

t = (b, a + b) # t是一個tuple
a = t[0]
b = t[1]

但不必顯式寫出臨時變數t就可以賦值。

上面的函式可以輸出斐波那契數列的前N個數:

仔細觀察,可以看出,fib函式實際上是定義了斐波拉契數列的推算規則,可以從第一個元素開始,推算出後續任意的元素,這種邏輯其實非常類似generator。

也就是說,上面的函式和generator僅一步之遙。要把fib函式變成generator,只需要把print(b)改為yield b就可以了:

def fib(max):
    n,a,b = 0,0,1
    while n<max:
        #print(b)
        yield b#儲存函式的當前狀態
        a,b = b,a+b
        n=n+1
    return `-----done-------`

這就是定義generator的另一種方法。如果一個函式定義中包含yield關鍵字,那麼這個函式就不再是一個普通函式,而是一個generator:

f=fib(10)
print(f)#<generator object fib at 0x000001FCA88DDEB8>

這裡,最難理解的就是generator和函式的執行流程不一樣。函式是順序執行,遇到return語句或者最後一行函式語句就返回。而變成generator的函式,在每次呼叫next()的時候執行,遇到yield語句返回,再次執行時從上次返回的yield語句處繼續執行。

f=fib(10)
print(f)
print(f.__next__())
print(f.__next__())
print("=================")
print(f.__next__())
print(f.__next__())
print(f.__next__())
print(f.__next__())
print(f.__next__())
print(f.__next__())
print(f.__next__())
print(f.__next__())

#輸出
<generator object fib at 0x00000143D19ADEB8>
1
1
=================
2
3
5
8
13
21
34
55

View Code

在上面fib的例子,我們在迴圈過程中不斷呼叫yield,就會不斷中斷。當然要給迴圈設定一個條件來退出迴圈,不然就會產生一個無限數列出來。

同樣的,把函式改成generator後,我們基本上從來不會用next()來獲取下一個返回值,而是直接使用for迴圈來迭代:

for x in fib(10):
    print(x)

但是用for迴圈呼叫generator時,發現拿不到generator的return語句的返回值。如果想要拿到返回值,必須捕獲StopIteration錯誤,返回值包含在StopIterationvalue中:

while True:
    try:
        x = next(f)
        print(`f`,x)
    except StopIteration as e:
        print("Generation return value:",e.value)
        break

#輸出
f 1
f 1
f 2
f 3
f 5
f 8
f 13
f 21
f 34
f 55
Generation return value: -----done-------

View Code

還可通過yield實現在單執行緒的情況下實現併發運算的效果

# yu

import time

#單執行緒下的並行效果
def consumer(name):
    print(`%s 準備吃包子` %name)
    while True:
        baozi = yield
        print(`包子[%s]來了,被[%s]吃了` %(baozi,name))

c = consumer("Jon")
c.__next__()

def producer(name):
    c=consumer(`A`)
    c2=consumer(`B`)
    c.__next__()
    c2.__next__()
    print(`開始做包子`)
    for i in range(10):
        time.sleep(1)
        print(`做了兩個包子,一人一個`)
        c.send(i)
        c2.send(i)
producer(`young`)

通過生成器實現協程並行運算

迭代器

我們已經知道,可以直接作用於for迴圈的資料型別有以下幾種:

一類是集合資料型別,如listtupledictsetstr等;

一類是generator,包括生成器和帶yield的generator function。

這些可以直接作用於for迴圈的物件統稱為可迭代物件:Iterable

可以使用isinstance()判斷一個物件是否是Iterable物件:

>>> from collections import Iterable
>>> isinstance([], Iterable)
True
>>> isinstance({}, Iterable)
True
>>> isinstance(`abc`, Iterable)
True
>>> isinstance((x for x in range(10)), Iterable)
True
>>> isinstance(100, Iterable)
False

而生成器不但可以作用於for迴圈,還可以被next()函式不斷呼叫並返回下一個值,直到最後丟擲StopIteration錯誤表示無法繼續返回下一個值了。

*可以被next()函式呼叫並不斷返回下一個值的物件稱為迭代器:Iterator

生成器都是Iterator物件,但listdictstr雖然是Iterable,卻不是Iterator

listdictstrIterable變成Iterator可以使用iter()函式:

>>> isinstance(iter([]), Iterator)
True
>>> isinstance(iter(`abc`), Iterator)
True

你可能會問,為什麼listdictstr等資料型別不是Iterator

這是因為Python的Iterator物件表示的是一個資料流,Iterator物件可以被next()函式呼叫並不斷返回下一個資料,直到沒有資料時丟擲StopIteration錯誤。可以把這個資料流看做是一個有序序列,但我們卻不能提前知道序列的長度,只能不斷通過next()函式實現按需計算下一個資料,所以Iterator的計算是惰性的,只有在需要返回下一個資料時它才會計算。

Iterator甚至可以表示一個無限大的資料流,例如全體自然數。而使用list是永遠不可能儲存全體自然數的。

 

小結

凡是可作用於for迴圈的物件都是Iterable型別;

凡是可作用於next()函式的物件都是Iterator型別,它們表示一個惰性計算的序列;

集合資料型別如listdictstr等是Iterable但不是Iterator,不過可以通過iter()函式獲得一個Iterator物件。

Python的for迴圈本質上就是通過不斷呼叫next()函式實現的,例如:

for x in [1, 2, 3, 4, 5]:
    pass

實際上完全等價於:

# 首先獲得Iterator物件:
it = iter([1, 2, 3, 4, 5])
# 迴圈:
while True:
    try:
        # 獲得下一個值:
        x = next(it)
    except StopIteration:
        # 遇到StopIteration就退出迴圈
        break

2.裝飾器

裝飾器本質上是一個python函式,他可以讓其他函式在不需要做任何程式碼變動的前提下增加額外功能,裝飾器的返回值也是一個函式物件.他經常用於有切面需求的場景,比如,插入日誌,效能測試,事務處理,快取,許可權校驗等場景.裝飾器可以抽離大量與函式功能本身無關的雷同程式碼並繼續重用.概括的說 ,抓個時期的作用就是為已經存在的物件新增額外的功能.

簡單例子;

def foo():
      print(`i am foo`)

現在在之前的基礎,加入日誌功能:

def foo():
      print(`i am foo`)
      logging.info(`foo is running`)

bar(),bar1()也有類似的需求,怎麼做?在寫一個logging在bar函式裡?為了減少程式碼的複寫率,所以我們重新定義一個函式,專門處理日誌.

def use_logging(func):
      logging.warn(`%s is running`%func.__name__)
      func()
def bar():
      print(`i am bar`)

use_logging(bar)

邏輯上不難理解,但是這樣,我們每次都要講一個函式作為引數傳遞個use_logging函式.而且這種方式已經破壞原有的程式碼邏輯結構,之前執行業務邏輯時,執行執行bar(),但是現在不得不改成user_logging(bar),那麼有跟好的方法呢?當然,裝飾器

簡單裝飾器:

def t1(func):
    def warpper(*args,**kwargs):
        start_time = time.time()
        func()
        stop_time = time.time()
        print("the func run time is %s" %(stop_time-start_time))
    return  warpper

def tes1():
    time.sleep(3)
    print("in the  test1")
tes1 = t1(tes1)
tes1()

函式,t1就是裝飾器,他把執行真正業務方法的func包裹在函式裡面,看起來像tes1被t1裝飾了.在這個例子裡,函式進入和退出時,被稱為一個橫切面,這種程式設計方式被稱為面向切面的程式設計

@符號是裝飾器的語法,在定義函式的時候使用,避免子啊一次賦值操作

import time
def t1(func):
    def warpper(*args,**kwargs):
        start_time = time.time()
        func()
        stop_time = time.time()
        print("the func run time is %s" %(stop_time-start_time))
    return  warpper

@t1
def tes1():
    time.sleep(3)
    print("in the  test1")

tes1()

通過上訴對比,可以省去 tes1 = t1(tes1) 這一句,直接用tes1()即可得到想要的結果,如果我們有其他類似函式,我們可以繼續呼叫裝飾器來修飾函式,而不是重複修改函式或者增加新的封裝.這樣,我們就提高了程式的重複李永興,病增加了程式的可讀性.

裝飾器在python使用如此方便都要歸因於python的函式能像普通的物件一樣作為引數傳遞給其他函式,可以被賦值給其他變數,可以作為返回值,可以被定義在另外一個函式內

3.json & pickle 資料序列化

用於序列化的兩個模組

  • json,用於字串 和 python資料型別間進行轉換
  • pickle,用於python特有的型別 和 python的資料型別間進行轉換

Json模組提供了四個功能:dumps、dump、loads、load

pickle模組提供了四個功能:dumps、dump、loads、load

序列化1

import json
def sayhi(name):
    print("hello,",name)
info = {
    `name`:`yu`,
    `age`:22,
    #`func`:sayhi
}
f = open("test.text","w")
f.write( json.dumps( info) )
info[`age`]=21
f.write(json.dumps(info))
f.close()

2.

import pickle

def sayhi(name):
    print("hello,",name)

info = {
    `name`:`alex`,
    `age`:22,
    `func`:sayhi
}


f = open("test.text","wb")
#print(json.dumps(info))
pickle.dump(info,f)#f.write( pickle.dumps( info) )


f.close()

 

反序列化

import pickle

def sayhi(name):
    print(`hello2,`,name)

f = open(`test.text`,`rb`)
data = pickle.load(f)#data = pickle.loads(f.read())
print(data[`func`](`yu`))

 

 

4.軟體目錄結構規範

為什麼要設計好目錄結構?

“設計專案目錄結構”,就和”程式碼編碼風格”一樣,屬於個人風格問題。對於這種風格上的規範,一直都存在兩種態度:

  1. 一類同學認為,這種個人風格問題”無關緊要”。理由是能讓程式work就好,風格問題根本不是問題。
  2. 另一類同學認為,規範化能更好的控制程式結構,讓程式具有更高的可讀性。

我是比較偏向於後者的,因為我是前一類同學思想行為下的直接受害者。我曾經維護過一個非常不好讀的專案,其實現的邏輯並不複雜,但是卻耗費了我非常長的時間去理解它想表達的意思。從此我個人對於提高專案可讀性、可維護性的要求就很高了。”專案目錄結構”其實也是屬於”可讀性和可維護性”的範疇,我們設計一個層次清晰的目錄結構,就是為了達到以下兩點:

  1. 可讀性高: 不熟悉這個專案的程式碼的人,一眼就能看懂目錄結構,知道程式啟動指令碼是哪個,測試目錄在哪兒,配置檔案在哪兒等等。從而非常快速的瞭解這個專案。
  2. 可維護性高: 定義好組織規則後,維護者就能很明確地知道,新增的哪個檔案和程式碼應該放在什麼目錄之下。這個好處是,隨著時間的推移,程式碼/配置的規模增加,專案結構不會混亂,仍然能夠組織良好。

所以,我認為,保持一個層次清晰的目錄結構是有必要的。更何況組織一個良好的工程目錄,其實是一件很簡單的事兒。

目錄組織方式

關於如何組織一個較好的Python工程目錄結構,已經有一些得到了共識的目錄結構。在Stackoverflow的這個問題上,能看到大家對Python目錄結構的討論。

這裡面說的已經很好了,我也不打算重新造輪子列舉各種不同的方式,這裡面我說一下我的理解和體會。

假設你的專案名為foo, 我比較建議的最方便快捷目錄結構這樣就足夠了:

Foo/
|-- bin/
|   |-- foo
|
|-- foo/
|   |-- tests/
|   |   |-- __init__.py
|   |   |-- test_main.py
|   |
|   |-- __init__.py
|   |-- main.py
|
|-- docs/
|   |-- conf.py
|   |-- abc.rst
|
|-- setup.py
|-- requirements.txt
|-- README

簡要解釋一下:

  1. bin/: 存放專案的一些可執行檔案,當然你可以起名script/之類的也行。
  2. foo/: 存放專案的所有原始碼。(1) 原始碼中的所有模組、包都應該放在此目錄。不要置於頂層目錄。(2) 其子目錄tests/存放單元測試程式碼; (3) 程式的入口最好命名為main.py
  3. docs/: 存放一些文件。
  4. setup.py: 安裝、部署、打包的指令碼。
  5. requirements.txt: 存放軟體依賴的外部Python包列表。
  6. README: 專案說明檔案。

除此之外,有一些方案給出了更加多的內容。比如LICENSE.txt,ChangeLog.txt檔案等,我沒有列在這裡,因為這些東西主要是專案開源的時候需要用到。如果你想寫一個開源軟體,目錄該如何組織,可以參考這篇文章

下面,再簡單講一下我對這些目錄的理解和個人要求吧。

關於README的內容

這個我覺得是每個專案都應該有的一個檔案,目的是能簡要描述該專案的資訊,讓讀者快速瞭解這個專案。

它需要說明以下幾個事項:

  1. 軟體定位,軟體的基本功能。
  2. 執行程式碼的方法: 安裝環境、啟動命令等。
  3. 簡要的使用說明。
  4. 程式碼目錄結構說明,更詳細點可以說明軟體的基本原理。
  5. 常見問題說明。

我覺得有以上幾點是比較好的一個README。在軟體開發初期,由於開發過程中以上內容可能不明確或者發生變化,並不是一定要在一開始就將所有資訊都補全。但是在專案完結的時候,是需要撰寫這樣的一個文件的。

可以參考Redis原始碼中Readme的寫法,這裡面簡潔但是清晰的描述了Redis功能和原始碼結構。

關於requirements.txt和setup.py

setup.py

一般來說,用setup.py來管理程式碼的打包、安裝、部署問題。業界標準的寫法是用Python流行的打包工具setuptools來管理這些事情。這種方式普遍應用於開源專案中。不過這裡的核心思想不是用標準化的工具來解決這些問題,而是說,一個專案一定要有一個安裝部署工具,能快速便捷的在一臺新機器上將環境裝好、程式碼部署好和將程式執行起來。

這個我是踩過坑的。

我剛開始接觸Python寫專案的時候,安裝環境、部署程式碼、執行程式這個過程全是手動完成,遇到過以下問題:

  1. 安裝環境時經常忘了最近又新增了一個新的Python包,結果一到線上執行,程式就出錯了。
  2. Python包的版本依賴問題,有時候我們程式中使用的是一個版本的Python包,但是官方的已經是最新的包了,通過手動安裝就可能裝錯了。
  3. 如果依賴的包很多的話,一個一個安裝這些依賴是很費時的事情。
  4. 新同學開始寫專案的時候,將程式跑起來非常麻煩,因為可能經常忘了要怎麼安裝各種依賴。

setup.py可以將這些事情自動化起來,提高效率、減少出錯的概率。”複雜的東西自動化,能自動化的東西一定要自動化。”是一個非常好的習慣。

setuptools的文件比較龐大,剛接觸的話,可能不太好找到切入點。學習技術的方式就是看他人是怎麼用的,可以參考一下Python的一個Web框架,flask是如何寫的: setup.py

當然,簡單點自己寫個安裝指令碼(deploy.sh)替代setup.py也未嘗不可。

requirements.txt

這個檔案存在的目的是:

  1. 方便開發者維護軟體的包依賴。將開發過程中新增的包新增進這個列表中,避免在setup.py安裝依賴時漏掉軟體包。
  2. 方便讀者明確專案使用了哪些Python包。

這個檔案的格式是每一行包含一個包依賴的說明,通常是flask>=0.10這種格式,要求是這個格式能被pip識別,這樣就可以簡單的通過 pip install -r requirements.txt來把所有Python包依賴都裝好了。具體格式說明: 點這裡

 

關於配置檔案的使用方法

注意,在上面的目錄結構中,沒有將conf.py放在原始碼目錄下,而是放在docs/目錄下。

很多專案對配置檔案的使用做法是:

  1. 配置檔案寫在一個或多個python檔案中,比如此處的conf.py。
  2. 專案中哪個模組用到這個配置檔案就直接通過import conf這種形式來在程式碼中使用配置。

這種做法我不太贊同:

  1. 這讓單元測試變得困難(因為模組內部依賴了外部配置)
  2. 另一方面配置檔案作為使用者控制程式的介面,應當可以由使用者自由指定該檔案的路徑。
  3. 程式元件可複用性太差,因為這種貫穿所有模組的程式碼硬編碼方式,使得大部分模組都依賴conf.py這個檔案。

所以,我認為配置的使用,更好的方式是,

  1. 模組的配置都是可以靈活配置的,不受外部配置檔案的影響。
  2. 程式的配置也是可以靈活控制的。

能夠佐證這個思想的是,用過nginx和mysql的同學都知道,nginx、mysql這些程式都可以自由的指定使用者配置。

所以,不應當在程式碼中直接import conf來使用配置檔案。上面目錄結構中的conf.py,是給出的一個配置樣例,不是在寫死在程式中直接引用的配置檔案。可以通過給main.py啟動引數指定配置路徑的方式來讓程式讀取配置內容。當然,這裡的conf.py你可以換個類似的名字,比如settings.py。或者你也可以使用其他格式的內容來編寫配置檔案,比如settings.yaml之類的。