SICP 2.2: 層次性資料和閉包性質(Python實現)

orion發表於2022-05-06

緒論

序對可以為我們提供用於構造複合資料的基本“粘接劑”,鑑於Python中tuple中元素不可變的性質,我們通過list來實現序對,如[1, 2]。Python的PyListObject物件中實際是存放的是PyObject*指標, 所以可以將PyListObject視為vecter<PyObject*>。這是一種盒子與指標表示方式(list內的元素表示為一個指向物件盒子的指標)。對於[1, 2],可將其視為以下結構:

NLP多工學習

我們不僅可以用[]去組合起各種數值,也可以用它取組合起其它序對。這樣,序對就是一種通用的建築砌塊,通過它可以構造所有不同種類的資料結構來。比如想組合數值1, 2, 3, 4,我們可以用[[1, 2], [3, 4]]的方式(下圖左),也可以用[[1, [2, 3]], 4](下圖右):
NLP多工學習

可以構建元素本身也是序對的序對,這種能力稱為[]閉包性質。注意,這裡的閉包是來自抽象代數的術語(不是Python語法中那個閉包)。抽象代數中,如果將某個運算(操作)作用於某個集合的特定元素 ,產出的仍然是該集合的元素,則稱該集合元素在該運算之下封閉。我們這裡說組合資料物件的操作滿足閉包性質,指通過它組合起資料物件得到的結果本身還可以通過同樣的操作再進行組合。

閉包性質可以使我們構建層次性的結構,這種結構由一些部分構成,而其中的各個部分又是由它們的部分構成,並且可以繼續下去。下面我們介紹用序對來表示序列

2.2.1 序列的表示

利用序對可以夠造出的一類有用結構是序列——一批資料物件的有序彙集。利用序對錶示序列的方式很多,一種最直接的表示方式為[1, [2, [3, [4, None]]]]如下圖所示:

NLP多工學習

我們不妨將這種通過巢狀序對形成的序列稱為連結串列。因為Python本身不內建連結串列結構,我們不妨用序對來實現連結串列:

class LinkedList():
    def __init__(self, *items) -> None:
        """提供兩種初始化方式:序對或多個元素
        """
        if isinstance(items[0], list):
            self.pair = items[0]
        else:
            self.pair = self._construct(*items)

    def _construct(self, *items):
        """遞迴地構造連結串列
        """
        if items == ():
            return None
        else:
            item, *rest = items
            return [item, self._construct(*rest)]

    def __repr__(self):
        """重寫列印函式
        """
        return "-->".join(map(str, self._flatten(self.pair)))

    def _flatten(self, pair):
        """遍歷連結串列,返回其一維展開
        """
        if pair is None:
            return []
        else:
            return [pair[0]] + self._flatten(pair[1])

    @property
    def head(self):
        """獲取連結串列頭部元素
        """
        return self.pair[0]

    @property
    def rest(self):
        """獲取連結串列頭部元素之外的元素,並以連結串列形式返回
        """
        if self.pair[1] is None:
            return None
        else:
            return LinkedList(self.pair[1])

這樣,我們就可以方便地構造連結串列並將其列印輸出了:

print(LinkedList(1, 2, 3, 4))
# 1-->2-->3-->4

注意,None用於表示序對的鏈結束。在語言設計上可能有以下爭論:None應該是個普通的名字嗎?None應該算是一個普通的名字嗎?None應該算是一個符號嗎?他應該算是一個空表嗎?在Python中,解決此問題的手段是將None的型別規定為<class 'NoneType'>

表操作

利用序對將元素的序列表示為連結串列之後,我們就可以使用常規的程式設計技術,通過獲取連結串列的headrest的方式完成對連結串列的各種操作了。如下面的過程list-ref實際引數是一個表和一個數n,它返回這個表中的第n項:

def list_ref(items, n):
    if n == 0:
        return items.head
    else:
        return list_ref(items.rest, n-1)

print(list_ref(LinkedList(1, 4, 9, 16, 25), 3)) # 16

length過程則用於返回表中的項數:

def length(items):
    if items is None:
        return 0
    else:
        return 1 + length(items.rest)

print(length(LinkedList(1, 3, 5, 7))) # 4

或者寫為迭代的形式(此處用尾遞迴的形式,即遞迴呼叫是整個函式體中最後執行的語句且它的返回值不屬於表示式的一部分時,這樣就無需儲存返回值,可在常數空間內執行迭代型計算):

# 以迭代的方式計算lengths(尾遞迴)
def length(items):
    def length_iter(a, count):
        if a is None:
            return count
        else:
            return length_iter(a.rest, count + 1)
    return length_iter(items, 0)

print(length(LinkedList(1, 3, 5, 7))) # 4

當然, Python直譯器預設是不開啟尾遞迴優化的,需要用其他黑魔法實現,參考《Python開啟尾遞迴優化!》

還有一種常見操作是append,如對odds[1, 3, 5, 7]squares:[1, 4, 9, 16, 25]append(odds, squares)[1 3 5 7 1 4 9 16 25]append(squares, odds)[1 4 9 16 25 1 3 5 7],也可以通過遞迴實現:

def append(lk_list1, lk_list2):
    if lk_list1 is None:
        return lk_list2.pair
    else:
        return [lk_list1.head, append(lk_list1.rest, lk_list2)]


odds = LinkedList(1, 3, 5, 7)
squares = LinkedList(1, 4, 9, 16, 25)
print(LinkedList(append(odds, squares))) # 1-->3-->5-->7-->1-->4-->9-->16-->25
print(LinkedList(append(squares, odds))) # 1-->4-->9-->16-->25-->1-->3-->5-->7

對連結串列的對映

另外一個特別擁有用的操作時將某種操作應用於一個連結串列的所有元素,得到所有結果構成的表。下面的過程將一個連結串列中的所有元素按給定因子做一次縮放:

def scale_list(items, factor):
    if items is None:
        return None
    else:
        return [items.head * factor, scale_list(items.rest, factor)]

print(LinkedList(scale_list(LinkedList(1, 2, 3, 4, 5), 10)))
# 10-->20-->30-->40-->50

我們可以抽象出這一具有一般性的想法,將其中的公共模式表述為一個高階函式(接收其它函式做為引數)。

def my_map(proc, items):
    if items is None:
        return None
    else:
        return [proc(items.head), my_map(proc, items.rest)]

print(LinkedList(my_map(abs, LinkedList(-10, 2.5, -11.6, 17))))
# 10-->2.5-->11.6-->17
print(LinkedList(my_map(lambda x: x**2, LinkedList(1, 2, 3, 4, 5))))
# 1-->4-->9-->16-->25

這裡的公共模式,其實就類似於設計模式中的模板方法,參見設計模式:模板方法

現在我們可以用map給scale_list一個新定義:

def scale_list(items, factor):
    return LinkedList(my_map(lambda x: x*factor, items))

print(scale_list(LinkedList(1, 2, 3, 4, 5), 10))
# 10-->20-->30-->40-->50

map是一種很重要的結構,不僅因為它代表了一種公共模式,而且因為它建立起了一種處理表的高層抽象(與今日的Scala何其相似!),在老版本的scale_list中,程式的遞迴結構將人的注意力吸引到對錶中元素的逐個處理中。通過map定義的scale_list抑制了這種細節層面上的情況,強調的是從元素表到結果表的一個縮放變換。這兩種定義形式之間的差異,並不在於計算機會執行不同的計算過程(其實不會),而在於我們對同一個過程的不同思考方式。 從作用上看,map幫我們建起了一層抽象屏障,將實現錶轉換過程的實現,與與如何提取表中元素以及組合結果的細節隔離開。

2.2.2 層次性結構

注意,由於下面由於我們會涉及更復雜的資料結構,我們統一將序列就用Python內建的列表表示

我們下面來看元素本身也是序列的序列。比如我們可以認為[[1, 2], 3, 4]是將[1, 2]做為元素加入序列[3, 4]而得。這種表結構可以看做是樹,即序列中的元素就是樹的分支,而那些本身也是序列的元素就形成了樹中的子樹:

NLP多工學習

遞迴是處理樹結構的一種很自然的工具,因為我們常常可以將對於樹的操作歸結為對它們的分支的操作,再將這種操作歸結為對分支的分支的操作,如此下去,直至達到了樹的葉子。如類似2.2.1中用length統計序列長度,我們通過以下程式碼統計樹葉數目:

def count_leaves(tree):
    if not tree:
        return 0
    elif isinstance(tree, int):
        return 1
    else:
        return count_leaves(tree[0]) + count_leaves(tree[1:])
tree = [[1, 2], 3, 4]
print(count_leaves(tree)) # 4

對樹的對映

map是處理序列的一種強有力抽象,與此類似,map與遞迴結合也是處理樹的一種強有力抽象。類似於2.2.1中用scale_list過程對序列元素進行縮放,我們也可以設計scale_tree過程,該過程以一個因子和一棵葉子為數值的樹作為引數,返回一顆具有同樣形狀的樹,該樹中的每個數值都乘以了這個因子:

def scale_tree(tree, factor):
    if not tree:
        return []
    if isinstance(tree, int):
        return tree * factor
    else:
        return [scale_tree(tree[0], factor)] + scale_tree(tree[1:], factor)

tree = [1, [2, [3, 4], 5], [6, 7]]
print(scale_tree(tree, 10))
# [10, [20, [30, 40], 50], [60, 70]]

實現scale_tree的另一種方法是將樹看成子樹的序列,並對它使用map。我們在這種序列上做對映,一次對各棵子樹做縮放,並返回結果的表。對於基礎情況,也就是當被處理的樹是樹葉時,就直接用因子去乘它:

def scale_tree(tree, factor):
    return list(map(lambda sub_tree: scale_tree(sub_tree, factor)
                    if isinstance(sub_tree, list)
                    else sub_tree * factor, tree))
tree = [1, [2, [3, 4], 5], [6, 7]]
print(scale_tree(tree, 10))
# [10, [20, [30, 40], 50], [60, 70]]

此處的map我們直接採用Python語言內建的map,當然也可以自己實現my_map,如下:

def my_map(proc, items):
    if items == []:
        return []
    else:
        return [proc(items[0])] + my_map(proc, items[1:])

2.2.3 序列做為一種約定的介面

資料抽象可以讓我們設計出不被資料表示細節糾纏的程式,使程式保持很好的彈性。在這一節裡,我們將要介紹與資料結構有關的另一種強有力的設計原理——使用約定的介面。

在1.3節中我們看到,通過實現為高階過程的程式抽象,可以讓我們抓住處理數值資料的一些程式模式。而在複合資料上工作做出類似的操作,則對我們操控資料結構的方式有著深刻的依賴性。如考慮一個與2.2.2節中的count_leaves類似的過程,它以一棵樹為引數,計算出那些值為奇數的葉子的平方和:

def sum_odd_squares(tree):
    if not tree:
        return 0
    elif isinstance(tree, int):
        if tree % 2 == 1:
            return tree**2
        else:
            return 0
    else:
        return sum_odd_squares(tree[0]) + sum_odd_squares(tree[1:])

從表面上看,這一過程與下面的過程很不一樣。下面的這個過程給定一個整數\(n\),對\(\forall k \leqslant n\)計算Fib(k)並篩選出其中為偶數的值,其中Fib(k)為第\(k\)個Fibonacci數(設第0個Fibonacci數為0):

def fib(n):
    if n == 0:
        return 0
    elif n == 1:
        return 1
    else:
        return fib(n-1) + fib(n-2)

該過程表示如下:

def even_fibs(n):  # 列舉從0到n的整數
    def next(k):
        if k > n:
            return []
        else:
            f = fib(k)  # 對每個整數計算其fib
            if f % 2 == 0:  # 過濾結果,選出其中偶數
                return [f] + next(k + 1)  # 累積結果
            else:
                return next(k+1)
    return next(0)
print(even_fibs(5)) # [0, 2] (即[0 1 1 2 3 5]中的偶數為[0, 2])

雖然sum_odd_squares過程和even_fibs過程結構式差異非常大,但是對於兩個計算的抽象描述卻會揭露出它們間極大的相似性。sum_odd_squares過程:

  • 列舉出一棵樹的樹葉
  • 過濾它們,選出其中的奇數
  • 對選出的每一個數求平方
  • 用+累積起得到的結果

sum_odd_squares過程:

  • 列舉從\(0\)\(n\)的整數
  • 對每個整數計算相應的Fibonacci數
  • 過濾它們,選出其中的偶數
  • connect累計得到的結果

注意,connect函式用於對將兩個數值物件連線為列表或將數值物件加入一個列表,定義如下:

def con(x, y):
    # y規定為int,x可以為int或list
    if isinstance(x, int):
        return [x] + [y]
    else:
        return x + [y]

訊號工程師可能會發現,這種過程其實可以描述為訊號流過一系列的級聯處理步驟,每個步驟實現程式方案中的一部分。如下圖所示:

NLP多工學習

遺憾的是,上面兩個過程的定義並沒有展現這種訊號流結構。具體地說,我們的兩個過程將enumerate工作散佈在程式中各處,並將它與mapfilterreduce混在一起。如果我們能夠重新組織這一程式,使訊號流結構明顯表現在寫出的過程中,將會大大提高程式碼的清晰性。

其中mapfilterreduce運算元可以採用Python內建函式,也可以自己實現。自己實現的話可以這樣寫:

def my_map(proc, sequence):
    if not sequence:
        return []
    else:
        return [proc(sequence[0])] + my_map(proc, sequence[1:])


print(my_map(lambda x: x**2, [1, 2, 3, 4, 5]))
# [1, 4, 9, 16, 25]


def my_filter(predicate, sequence):
    if not sequence:
        return []
    elif predicate(sequence[0]):
        return [sequence[0]] + my_filter(predicate, sequence[1:])
    else:
        return my_filter(predicate, sequence[1:])


print(my_filter(lambda x: x % 2, [1, 2, 3, 4, 5]))
# [1, 3, 5]


# print(list(accumulate([1,2,3])))

def my_reduce(op, sequence):
    if sequence[-1] and not sequence[:-1]:
        return sequence[-1]
    else:
        return op(my_reduce(op, sequence[:-1]), sequence[-1])

print(my_reduce(add, [1, 2, 3, 4, 5])) # 15
print(my_reduce(mul, [1, 2, 3, 4, 5])) # 120
print(my_reduce(con, [1, 2, 3, 4, 5])) # [1, 2, 3, 4, 5]

為了簡便起見,我們下面mapfilterreduce運算元統一採用Python內建函式。

除了這三個運算元之外,我們還需要列舉(enumerate)出需要處理的資料序列。對於even-fibs,我們需要生成一個給定區間裡的整數序列:

def enumerate_interval(low, high):
    if low > high:
        return []
    else:
        return [low] + enumerate_interval(low + 1, high)

print(enumerate_interval(2, 7)) # [2, 3, 4, 5, 6, 7]

對於sum_odd_squares,則需要列舉出一棵樹的所有樹葉:

# 列舉一棵樹所有的樹葉:
def enumerate_tree(tree):
    if not tree:
        return []
    elif isinstance(tree, int):
        return [tree]
    else:
        return enumerate_tree(tree[0]) + enumerate_tree(tree[1:])

print(enumerate_tree([1, [2, [3, 4], 5]])) # [1, 2, 3, 4, 5]

現在,我們就可以像上面的訊號流圖那樣重新構造sum_odd_squareseven-fibs了。

sum_odd_squares的構造方法如下:

def sum_odd_squares(tree):
    return reduce(add,
                  map(lambda x: x**2,
                      filter(lambda x: x % 2,
                             enumerate_tree(tree))))

print(sum_odd_squares([1, 2, 3, 4, 5])) # 35

even-fibs的構造方法如下:

def even_fibs(n):
    return reduce(con,
                  filter(lambda x: not x % 2,
                         map(fib,
                             enumerate_interval(0, n))))

print(even_fibs(5)) #[0, 2]

將程式表示為一些針對序列的操作,這樣做的價值就愛在於能幫助我們得到模組化的程式設計。而在工程設計中,模組化結構是控制複雜性的一種威力強大的策略。如同訊號處理中設計者從標準的過濾器和變換裝置中選出一些東西來級聯,從而構造出各種系統。同樣地,序列操作也形成了一個可以混合和匹配使用的標準程式元素庫。

如我們在另一個產生前\(n+1\)個Fibonacci數的平方的程式裡,就可以使用取自過程sum_odd_squareseven-fibs的片段:

def list_fib_squares(n):
    return reduce(con,
                  map(lambda x: x**2,
                      map(fib,
                          enumerate_interval(0, n))))

print(list_fib_squares(5)) # [0, 1, 1, 4, 9, 25]

也可以重新安排有關的各個片段,將它們用在產生一個序列中所有奇數的平方之乘積的程式裡:

def product_of_squares_of_odd_elements_sequence(sequence):
    return reduce(mul,
                  map(lambda x: x**2,
                      filter(lambda x: x % 2, sequence)))

print(product_of_squares_of_odd_elements_sequence([1, 2, 3, 4, 5])) # [0, 1, 1, 4, 9, 25]

我們同樣可以採用序列操作的方式,重新去形式化各種常規的資料處理應用。假定有一個人事記錄的序列,現在希望找出其中薪水最高的程式設計師的工資。假定有一個salary返回記錄中的工資,謂詞函式is_programmer檢查某個記錄是不是程式設計師,此時我們就可以寫:

def salary_of_hightest_paid_programmer(records):
    return reduce(max,
                  map(salary,
                      filter(is_programmer, records)))

在這裡,用表實現的序列被做為一種方便的介面,我們可以利用這種介面去組合起各種處理模組

參考

相關文章