Python的Sequence切片下標問題

發表於2017-05-08

前言

在python中, 切片是一個經常會使用到的語法, 不管是元組, 列表還是字串, 一般語法就是:

sequence[ilow:ihigh:step] # ihigh,step 可為空; 為了簡短易懂, 暫時排除step的用法考慮

先來簡單示範下用法

sequence = [1,2,3,4,5]
sequence [ilow:ihigh]  # 從ilow開始到ihigh-1結束
sequence [ilow:]       # 從ilow開始直到末尾
sequence [:ihigh]      # 從頭部開始直到ihigh結束
sequence [:]           # 複製整個列表

sequence = [1,2,3,4,5]

sequence [ilow:ihigh] # 從ilow開始到ihigh-1結束

sequence [ilow:] # 從ilow開始直到末尾

sequence [:ihigh] # 從頭部開始直到ihigh結束

sequence [:] # 複製整個列表

語法很簡潔, 也很容易理解, 這種語法在我們日常使用中是簡單又好用, 但我相信在我們使用這種切片語法時, 都會習慣性謹遵一些規則:

ilow, ihigh均小於 sequece的長度
ilow < ihigh

因為在大部分情況下, 只有遵循上面的規則, 才能得到我們預期的結果! 可是如果我不遵循呢? 切片會怎樣?

不管我們在使用元組, 列表還是字串, 當我們想取中一個元素時, 我們會用到如下語法:

sequence = [1,2,3,4,5]
print sequence[1]   # 輸出2
print sequence[2]   # 輸出3

sequence = [1,2,3,4,5]

print sequence[1] # 輸出2

print sequence[2] # 輸出3

上面出現的 1,2 我們姑且稱之為下標, 不管是元組, 列表還是字串, 我們都能通過下標來取出對應的值, 但是如果下標超過物件的長度, 那麼將觸發索引異常(IndexError)

sequence = [1,2,3,4,5]
print sequence[15]   

### 輸出 ###
Traceback (most recent call last):
  File "test.py", line 2, in <module>
    print a[20]
IndexError: list index out of range

sequence = [1,2,3,4,5]

print sequence[15]

### 輸出 ###

Traceback (most recent call last):

File "test.py", line 2, in <module>

print a[20]

IndexError: list index out of range

那麼對於切片呢? 兩種語法很相似, 假設我 ilow 和 ihigh分別是10和20, 那麼結果是怎樣呢

情景重現

# version: python2.7

a = [1, 2, 3, 5]
print a[10:20]  # 結果會報異常嗎?

# version: python2.7

a = [1, 2, 3, 5]

print a[10:20] # 結果會報異常嗎?

看到10和20, 完全超出了序列a的長度, 由於前面的程式碼, 或者以前的經驗, 我們總會覺得這樣肯定也會導致一個IndexError,那我們開終端來試驗下:

>>> a = [1, 2, 3, 5]
>>> print a[10:20]
[]

>>> a = [1, 2, 3, 5]

>>> print a[10:20]

[]

結果居然是: [], 這感覺有點意思.是隻有列表才會這麼, 字串呢, 元組呢?

>>> s = '23123123123'
>>> print s[400:2000]
''
>>> t = (1, 2, 3,4)
>>> print t[200: 1000]
()

>>> s = '23123123123'

>>> print s[400:2000]

>>> t = (1, 2, 3,4)

>>> print t[200: 1000]

()

結果都和列表的類似, 返回屬於各自的空結果.

看到結果的我們眼淚掉下來, 不是返回一個IndexError, 而是直接返回空, 這讓我們不禁想到, 其實語法相似, 背後的東西肯定還是不同的, 那我們下面一起來嘗試去解釋下這結果吧

原理分析

在揭開之前, 我們們要先搞清楚, python是怎樣處理這個切片的, 可以通過dis模組來協助:

#############  切片 ################
[root@iZ23pynfq19Z ~]# cat test.py
a = [11,2,3,4]
print a[20:30]

#結果:
[root@iZ23pynfq19Z ~]# python -m dis test.py 
  1           0 LOAD_CONST               0 (11)
              3 LOAD_CONST               1 (2)
              6 LOAD_CONST               2 (3)
              9 LOAD_CONST               3 (4)
             12 BUILD_LIST               4
             15 STORE_NAME               0 (a)

  2          18 LOAD_NAME                0 (a)
             21 LOAD_CONST               4 (20)
             24 LOAD_CONST               5 (30)
             27 SLICE+3             
             28 PRINT_ITEM          
             29 PRINT_NEWLINE       
             30 LOAD_CONST               6 (None)
             33 RETURN_VALUE  

#############  單下標取值 ################
[root@gitlab ~]# cat test2.py
a = [11,2,3,4]
print a[20]

#結果:
[root@gitlab ~]# python -m dis test2.py
  1           0 LOAD_CONST               0 (11)
              3 LOAD_CONST               1 (2)
              6 LOAD_CONST               2 (3)
              9 LOAD_CONST               3 (4)
             12 BUILD_LIST               4
             15 STORE_NAME               0 (a)

  2          18 LOAD_NAME                0 (a)
             21 LOAD_CONST               4 (20)
             24 BINARY_SUBSCR       
             25 PRINT_ITEM          
             26 PRINT_NEWLINE       
             27 LOAD_CONST               5 (None)
             30 RETURN_VALUE

############# 切片 ################

[root@iZ23pynfq19Z ~]# cat test.py

a = [11,2,3,4]

print a[20:30]

#結果:

[root@iZ23pynfq19Z ~]# python -m dis test.py

1 0 LOAD_CONST 0 (11)

3 LOAD_CONST 1 (2)

6 LOAD_CONST 2 (3)

9 LOAD_CONST 3 (4)

12 BUILD_LIST 4

15 STORE_NAME 0 (a)

2 18 LOAD_NAME 0 (a)

21 LOAD_CONST 4 (20)

24 LOAD_CONST 5 (30)

27 SLICE+3

28 PRINT_ITEM

29 PRINT_NEWLINE

30 LOAD_CONST 6 (None)

33 RETURN_VALUE

############# 單下標取值 ################

[root@gitlab ~]# cat test2.py

a = [11,2,3,4]

print a[20]

#結果:

[root@gitlab ~]# python -m dis test2.py

1 0 LOAD_CONST 0 (11)

3 LOAD_CONST 1 (2)

6 LOAD_CONST 2 (3)

9 LOAD_CONST 3 (4)

12 BUILD_LIST 4

15 STORE_NAME 0 (a)

2 18 LOAD_NAME 0 (a)

21 LOAD_CONST 4 (20)

24 BINARY_SUBSCR

25 PRINT_ITEM

26 PRINT_NEWLINE

27 LOAD_CONST 5 (None)

30 RETURN_VALUE

在這簡單介紹下dis模組, 有經驗的老司機都知道, python在解釋指令碼時, 也是存在一個編譯的過程, 編譯的結果就是我們經常看到的pyc檔案, 這裡面codeobject物件組成的位元組碼, 而dis就是將這些位元組碼用比較可觀的方式展示出來, 讓我們看到執行的過程, 下面是dis的輸出列解釋:

第一列是數字是原始原始碼的行號。
第二列是位元組碼的偏移量：LOAD_CONST在第0行.以此類推。
第三列是位元組碼人類可讀的名字。它們是為程式設計師所準備的
第四列表示指令的引數
第五列是計算後的實際引數

前面就不贅述了, 就是讀常量存變數的過程, 最主要的區別就是: test.py 切片是使用了位元組碼 SLICE+3實現的, 而test2.py 單下標取值主要通過位元組碼BINARY_SUBSCR實現的,如同我們猜測的一樣, 相似的語法卻是截然不同的程式碼.因為我們要展開討論的是切片(SLICE+3), 所以就不再展開BINARY_SUBSCR, 感興趣的童鞋可以檢視相關原始碼瞭解具體實現, 位置: python/object/ceval.c

那我們下面來展開討論下 SLICE+3

/*取自: python2.7 python/ceval.c */

// 第一步: 
PyEval_EvalFrameEx(PyFrameObject *f, int throwflag)
{
        ....   // 省略n行程式碼
        TARGET_WITH_IMPL_NOARG(SLICE, _slice)
        TARGET_WITH_IMPL_NOARG(SLICE_1, _slice)
        TARGET_WITH_IMPL_NOARG(SLICE_2, _slice)
        TARGET_WITH_IMPL_NOARG(SLICE_3, _slice)
        _slice:
        {
            if ((opcode-SLICE) & 2)
                w = POP();
            else
                w = NULL;
            if ((opcode-SLICE) & 1)
                v = POP();
            else
                v = NULL;
            u = TOP();
            x = apply_slice(u, v, w);    // 取出v: ilow, w: ihigh, 然後呼叫apply_slice
            Py_DECREF(u);
            Py_XDECREF(v);
            Py_XDECREF(w);
            SET_TOP(x);
            if (x != NULL) DISPATCH();
            break;
        }

   ....   // 省略n行程式碼
}

// 第二步:
apply_slice(PyObject *u, PyObject *v, PyObject *w) /* return u[v:w] */
{
    PyTypeObject *tp = u->ob_type;     
    PySequenceMethods *sq = tp->tp_as_sequence;

    if (sq && sq->sq_slice && ISINDEX(v) && ISINDEX(w)) { // v,w的型別檢查,要整型/長整型物件
        Py_ssize_t ilow = 0, ihigh = PY_SSIZE_T_MAX;
        if (!_PyEval_SliceIndex(v, &ilow))                // 將v物件再做檢查, 並將其值轉換出來,存給ilow
            return NULL;
        if (!_PyEval_SliceIndex(w, &ihigh))               // 同上
            return NULL;
        return PySequence_GetSlice(u, ilow, ihigh);       // 獲取u物件對應的切片函式
    }
    else {
        PyObject *slice = PySlice_New(v, w, NULL);
        if (slice != NULL) {
            PyObject *res = PyObject_GetItem(u, slice);
            Py_DECREF(slice);
            return res;
        }
        else
            return NULL;
    }

// 第三步:
PySequence_GetSlice(PyObject *s, Py_ssize_t i1, Py_ssize_t i2)
{
    PySequenceMethods *m;
    PyMappingMethods *mp;

    if (!s) return null_error();

    m = s->ob_type->tp_as_sequence;
    if (m && m->sq_slice) {
        if (i1 sq_length) {
                // 先做個簡單的初始化, 如果左右下表小於, 將其加上sequence長度使其歸為0
                Py_ssize_t l = (*m->sq_length)(s);
                if (l sq_slice(s, i1, i2);
    } else if ((mp = s->ob_type->tp_as_mapping) && mp->mp_subscript) {
        PyObject *res;
        PyObject *slice = _PySlice_FromIndices(i1, i2);
        if (!slice)
            return NULL;
        res = mp->mp_subscript(s, slice);
        Py_DECREF(slice);
        return res;
    }

    return type_error("'%.200s' object is unsliceable", s);

/*取自: python2.7 python/ceval.c */

// 第一步:

PyEval_EvalFrameEx(PyFrameObject *f, int throwflag)

{

.... // 省略n行程式碼

TARGET_WITH_IMPL_NOARG(SLICE, _slice)

TARGET_WITH_IMPL_NOARG(SLICE_1, _slice)

TARGET_WITH_IMPL_NOARG(SLICE_2, _slice)

TARGET_WITH_IMPL_NOARG(SLICE_3, _slice)

_slice:

{

if ((opcode-SLICE) & 2)

w = POP();

else

w = NULL;

if ((opcode-SLICE) & 1)

v = POP();

else

v = NULL;

u = TOP();

x = apply_slice(u, v, w); // 取出v: ilow, w: ihigh, 然後呼叫apply_slice

Py_DECREF(u);

Py_XDECREF(v);

Py_XDECREF(w);

SET_TOP(x);

if (x != NULL) DISPATCH();

break;

}

.... // 省略n行程式碼

}

// 第二步:

apply_slice(PyObject *u, PyObject *v, PyObject *w) /* return u[v:w] */

{

PyTypeObject *tp = u->ob_type;

PySequenceMethods *sq = tp->tp_as_sequence;

if (sq && sq->sq_slice && ISINDEX(v) && ISINDEX(w)) { // v,w的型別檢查,要整型/長整型物件

Py_ssize_t ilow = 0, ihigh = PY_SSIZE_T_MAX;

if (!_PyEval_SliceIndex(v, &ilow)) // 將v物件再做檢查, 並將其值轉換出來,存給ilow

return NULL;

if (!_PyEval_SliceIndex(w, &ihigh)) // 同上

return NULL;

return PySequence_GetSlice(u, ilow, ihigh); // 獲取u物件對應的切片函式

}

else {

PyObject *slice = PySlice_New(v, w, NULL);

if (slice != NULL) {

PyObject *res = PyObject_GetItem(u, slice);

Py_DECREF(slice);

return res;

}

else

return NULL;

}

// 第三步:

PySequence_GetSlice(PyObject *s, Py_ssize_t i1, Py_ssize_t i2)

{

PySequenceMethods *m;

PyMappingMethods *mp;

if (!s) return null_error();

m = s->ob_type->tp_as_sequence;

if (m && m->sq_slice) {

if (i1 sq_length) {

// 先做個簡單的初始化, 如果左右下表小於, 將其加上sequence長度使其歸為0

Py_ssize_t l = (*m->sq_length)(s);

if (l sq_slice(s, i1, i2);

} else if ((mp = s->ob_type->tp_as_mapping) && mp->mp_subscript) {

PyObject *res;

PyObject *slice = _PySlice_FromIndices(i1, i2);

if (!slice)

return NULL;

res = mp->mp_subscript(s, slice);

Py_DECREF(slice);

return res;

}

return type_error("'%.200s' object is unsliceable", s);

雖然上面的程式碼有點長, 不過關鍵地方都已經註釋出來, 而我們也只需要關注那些地方就足夠了. 如上, 我們知道最終是要執行 m->sq_slice(s, i1, i2), 但是這個sq_slice有點特別, 因為不同的物件, 它所對應的函式不同, 下面是各自的對應函式:

// 字串物件
StringObject.c:  (ssizessizeargfunc)string_slice, /*sq_slice*/

// 列表物件
ListObject.c: (ssizessizeargfunc)list_slice,      /* sq_slice */

// 元組
TupleObject.c: (ssizessizeargfunc)tupleslice,     /* sq_slice */

// 字串物件

StringObject.c: (ssizessizeargfunc)string_slice, /*sq_slice*/

// 列表物件

ListObject.c: (ssizessizeargfunc)list_slice, /* sq_slice */

// 元組

TupleObject.c: (ssizessizeargfunc)tupleslice, /* sq_slice */

因為他們三個的函式實現大致相同, 所以我們只分析其中一個就可以了, 下面是對列表的切片函式分析:

/* 取自ListObject.c */
static PyObject *
list_slice(PyListObject *a, Py_ssize_t ilow, Py_ssize_t ihigh)
{
    PyListObject *np;
    PyObject **src, **dest;
    Py_ssize_t i, len;
    if (ilow < 0)
        ilow = 0;
    else if (ilow > Py_SIZE(a))               // 如果ilow大於a長度, 那麼重新賦值為a的長度
        ilow = Py_SIZE(a);
    if (ihigh < ilow)        
        ihigh = ilow;
    else if (ihigh > Py_SIZE(a))              // 如果ihigh大於a長度, 那麼重新賦值為a的長度  
        ihigh = Py_SIZE(a);
    len = ihigh - ilow;
    np = (PyListObject *) PyList_New(len);    // 建立一個ihigh - ilow的新列表物件
    if (np == NULL)
        return NULL;

    src = a->ob_item + ilow;
    dest = np->ob_item;
    for (i = 0; i < len; i++) {               // 將a處於該範圍內的成員, 新增到新列表物件
        PyObject *v = src[i];
        Py_INCREF(v);
        dest[i] = v;
    }
    return (PyObject *)np;
}

/* 取自ListObject.c */

static PyObject *

list_slice(PyListObject *a, Py_ssize_t ilow, Py_ssize_t ihigh)

{

PyListObject *np;

PyObject **src, **dest;

Py_ssize_t i, len;

if (ilow < 0)

ilow = 0;

else if (ilow > Py_SIZE(a)) // 如果ilow大於a長度, 那麼重新賦值為a的長度

ilow = Py_SIZE(a);

if (ihigh < ilow)

ihigh = ilow;

else if (ihigh > Py_SIZE(a)) // 如果ihigh大於a長度, 那麼重新賦值為a的長度

ihigh = Py_SIZE(a);

len = ihigh - ilow;

np = (PyListObject *) PyList_New(len); // 建立一個ihigh - ilow的新列表物件

if (np == NULL)

return NULL;

src = a->ob_item + ilow;

dest = np->ob_item;

for (i = 0; i < len; i++) { // 將a處於該範圍內的成員, 新增到新列表物件

PyObject *v = src[i];

Py_INCREF(v);

dest[i] = v;

}

return (PyObject *)np;

}

結論

從上面的sq_slice函式對應的切片函式可以看到, 如果在使用切片時, 左右下標都大於sequence的長度時, 都將會被重新賦值成sequence的長度, 所以我們們一開始的切片: print a[10:20], 實際上執行的是: print a4:4. 通過這次的分析, 以後在遇到下標大於物件長度的切片, 應該不會再懵逼了~

『無為則無心』Python基礎 — 16、Python序列之字串的下標和切片
2021-07-01
Python字串
請教一個go切片引用的問題
2021-12-09
Go
python sequence序列
2019-05-18
Python
python的特性 – 切片
2019-02-16
Python
請教一個切片遞迴賦值的問題
2019-03-19
遞迴賦值
python字串切片
2020-12-21
Python字串
Python列表切片操作
2020-10-31
Python
python切片處理
2020-10-04
Python
Go語言切片面試真題7連問
2022-02-18
Go面試
解決 macOS 下 Python 3.8 安裝 mysqlclient 的問題
2024-04-20
MacPythonMySqlclient
bzoj1345: [Baltic2007]序列問題Sequence（單調棧）
2018-04-07
切片面試題
2022-01-06
面試題
python同異級目錄下的函式呼叫問題
2019-01-21
Python函式
演算法題 - Pop Sequence
2024-03-11
演算法
GO切片傳值/引用/指標
2020-11-24
Go指標
<4>Python切片功能剖析
2019-01-15
Python
python切片有哪些特徵
2021-09-11
Python特徵
python列表中切片的正負數
2024-05-14
Python
python學習筆記列表的切片
2019-03-21
Python筆記
python中切片的淺複製探究
2021-09-11
Python
sequence to sequence模型
2018-05-16
模型
Python新手常見問題八：標準庫模組命名
2021-09-11
Python
python 3.6 lxml標準庫lxml的安裝及找不到etree問題
2018-12-10
PythonXML
下載的 Laravel ？問題
2019-07-03
Laravel
Python 的編譯器geany-1.36無法下載問題
2020-02-20
Python編譯
[題解]CF13C Sequence
2024-05-01
[題解]P4597 序列 sequence
2024-05-01
Python：求列表的最大數以及下標
2020-12-13
Python
Python基礎——切片例項
2018-12-15
Python
python列表切片是什麼
2021-09-11
Python
python中list切片詳解
2020-12-16
Python
用切片操作實現的Python篩法
2019-12-28
Python
Python 中的反轉字串：reversed()、切片等
2021-11-17
Python字串
能取值亦能賦值的Python切片
2021-02-23
賦值Python
問題定級標準
2018-07-24
learnku 中上下標問題
2020-06-21
資料標準化遇到的問題
2018-04-04
uvm的sequence
2018-08-09
Matlab轉python的索引問題
2024-04-26
MatlabPython索引

Python的Sequence切片下標問題

前言

情景重現

原理分析

結論

相關文章