Pandas中resample方法詳解
Pandas中resample方法詳解
Pandas中的resample,重新取樣,是對原樣本重新處理的一個方法,是一個對常規時間序列資料重新取樣和頻率轉換的便捷的方法。重新取樣時間序列資料。
方便的時間序列的頻率轉換和重取樣方法。物件必須具有類似datetime的索引(DatetimeIndex、PeriodIndex或TimedeltaIndex),或將類似datetime的值傳遞給on或level關鍵字。
DataFrame.resample(rule, axis=0, closed=None, label=None, convention='start', kind=None, loffset=None, base=None, on=None, level=None, origin='start_day', offset=None)
引數詳解是:
引數 | 說明 |
---|---|
rule | 表示目標轉換的偏移量字串或物件 |
freq | 表示重取樣頻率,例如‘M’、‘5min’,Second(15) |
how=‘mean’ | 用於產生聚合值的函式名或陣列函式,例如‘mean’、‘ohlc’、np.max等,預設是‘mean’,其他常用的值由:‘first’、‘last’、‘median’、‘max’、‘min’ |
axis=0 | 哪個軸用於向上取樣或向下取樣。對於序列,這將預設為0,即沿著行。必須是DatetimeIndex, TimedeltaIndex或PeriodIndex。預設是縱軸,橫軸設定axis=1 |
fill_method = None | 升取樣時如何插值,比如‘ffill’、‘bfill’等 |
closed = ‘right’ | 在降取樣時,各時間段的哪一段是閉合的,‘right’或‘left’,預設‘right’ |
label= ‘right’ | 在降取樣時,如何設定聚合值的標籤,例如,9:30-9:35會被標記成9:30還是9:35,預設9:35 |
convention = None | 當重取樣時期時,將低頻率轉換到高頻率所採用的約定(start或end)。預設‘end’ |
kind = None | 聚合到時期(‘period’)或時間戳(‘timestamp’),預設聚合到時間序列的索引型別 |
loffset = None | 調整重新取樣的時間標籤 |
base | 對於平均細分1天的頻率,為累計間隔的“起源”。例如,對於“5min”頻率,基數可以從0到4。預設值為0。 |
on | 對於資料流,要使用列而不是索引進行重取樣。列必須與日期時間類似。 |
level | 對於多索引,用於重取樣的級別(名稱或數字)。級別必須與日期時間相似 |
origin | 要調整分組的時間戳。起始時區必須與索引的時區匹配。如果沒有使用時間戳,也支援以下值:epoch:原點是1970-01-01’;start ': origin是timeseries的第一個值;“start_day”:起源是timeseries午夜的第一天; |
offset | 加到原點的偏移時間增量 |
index = pd.date_range('1/1/2000', periods=9, freq='T')
series = pd.Series(range(9), index=index)
series
'''
2000-01-01 00:00:00 0
2000-01-01 00:01:00 1
2000-01-01 00:02:00 2
2000-01-01 00:03:00 3
2000-01-01 00:04:00 4
2000-01-01 00:05:00 5
2000-01-01 00:06:00 6
2000-01-01 00:07:00 7
2000-01-01 00:08:00 8
Freq: T, dtype: int64
'''
將該系列資料取樣到3分鐘箱中,並對落入箱中的時間戳的值求和。
series.resample('3T').sum()
'''
2000-01-01 00:00:00 3
2000-01-01 00:03:00 12
2000-01-01 00:06:00 21
Freq: 3T, dtype: int64
'''
如上所述,將系列下采樣到3分鐘的容器中,但請使用右側邊緣而不是左側標記每個容器。 請注意,用作標籤的儲存桶中的值不包含在其標記的儲存桶中。 例如,在原始系列中,儲存區2000-01-01 00:03:00包含值3,但重新取樣的儲存區中標有2000-01-01 00:03:00的總和值不包含3( 如果是,則總和為6,而不是3)。 要包括此值,請關閉bin間隔的右側,如下面的示例所示。
series.resample('3T', label='right').sum()
'''
2000-01-01 00:03:00 3
2000-01-01 00:06:00 12
2000-01-01 00:09:00 21
Freq: 3T, dtype: int64
'''
如上所述,將系列降取樣到3分鐘的箱中,但關閉箱間隔的右側。
series.resample('3T', label='right', closed='right').sum()
'''
2000-01-01 00:00:00 0
2000-01-01 00:03:00 6
2000-01-01 00:06:00 15
2000-01-01 00:09:00 15
Freq: 3T, dtype: int64
'''
將系列上取樣到30秒檔中。
series.resample('30S').asfreq()[0:5] # Select first 5 rows
'''
2000-01-01 00:00:00 0.0
2000-01-01 00:00:30 NaN
2000-01-01 00:01:00 1.0
2000-01-01 00:01:30 NaN
2000-01-01 00:02:00 2.0
Freq: 30S, dtype: float64
'''
將該系列上取樣到30秒的箱子中,並使用pad方法填充NaN值。
series.resample('30S').pad()[0:5]
'''
2000-01-01 00:00:00 0
2000-01-01 00:00:30 0
2000-01-01 00:01:00 1
2000-01-01 00:01:30 1
2000-01-01 00:02:00 2
Freq: 30S, dtype: int64
'''
將序列上取樣到30秒的箱子中,並使用bfill方法填充NaN值。
series.resample('30S').bfill()[0:5]
'''
2000-01-01 00:00:00 0
2000-01-01 00:00:30 1
2000-01-01 00:01:00 1
2000-01-01 00:01:30 2
2000-01-01 00:02:00 2
Freq: 30S, dtype: int64
'''
通過apply傳遞一個自定義函式
def custom_resampler(array_like):
return np.sum(array_like) + 5
series.resample('3T').apply(custom_resampler)
'''
2000-01-01 00:00:00 8
2000-01-01 00:03:00 17
2000-01-01 00:06:00 26
Freq: 3T, dtype: int64
'''
對於具有PeriodIndex的系列,可以使用關鍵字約定來控制是使用規則的開始還是結束。
使用“開始”約定按季度重新取樣。值被分配到該期間的第一季度。
s = pd.Series([1, 2], index=pd.period_range('2012-01-01',freq='A',periods=2))
s
'''
2012 1
2013 2
Freq: A-DEC, dtype: int64
'''
s.resample('Q', convention='start').asfreq()
'''
2012Q1 1.0
2012Q2 NaN
2012Q3 NaN
2012Q4 NaN
2013Q1 2.0
2013Q2 NaN
2013Q3 NaN
2013Q4 NaN
Freq: Q-DEC, dtype: float64
'''
使用“結束”慣例按月重新計算季度數。將值賦給該期間的最後一個月。
q = pd.Series([1, 2, 3, 4], index=pd.period_range('2018-01-01',freq='Q',periods=4))
q
'''
2018Q1 1
2018Q2 2
2018Q3 3
2018Q4 4
Freq: Q-DEC, dtype: int64
'''
q.resample('M', convention='end').asfreq()
'''
2018-03 1.0
2018-04 NaN
2018-05 NaN
2018-06 2.0
2018-07 NaN
2018-08 NaN
2018-09 3.0
2018-10 NaN
2018-11 NaN
2018-12 4.0
Freq: M, dtype: float64
'''
對於DataFrame物件,關鍵字on可用於指定列,而不是用於重新取樣的索引。
d = dict({'price': [10, 11, 9, 13, 14, 18, 17, 19],
'volume': [50, 60, 40, 100, 50, 100, 40, 50]})
df = pd.DataFrame(d)
df['week_starting'] = pd.date_range('01/01/2018',
periods=8,
freq='W')
df
'''
price volume week_starting
0 10 50 2018-01-07
1 11 60 2018-01-14
2 9 40 2018-01-21
3 13 100 2018-01-28
4 14 50 2018-02-04
5 18 100 2018-02-11
6 17 40 2018-02-18
7 19 50 2018-02-25
'''
df.resample('M', on='week_starting').mean()
'''
price volume
week_starting
2018-01-31 10.75 62.5
2018-02-28 17.00 60.0
'''
對於具有多索引的資料流,關鍵字級別可用於指定需要在哪個級別進行重取樣。
days = pd.date_range('1/1/2000', periods=4, freq='D')
d2 = dict({'price': [10, 11, 9, 13, 14, 18, 17, 19],
'volume': [50, 60, 40, 100, 50, 100, 40, 50]})
df2 = pd.DataFrame(d2,
index=pd.MultiIndex.from_product([days,
['morning',
'afternoon']]
))
df2
'''
price volume
2000-01-01 morning 10 50
afternoon 11 60
2000-01-02 morning 9 40
afternoon 13 100
2000-01-03 morning 14 50
afternoon 18 100
2000-01-04 morning 17 40
afternoon 19 50
'''
df2.resample('D', level=0).sum()
'''
price volume
2000-01-01 21 110
2000-01-02 22 140
2000-01-03 32 150
2000-01-04 36 90
'''
如果您想基於固定的時間戳調整容器的開始:
start, end = '2000-10-01 23:30:00', '2000-10-02 00:30:00'
rng = pd.date_range(start, end, freq='7min')
ts = pd.Series(np.arange(len(rng)) * 3, index=rng)
ts
'''
2000-10-01 23:30:00 0
2000-10-01 23:37:00 3
2000-10-01 23:44:00 6
2000-10-01 23:51:00 9
2000-10-01 23:58:00 12
2000-10-02 00:05:00 15
2000-10-02 00:12:00 18
2000-10-02 00:19:00 21
2000-10-02 00:26:00 24
Freq: 7T, dtype: int64
'''
ts.resample('17min').sum()
'''
2000-10-01 23:14:00 0
2000-10-01 23:31:00 9
2000-10-01 23:48:00 21
2000-10-02 00:05:00 54
2000-10-02 00:22:00 24
Freq: 17T, dtype: int64
'''
ts.resample('17min', origin='epoch').sum()
'''
2000-10-01 23:18:00 0
2000-10-01 23:35:00 18
2000-10-01 23:52:00 27
2000-10-02 00:09:00 39
2000-10-02 00:26:00 24
Freq: 17T, dtype: int64
'''
ts.resample('17min', origin='2000-01-01').sum()
'''
2000-10-01 23:24:00 3
2000-10-01 23:41:00 15
2000-10-01 23:58:00 45,
2000-10-02 00:15:00 45
Freq: 17T, dtype: int64
'''
如果你想用偏移時間增量來調整bins的開始,下面兩行是等效的:
ts.resample('17min', origin='start').sum()
'''
2000-10-01 23:30:00 9
2000-10-01 23:47:00 21
2000-10-02 00:04:00 54
2000-10-02 00:21:00 24
Freq: 17T, dtype: int64
'''
ts.resample('17min', offset='23h30min').sum()
'''
2000-10-01 23:30:00 9
2000-10-01 23:47:00 21
2000-10-02 00:04:00 54
2000-10-02 00:21:00 24
Freq: 17T, dtype: int64
'''
要替換棄用的base實參,現在可以使用offset,在這個例子中,它等價於base=2:
ts.resample('17min', offset='2min').sum()
'''
2000-10-01 23:16:00 0
2000-10-01 23:33:00 9
2000-10-01 23:50:00 36
2000-10-02 00:07:00 39
2000-10-02 00:24:00 24
Freq: 17T, dtype: int64
'''
要替換已棄用的loffset引數:
from pandas.tseries.frequencies import to_offset
loffset = '19min'
ts_out = ts.resample('17min').sum()
ts_out.index = ts_out.index + to_offset(loffset)
ts_out
'''
2000-10-01 23:33:00 0
2000-10-01 23:50:00 9
2000-10-02 00:07:00 21
2000-10-02 00:24:00 54
2000-10-02 00:41:00 24
Freq: 17T, dtype: int64
'''
相關文章
- Pandas 基礎 (14) - DatetimeIndex and ResampleIndex
- pandas | 詳解DataFrame中的apply與applymap方法APP
- pandas groupby, resample 按時間取樣
- pandas qcut 和cut 詳解
- Python Pandas的使用 !!!!!詳解Python
- Pandas 分組聚合操作詳解
- Pandas資料結構詳解 | 輕鬆玩轉Pandas(1)資料結構
- Pandas基本功能詳解 | 輕鬆玩轉Pandas(2)
- Pandas read_csv 引數詳解
- Python之pandas:pandas中to_csv()、read_csv()函式的index、index_col引數詳解之詳細攻略Python函式Index
- list中add、set方法詳解
- Java中的方法引用詳解Java
- JQuery中$.ajax()方法引數詳解jQuery
- Pandas 資料分析——超好用的 Groupby 詳解
- Pandas高階教程之:plot畫圖詳解
- Python中Pandas 方法cut簡單講講Python
- pandas | DataFrame中的排序與彙總方法排序
- Python 中__new__方法詳解及使用Python
- 詳解Python中的str.format方法PythonORM
- Pandas DataFrame常用方法
- Pandas 資料分析——Merge 資料拼接圖文詳解
- toJSON()方法詳解JSON
- java方法詳解Java
- super()方法詳解
- Linux中產生zombie的原因詳解及解決方法!Linux
- python中pandas.Dataframe合併的方法有哪些?Python
- Python3中使用PyMongo的方法詳解PythonGo
- JavaScript中陣列Array.sort()排序方法詳解JavaScript陣列排序
- canvas closePath()方法詳解Canvas
- canvas arc()方法詳解Canvas
- Python中4種方法實現列印整個Pandas DataFramePython
- C#中抽象方法與虛方法的區別詳解及示例C#抽象
- Pandas 資料處理三板斧——map、apply、applymap 詳解APP
- 詳解nginx伺服器中的安全配置的方法Nginx伺服器
- 詳解MySQL中的SQRT函式的使用方法MySql函式
- Python中求絕對值的三種方法詳解!Python
- 05.Java 方法詳解Java
- js陣列方法詳解JS陣列