利用 Pandas 將資料集中的某列文字拆分為多行

飛天麵條發表於2019-02-12

原文網址 : https://juejin.im/post/5c629c426fb9a049e2327db0

背景

手頭的專案要求用 Tableau 建立一個 story，資料集是摩拜上海城區使用者使用資料。其中有一個維度的資料處理起來有點棘手。

資料格式

注意 track 這個維度的資料，它表示的是在訂單時間內的行車軌跡，裡面包含了大量座標點。

按照 tidydata 的要求：

Each variable forms a column.
Each observation forms a row.
Each type of observational unit forms a table.

我需要將 track 的座標拆分為多行。

神來之筆

Google 了問題的解決方式，程式碼是

mobike.drop("track",axis = 1).join(mobike["track"].str.split("#",expand = True).stack().reset_index(level = 1,drop = True).rename("track"))
複製程式碼

工作原理

解決問題不能光知其然，不知其所以然。所以我將這行程式碼逐語句進行了拆分，一探程式碼內部的工作原理。

最外層程式碼是：

mobike.join({dataset})
複製程式碼

這裡呼叫了 dataframe 的 join 方法，很基礎。

{dataset} 這部分做的工作比較多，首先是 split 方法。Python 的 split 方法可以將字串按照指定的字元進行分割，這個例子中指定的字元是「#」。如果不加引數 expand = True，split()會返回拆分後的字串陣列。

mobike["track"].str.split("#")
# ["121.372,31.118","121.372,31.119","121.373,31.117","1...]
# ["121.419,31.200","121.419,31.201","121.420,31.199","1...]
# ...
複製程式碼

加了 expand = True 會將陣列拆開，陣列中的每一個元素都會單獨儲存。

mobike["track"].str.split("#",expand = True)
# "121.372,31.118" "121.372,31.119" "121.373,31.117" "1... 
# "121.419,31.200" "121.419,31.201" "121.420,31.199" "1...
# ...
複製程式碼

到這裡相當於將列中所有文字拆成了一個巨大的表，表中每個單元格有一個值。有些行拆分後的元素比較少，沒有值可以填充的單元格補充 None

stack() 會把整個表逐行堆疊成一列。

這樣就成功的將一列中的所有文字拆分成了多行，而且它是一個 dataframe 。不過到這裡還沒有結束，我們還需要將拆出來的這個 dataframe 與原資料集合並。

注意到拆分出來的 dataframe 是多重索引的，需要用 reset_index() 將多重索引重置掉。在 split() 的時候，我們引入了超級多的 None。這時候就可以通過 reset_index(..., drop =True)將值為 None 的行刪除。

與原資料集通過 join() 合併的時候，A.join(B),A、B兩個 DataFrame 都需要有名字，因此需要 rename("track")。

至此，我們的任務算做完了。

彩蛋

我在列拆分為多行的基礎上，還將 track 拆分成了兩個變數——track_x,track_y。這裡用到了 pandas 的函式對映進行資料轉換。

mobike["track" = mobike["track"].split(",")
mobike["track_x"] = mobike["track"].map(lambda x:x[0])
mobike["track_y"] = mobike["track"].map(lambda x:x[1])
複製程式碼

通過 map 進行列的擴充套件速度非常非常快。

本文用到的摩拜資料及演示 notebook 均可在 DataWranglingMethod下載。

Oracle以逗號分隔的字串拆分為多行資料
2021-07-13
Oracle字串
Excel 如何批次將矩陣（多行多列）資料轉為單行或單列資料
2024-03-29
Excel矩陣
Python - pandas 利用某一列的值過濾資料
2024-06-17
Python
利用shell中awk和xargs以及sed將多行多列文字中某一列合併成一行
2024-06-15
pandas資料處理清洗案例：中文地址拆分
2021-06-15
在oracle中將一行字串拆分成多行
2024-08-05
Oracle字串
pandas 兩列資料合併
2020-11-18
Python利用pandas處理資料與分析
2024-03-25
Python
利用Tushare資料介面+pandas進行股票資料分析
2022-06-05
oracle一列拆分為多列
2022-09-26
Oracle
[譯] 使用 Python 的 Pandas 和 Seaborn 框架從 Kaggle 資料集中提取資訊
2019-02-27
Python框架
Excel將一列資料變為兩列
2019-02-24
Excel
利用python爬取某殼的房產資料
2024-05-05
Python
利用CONCATENATE公式將Excel資料轉化為SQL
2024-06-09
公式ExcelSQL
python 將Mnist資料集轉為jpg，並按比例/標籤拆分為多個子資料集
2021-08-15
Python
【MySQL】MySQL如何合併多行資料，行轉列，group_concat 多行合併
2020-11-26
MySql
Oracle 對某列的部分資料建立索引
2020-05-23
Oracle索引
pandas.DataFrame讀取特定的列並刪除某列空值所在的行
2018-12-12
pandas 將函式應用到列（qbit）
2022-12-29
函式
CSS 多行文字居中
2019-06-25
CSS
利用Jquery的map函式將json資料行轉化為表格
2024-06-22
jQuery函式JSON
Excel 快速合併多行資料為一行
2018-07-30
Excel
利用陣列處理批次資料
2024-10-23
陣列
HTML textarea 多行文字框
2019-09-20
HTML
利用Jackson的JsonFilter來實現動態過濾資料列（資料列權
2021-09-09
JSONFilter
一句話實現欄位拆分成多行
2020-06-18
處理pandas讀取資料為nan時
2024-06-24
NaN
pandas將Excel的所有行轉化為列表list
2019-02-20
Excel
直播系統原始碼，讀取多行文字、讀取檔案分割多行文字
2023-02-27
原始碼
層級查詢並將層級拆分成多列
2022-12-01
Pandas之:深入理解Pandas的資料結構
2021-06-11
資料結構
Oracle 多行分多列
2024-09-07
Oracle
python pandas DataFrame-A 更新 DataFrame-B中指定列相同的資料
2024-05-26
Python
Android支援多行文字省略Ellipsize
2019-02-23
Android
CSS多行文字垂直居中效果
2018-07-12
CSS
pandas 列操作
2020-12-17
css3多行文字多行文字縮略點選更多展開顯示全部
2024-04-21
CSSS3
為什麼說集中管理資料是個壞主意？
2021-06-23

利用 Pandas 將資料集中的某列文字拆分為多行

背景

資料格式

神來之筆

工作原理

彩蛋

相關文章