從 Spark 的 DataFrame 中取出具體某一行詳解

大雄45發表於2021-08-26
導讀 Spark 中 DataFrame 是 RDD 的擴充套件,限於其分散式與彈性記憶體特性,我們沒法直接進行類似 df.iloc(r, c) 的操作來取出其某一行。

從 Spark 的 DataFrame 中取出具體某一行詳解從 Spark 的 DataFrame 中取出具體某一行詳解

如何從 Spark 的 DataFrame 中取出具體某一行?

根據阿里專家Spark的DataFrame不是真正的DataFrame-秦續業的文章

DataFrame 應該有『保證順序,行列對稱』等規律
因此「Spark DataFrame 和 Koalas 不是真正的 DataFrame」
確實可以執行,但卻看到一句話,大意是資料會被放到一個分割槽來執行,這正是因為資料本身之間並不保證順序,因此只能把資料收集到一起,排序,再呼叫 shift。這樣就不再是一個分散式的程式了,甚至比 pandas 本身更慢。

我們可以明確一個前提:Spark 中 DataFrame 是 RDD 的擴充套件,限於其分散式與彈性記憶體特性,我們沒法直接進行類似 df.iloc(r, c) 的操作來取出其某一行。

但是現在我有個需求,分箱,具體來講,需要『排序後遍歷每一行及其鄰居比如 i 與 i+j』,因此,我們必須能夠獲取資料的某一行!

不知道有沒有高手有好的方法?我只想到了以下幾招!

1/3排序後select再collect

collect 是將 DataFrame 轉換為陣列放到記憶體中來。但是 Spark 處理的資料一般都很大,直接轉為陣列,會爆記憶體。

因此不能直接 collect 。

要處理哪一列,就直接 select('列名') 取出這一列就好,再 collect 。我的資料有 2e5 * 2e4 這麼多,因此 select 後只剩一列大小為 2e5 * 1 ,還是可以 collect 的。

這顯然不是個好方法!因為無法處理真正的大資料,比如行很多時。

2/3排序後加index然後用SQL查詢

給 DataFrame 例項 .sort("列名") 後,用 SQL 語句查詢:

select 列名 from df_table where 索引列名 = i

我對於 SQL 不是很瞭解,因此這個做法只是在構思階段。

此外,我不清楚 SQL 的效能!我要呼叫很多次 df.iloc[i, 列] ,那這樣會不會太慢了?

3/3排序後加index然後轉置查詢列名

這個想法也只是停留在腦子裡!因為會有些難度。

給每一行加索引列,從0開始計數,然後把矩陣轉置,新的列名就用索引列來做。

之後再取第 i 個數,就 df(i.toString) 就行。

這個方法似乎靠譜。

附加方案:ml.feature.Bucketizer

import org.apache.spark.ml.feature.{Bucketizer, QuantileDiscretizer}

spark中 Bucketizer 的作用和我實現的需求差不多(儘管細節不同),我猜測其中也應該有相似邏輯。有能力和精力了應該去讀讀原始碼,看看官方怎麼實現的。

原文來自:

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69955379/viewspace-2784526/,如需轉載,請註明出處,否則將追究法律責任。

相關文章