導讀	Spark 中 DataFrame 是 RDD 的擴充套件，限於其分散式與彈性記憶體特性，我們沒法直接進行類似 df.iloc(r, c) 的操作來取出其某一行。

從 Spark 的 DataFrame 中取出具體某一行詳解從 Spark 的 DataFrame 中取出具體某一行詳解

如何從 Spark 的 DataFrame 中取出具體某一行?

根據阿里專家Spark的DataFrame不是真正的DataFrame-秦續業的文章

DataFrame 應該有『保證順序，行列對稱』等規律
因此「Spark DataFrame 和 Koalas 不是真正的 DataFrame」
確實可以執行，但卻看到一句話，大意是資料會被放到一個分割槽來執行，這正是因為資料本身之間並不保證順序，因此只能把資料收集到一起，排序，再呼叫 shift。這樣就不再是一個分散式的程式了，甚至比 pandas 本身更慢。

我們可以明確一個前提：Spark 中 DataFrame 是 RDD 的擴充套件，限於其分散式與彈性記憶體特性，我們沒法直接進行類似 df.iloc(r, c) 的操作來取出其某一行。

但是現在我有個需求，分箱，具體來講，需要『排序後遍歷每一行及其鄰居比如 i 與 i+j』，因此，我們必須能夠獲取資料的某一行!

不知道有沒有高手有好的方法?我只想到了以下幾招!

1/3排序後select再collect

collect 是將 DataFrame 轉換為陣列放到記憶體中來。但是 Spark 處理的資料一般都很大，直接轉為陣列，會爆記憶體。

因此不能直接 collect 。

要處理哪一列，就直接 select('列名') 取出這一列就好，再 collect 。我的資料有 2e5 * 2e4 這麼多，因此 select 後只剩一列大小為 2e5 * 1 ，還是可以 collect 的。

這顯然不是個好方法!因為無法處理真正的大資料，比如行很多時。

2/3排序後加index然後用SQL查詢

給 DataFrame 例項 .sort("列名") 後，用 SQL 語句查詢：

select 列名 from df_table where 索引列名 = i

我對於 SQL 不是很瞭解，因此這個做法只是在構思階段。

此外，我不清楚 SQL 的效能!我要呼叫很多次 df.iloc[i, 列] ，那這樣會不會太慢了?

3/3排序後加index然後轉置查詢列名

這個想法也只是停留在腦子裡!因為會有些難度。

給每一行加索引列，從0開始計數，然後把矩陣轉置，新的列名就用索引列來做。

之後再取第 i 個數，就 df(i.toString) 就行。

這個方法似乎靠譜。

附加方案：ml.feature.Bucketizer

import org.apache.spark.ml.feature.{Bucketizer, QuantileDiscretizer}

spark中 Bucketizer 的作用和我實現的需求差不多(儘管細節不同)，我猜測其中也應該有相似邏輯。有能力和精力了應該去讀讀原始碼，看看官方怎麼實現的。

原文來自：

從 Spark 的 DataFrame 中取出具體某一行詳解

相關文章