Spark2 Dataset持久化儲存級別StorageLevel

智慧先行者發表於2016-11-25

import org.apache.spark.storage.StorageLevel

// 資料持久快取到記憶體中
//data.cache()
data.persist()

// 設定快取級別
data.persist(StorageLevel.DISK_ONLY)
   
// 清除快取
data.unpersist
//data.unpersist(blocking=true)

 

 

級別 使用空間 CPU時間 是否在記憶體中 是否在磁碟上 備註
MEMORY_ONLY  
MEMORY_ONLY_2 資料存2份
MEMORY_ONLY_SER 資料序列化
MEMORY_ONLY_SER_2 資料序列化,資料存2份
MEMORY_AND_DISK 中等 部分 部分 如果資料在記憶體中放不下,則溢寫到磁碟
MEMORY_AND_DISK_2 中等 部分 部分 資料存2份
MEMORY_AND_DISK_SER 部分 部分  
MEMORY_AND_DISK_SER_2 部分 部分 資料存2份
DISK_ONLY  
DISK_ONLY_2 資料存2份
NONE          
OFF_HEAP           

相關文章