RDD的快取

lmandcc發表於2021-11-11

原文網址 : https://www.cnblogs.com/lmandcc/p/15542167.html

RDD的快取/持久化

快取解決的問題

快取解決什麼問題?-解決的是熱點資料頻繁訪問的效率問題

在Spark開發中某些RDD的計算或轉換可能會比較耗費時間，
如果這些RDD後續還會頻繁的被使用到，那麼可以將這些RDD進行持久化/快取，
這樣下次再使用到的時候就不用再重新計算了，提高了程式執行的效率。

import org.apache.spark.rdd.RDD
import org.apache.spark.storage.StorageLevel
import org.apache.spark.{SparkConf, SparkContext}

object Demo16Cache {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("****").setMaster("local")
    val sc: SparkContext = new SparkContext(conf)
    val linesRDD: RDD[String] = sc.textFile("spark/data/words.txt")
    //加入快取的三種方式
    //方式一
    linesRDD.cache()//將常用的RDD放入快取中，增加效率
    //StorageLevel.MEMORY_ONLY 預設只放在快取中


    //方式二
    //linesRDD.persist()
    //def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

    //指定快取儲存方式
    linesRDD.persist(StorageLevel.MEMORY_AND_DISK)
    /**
     * 快取的儲存方式：推薦使用MEMORY_AND_DISK
     * object StorageLevel {
     * val NONE = new StorageLevel(false, false, false, false)
     * val DISK_ONLY = new StorageLevel(true, false, false, false)
     * val DISK_ONLY_2 = new StorageLevel(true, false, false, false, 2)
     * val MEMORY_ONLY = new StorageLevel(false, true, false, true)
     * val MEMORY_ONLY_2 = new StorageLevel(false, true, false, true, 2)
     * val MEMORY_ONLY_SER = new StorageLevel(false, true, false, false)
     * val MEMORY_ONLY_SER_2 = new StorageLevel(false, true, false, false, 2)
     * val MEMORY_AND_DISK = new StorageLevel(true, true, false, true)
     * val MEMORY_AND_DISK_2 = new StorageLevel(true, true, false, true, 2)
     * val MEMORY_AND_DISK_SER = new StorageLevel(true, true, false, false)
     * val MEMORY_AND_DISK_SER_2 = new StorageLevel(true, true, false, false, 2)
     * val OFF_HEAP = new StorageLevel(true, true, true, false, 1)
     */


    linesRDD.flatMap(word => word)
      .groupBy(word => word)
      .map(l => {
        val word = l._1
        val cnt = l._2.size
        word + "," + cnt
      }).foreach(println)

    val wordRDD: Unit = linesRDD.map(word => word)
        .foreach(println)

    //釋放快取
    linesRDD.unpersist()
  }
}

RDD中的checkpoint

RDD資料可以持久化到記憶體中，雖然是快速的，但是不可靠
也可以把資料放在磁碟上，也並不是完全可靠的，
我們可以把快取資料放到我的HDFS中，藉助HDFS的高可靠，高可用以及高容錯來保證資料安全

sc.setCheckpointDir(HDFS路徑)//設定checkpoint路徑，開發中一般設定為HDFS的目錄
RDD.checkpoint//對計算複雜且後續會被頻繁使用的RDD進行checkpoint

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.rdd.RDD
import org.apache.spark.storage.StorageLevel

object Demo17CheckPoint {
  def main(args: Array[String]): Unit = {
    val conf: SparkConf = new SparkConf().setAppName("spark").setMaster("local")
    val sc: SparkContext = new SparkContext(conf)
    val linesRDD: RDD[String] = sc.textFile("spark/data/words.txt")

    /**
     * RDD資料可以持久化到記憶體中，雖然是快速的，但是不可靠
     * 也可以把資料放在磁碟上，也並不是完全可靠的
     * 我們可以把快取資料放到我的HDFS中，藉助HDFS的高可靠，高可用以及高容錯來保證資料安全
     *
     */
    //設定HDFS的目錄
    sc.setCheckpointDir("spark/data/checkPoint")
    //對需要快取的RDD進行checkPoint
    linesRDD.checkpoint()
    linesRDD.flatMap(word => word)
      .groupBy(word => word)
      .map(l => {
        val word = l._1
        val cnt = l._2.size
        word + "," + cnt
      }).foreach(println)

    val wordRDD: Unit = linesRDD.map(word => word)
      .foreach(println)
  }

}

RDD中的快取/持久化與checkpoint的區別

1.儲存位置

快取/持久化資料存預設存在記憶體, 一般設定為記憶體+磁碟(普通磁碟)

Checkpoint檢查點:一般儲存在HDFS

2.功能

快取/持久化:保證資料後續使用的效率高

Checkpoint檢查點:保證資料安全/也能一定程度上提高效率

3.對於依賴關係:

快取/持久化:保留了RDD間的依賴關係

Checkpoint檢查點:不保留RDD間的依賴關係

4.開發中如何使用?

對於計算複雜且後續會被頻繁使用的RDD先進行快取/持久化,再進行Checkpoint

快取Apache Spark RDD - 效能調優
2019-01-08
快取ApacheSpark
Spark RDD詳解 | RDD特性、lineage、快取、checkpoint、依賴關係
2020-10-23
Spark快取
SparkSQL /DataFrame /Spark RDD誰快？
2020-08-15
SparkSQL
Redis的快取穿透、快取雪崩、快取擊穿的區別
2020-10-16
Redis快取穿透
快取穿透、快取擊穿、快取雪崩、快取預熱
2024-06-07
快取穿透
從CPU快取看快取的套路
2020-09-24
快取
快取穿透、快取擊穿、快取雪崩
2019-04-06
快取穿透
快取穿透、快取雪崩、快取擊穿
2020-10-28
快取穿透
RDD到底是什麼？RDD的API
2020-11-18
API
對於前端快取的理解（快取機制和快取型別）
2020-06-01
前端快取型別
瀏覽器的快取機制—強快取與協商快取
2020-11-06
瀏覽器快取
Redis快取擊穿、快取穿透、快取雪崩
2019-10-11
Redis快取穿透
[Redis]快取穿透/快取擊穿/快取雪崩
2024-08-17
Redis快取穿透
HTTP快取——協商快取（快取驗證）
2021-08-21
HTTP快取
Redis 的高效能快取機制的三類問題：快取擊穿、快取雪崩和快取穿透
2024-11-28
Redis快取穿透
快取穿透快取雪崩
2019-01-13
快取穿透
快取問題(一) 快取穿透、快取雪崩、快取併發核心概念
2020-11-10
快取穿透
快取穿透、快取擊穿、快取雪崩的場景以及解決方法
2024-07-17
快取穿透
快取穿透、快取擊穿、快取雪崩區別
2024-03-14
快取穿透
快取問題(四) 快取穿透、快取雪崩、快取併發解決案例
2020-11-10
快取穿透
Mybatis的快取
2021-01-16
MyBatis快取
ServiceWorker 快取與 HTTP 快取
2022-04-27
快取HTTP
mybatis快取-二級快取
2022-03-25
MyBatis快取
MyBatis快取機制（一級快取，二級快取）
2020-05-20
MyBatis快取
快取淘汰、快取穿透、快取擊穿、快取雪崩、資料庫快取雙寫一致性
2019-04-28
快取穿透資料庫
關於快取穿透、快取擊穿、快取雪崩的模擬與解決(Redis)
2020-12-07
快取穿透Redis
什麼是redis的快取雪崩與快取穿透
2019-08-04
Redis快取穿透
Mybatis的快取——一級快取和原始碼分析
2020-11-11
MyBatis快取原始碼
Redis詳解（十二）------ 快取穿透、快取擊穿、快取雪崩
2020-06-02
Redis快取穿透
什麼是redis快取雪崩、快取穿透、快取擊穿
2020-10-02
Redis快取穿透
分散式快取 - 快取簡介，常用快取演算法
2020-10-28
分散式快取演算法
快取穿透，快取擊穿，快取雪崩解決方案分析
2019-03-04
快取穿透
Redis——快取穿透、快取擊穿、快取雪崩、分散式鎖
2021-07-27
Redis快取穿透分散式
快取穿透、快取雪崩和快取擊穿是什麼？
2021-04-29
快取穿透
Redis快取穿透、快取雪崩、快取擊穿好好說說
2021-03-01
Redis快取穿透
快取最佳化（快取穿透）
2024-07-28
快取穿透
Web快取 – HTTP協議快取
2018-04-29
Web快取HTTP協議
清理 Conda 快取和 Pip 快取
2024-12-07
快取