大資料開發-Spark-初識Spark-Graph && 快速入門

Hoult丶吳邪發表於2021-02-08

原文網址 : https://www.cnblogs.com/hulichao/p/14389473.html

1.Spark Graph簡介

GraphX 是 Spark 一個元件，專門用來表示圖以及進行圖的平行計算。GraphX 通過重新定義了圖的抽象概念來擴充了 RDD：定向多圖，其屬性附加到每個頂點和邊。為了支援圖計算， GraphX 公開了一系列基本運算子（比如：mapVertices、mapEdges、subgraph）以及優化後的 Pregel API 變種。此外，還包含越來越多的圖演算法和構建器，以簡化圖形分析任務。GraphX在圖頂點資訊和邊資訊儲存上做了優化，使得圖計算框架效能相對於原生RDD實現得以較大提升，接近或到達 GraphLab 等專業圖計算平臺的效能。GraphX最大的貢獻是，在Spark之上提供一棧式資料解決方案，可以方便且高效地完成圖計算的一整套流水作業。

圖計算的模式：

基本圖計算是基於BSP的模式，BSP即整體同步並行，它將計算分成一系列超步的迭代。從縱向上看，它是一個序列模式，而從橫向上看，它是一個並行的模式，每兩個超步之間設定一個柵欄（barrier），即整體同步點，確定所有並行的計算都完成後再啟動下一輪超步。

每一個超步包含三部分內容：
計算compute：每一個processor利用上一個超步傳過來的訊息和本地的資料進行本地計算
訊息傳遞：每一個processor計算完畢後，將訊息傳遞個與之關聯的其它processors
整體同步點：用於整體同步，確定所有的計算和訊息傳遞都進行完畢後，進入下一個超步

file

2.來看一個例子

圖描述

## 頂點資料
1, "SFO"
2, "ORD"
3, "DFW"
## 邊資料
1, 2,1800
2, 3, 800
3, 1, 1400

計算所有的頂點，所有的邊，所有的triplets,頂點數，邊數，頂點距離大於1000的有那幾個，按頂點的距離排序，降序輸出

程式碼實現

package com.hoult.Streaming.work

import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.graphx.{Edge, Graph, VertexId}
import org.apache.spark.rdd.RDD

object GraphDemo {
  def main(args: Array[String]): Unit = {
    // 初始化
    val conf = new SparkConf().setAppName(this.getClass.getCanonicalName.init).setMaster("local[*]")
    val sc = new SparkContext(conf)
    sc.setLogLevel("warn")

    //初始化資料
    val vertexArray: Array[(Long, String)] = Array((1L, "SFO"), (2L, "ORD"), (3L, "DFW"))
    val edgeArray: Array[Edge[Int]] = Array(
      Edge(1L, 2L, 1800),
      Edge(2L, 3L, 800),
      Edge(3L, 1L, 1400)
    )

    //構造vertexRDD和edgeRDD
    val vertexRDD: RDD[(VertexId, String)] = sc.makeRDD(vertexArray)
    val edgeRDD: RDD[Edge[Int]] = sc.makeRDD(edgeArray)

    //構造圖
    val graph: Graph[String, Int] = Graph(vertexRDD, edgeRDD)

    //所有的頂點
    graph.vertices.foreach(println)

    //所有的邊
    graph.edges.foreach(println)

    //所有的triplets
    graph.triplets.foreach(println)

    //求頂點數
    val vertexCnt = graph.vertices.count()
    println(s"頂點數：$vertexCnt")

    //求邊數
    val edgeCnt = graph.edges.count()
    println(s"邊數：$edgeCnt")

    //機場距離大於1000的
    graph.edges.filter(_.attr > 1000).foreach(println)

    //按所有機場之間的距離排序（降序）
    graph.edges.sortBy(-_.attr).collect().foreach(println)
  }
}

輸出結果

file

3.圖的一些相關知識

例子是demo級別的，實際生產環境下，如果使用到必然比這個複雜很多，但是總的來說，一定場景才會使用到吧，要注意圖計算情況下，要注意快取資料，RDD預設不儲存於記憶體中，所以可以儘量使用顯示快取，迭代計算中，為了獲得最佳效能，也可能需要取消快取。預設情況下，快取的RDD和圖儲存在記憶體中，直到記憶體壓力迫使它們按照LRU【最近最少使用頁面交換演算法】逐漸從記憶體中移除。對於迭代計算，先前的中間結果將填滿記憶體。經過它們最終被移除記憶體，但儲存在記憶體中的不必要資料將減慢垃圾回收速度。因此，一旦不再需要中間結果，取消快取中間結果將更加有效。這涉及在每次迭代中實現快取圖或RDD，取消快取其他所有資料集，並僅在以後的迭代中使用實現的資料集。但是，由於圖是有多個RDD組成的，因此很難正確地取消持久化。對於迭代計算，建議使用Pregel API，它可以正確地保留中間結果。
吳邪，小三爺，混跡於後臺，大資料，人工智慧領域的小菜鳥。
更多請關注
file

如何大資料開發入門
2023-12-07
大資料
[大資料之Spark]——快速入門
2019-03-17
大資料Spark
初識大資料
2019-06-30
大資料
大資料開發-Spark-拷問靈魂的5個問題
2021-01-31
大資料Spark
前端開發快速入門
2020-10-22
前端
HarmonyOS快速開發入門
2021-07-23
快速入門大資料訊息中介軟體
2021-01-04
大資料
我的.net開發歷程：初入快速開發
2021-09-09
大資料學習入門難，給初學者支招
2018-08-27
大資料
Hadoop v3.1 大資料技術快速入門
2022-06-21
Hadoop大資料
大資料入門
2019-04-08
大資料
Koa2開發快速入門
2019-02-21
GO 語言快速開發入門
2020-06-10
Go
教你零基礎如何快速入門大資料技巧
2019-05-12
大資料
資料庫運維初入門-SQL Server入門到跑路002-初使用
2019-10-15
資料庫運維SQLServer
面向初學者的快速入門tensorflow
2021-01-03
大資料入門001
2024-04-22
大資料
大話資料入門
2019-12-23
初識 MongoDB 和 .NET Core 入門
2020-10-18
MongoDB
「入門篇」初識JVM (下下) - GC
2022-04-01
JVMGC
初識ClickHouse——安裝與入門
2021-01-15
初學者入門大資料，學習Hadoop的5個理由
2018-09-02
大資料Hadoop
大資料hadoop 新手快速入門經典視訊教程
2019-03-10
大資料Hadoop
大資料學習路線教程圖，如何快速入門Spark
2019-12-23
大資料Spark
入門大資料開發行業！必備的十大基礎
2018-12-22
大資料行業
大資料分析入門基礎知識學什麼？
2023-12-06
大資料
hadoop大資料平臺安全基礎知識入門
2019-08-05
Hadoop大資料
大資料入門到精通，想入行大資料需要學習這些知識
2018-10-24
大資料
Web開發初探之JavaScript 快速入門
2020-10-04
WebJavaScript
一、鴻蒙開發-ArkTS快速入門
2024-11-10
鴻蒙
大資料應用開發如何入門需要知道這些
2018-11-26
大資料
有基礎學習大資料開發好不好入門
2021-03-22
大資料
Oracle資料庫初學者入門教程
2022-04-26
Oracle資料庫
Redis快取資料庫-快速入門
2023-03-08
Redis快取資料庫
【TVM 學習資料】TensorIR 快速入門
2023-03-02
大資料入門指南（GitHub開源專案）
2019-06-15
大資料Github
初識敏捷開發
2022-02-10
敏捷
如何快速入門Spark——千鋒大資料教程免費領取
2019-12-19
Spark大資料

大資料開發-Spark-初識Spark-Graph && 快速入門

1.Spark Graph簡介

2.來看一個例子

3.圖的一些相關知識

相關文章