大資料面試問題

banq發表於2021-12-24

在這篇博文中,我們將看到一些在找工作時被問到的常見和重複的大資料面試問題。

1.定義大資料?
“大資料”是指規模超出典型資料庫軟體工具捕獲、儲存、管理和分析能力的資料集。這裡的資料大小是主觀的,因為它會隨著時間的推移而增加。
 

2.大資料有哪些不同的Vs?
大資料 V 有五個 V,即 Volume、Variety、Velocity、Veracity 和 Value,它們在將資料歸類為大資料方面發揮著重要作用。
資料的爆炸式增長引發了資料格式型別的革命。

  • 數量: 在過去十年中,隨著網路發展將更多裝置和使用者帶入網際網路網格,資料呈指數級增長。它與組織每天收集的資料量或大小有關。

  • 多樣性: 資料的爆炸式增長引發了資料格式型別的革命。它與組織收集的不同型別的資料有關。例如:CSV(逗號分隔值)、TSV(製表符分隔值)、XML(可擴充套件標記語言)等。

  • 速度: 與來自傳統來源的資料相比,網際網路上社交媒體平臺的爆炸式增長導致資料增長呈爆炸式增長。在過去十年中,來自社交媒體網站、移動裝置、企業、機器資料、感測器資料、Web 伺服器和人類互動等來源的大資料來源源不斷地湧現。它與我們獲取資料的速度有關。

  • 真實性: 並不總能保證所有產生和攝入大資料平臺的資料都包含乾淨的資料。真實性處理可能隨資料而來的偏差、噪音和異常。它與將資料攝取到組織的各種資料平臺時的資料清潔程度有關

  • 價值:在你的大資料叢集中獲取資料需要大量的時間和資源。我們需要絕對確定組織正在從收集的資料中獲得價值。

 

3. Apache Hadoop 與大資料有什麼關係?
大資料是某些傳統工具和技術無法分析的資料。Apache Hadoop 是可用於大資料分析的工具之一。
Apache Hadoop 是一個開源框架,用於儲存、處理和分析複雜的非結構化資料集,以從中獲取洞察力和情報。
 

4. 大資料有哪些不同的來源?
雖然大資料有多種來源,但以下是最常見的。

  • 基於IOT(物聯網)的感測器
  • 基於社交媒體的資料
  • 財務資料,例如信用卡號、銀行賬戶和信用評分
  • 電子商務網站點選流資料
  • 基於 GPS 的資料
  • 電信公司CDR(Call Detail Record)資料
  • 網際網路cookie

 

5. 什麼是大資料分類?
所有這些大資料來源都可以分為三個主要部分。

  • 機器
  • 人們
  • 組織

 

6. 有多少資料存在?
據估計,到 2025 年,全球將收集超過 150 Zettabytes 的資料。
 

7. 大資料資料有哪些型別?
我們可以將大資料大致分為三類,即結構化、半結構化和非結構化資料。

  • 結構化資料: 它具有預定義的模式,並以行和列檔案格式表示資料。

  • 半結構化:是一種兼具結構化和非結構化資料特點的自描述結構化資料。

  • 非結構化資料:這些是沒有預定義架構或資料模型的資料型別。

 

8. 大資料平臺有哪些組成部分?
典型的大資料平臺具有三個元件。它們是資料攝取、資料儲存和資料處理。大資料平臺相關的開發團隊需要按照以下步驟部署大資料模型。

  • 資料攝取

在這一步中,我們從上游源收集資料並將其攝取到資料平臺中。這裡的上游來源可以在組織內部,也可以來自組織外部,如社交媒體平臺、業務應用程式、日誌檔案、呼叫詳細記錄 (CDR)、資料倉儲等。
  • 資料儲存

在資料攝取階段收集和攝取資料後,將其儲存在資料平臺中。我們可以使用分散式儲存平臺(如 Hadoop 分散式檔案系統 (HDFS))儲存資料。
  • 資料處理

一旦資料被攝取和儲存,就需要對其進行處理以進行分析並在其上執行視覺化。為了讓使用者做到這一點,我們可以使用Hadoop MapReduce、Apache Spark、Apache Hive和Apache Pig等大資料工具。
 

9. 有哪些不同的資料處理技術?
藉助大資料處理方法,我們能夠對大資料集進行大規模分析。實際上,資料是以不同的模式收集的,如下所示。

  • 批次處理

這是基於離線的處理,主要用於基於商業智慧的報告
  • 實時流處理

這種型別的處理是在最近的資料切片上完成的。它主要用於資料分析、實時威脅監控、從金融交易資料中檢測欺詐。
這兩個用例是大資料領域中最流行的用例。
 

10. 商品硬體是什麼意思?
商品硬體是指需要執行 Apache Hadoop 和相關工具所需的最少資源和元件的計算機。
 

11.叢集是什麼意思?
在計算世界中,叢集是一組相互連線以協同工作以支援軟體或應用程式的計算機。如果我們要處理海量的資料集,我們需要在一個叢集中處理它們。

相關文章