大資料面試問題
在這篇博文中,我們將看到一些在找工作時被問到的常見和重複的大資料面試問題。
1.定義大資料?
“大資料”是指規模超出典型資料庫軟體工具捕獲、儲存、管理和分析能力的資料集。這裡的資料大小是主觀的,因為它會隨著時間的推移而增加。
2.大資料有哪些不同的Vs?
大資料 V 有五個 V,即 Volume、Variety、Velocity、Veracity 和 Value,它們在將資料歸類為大資料方面發揮著重要作用。
資料的爆炸式增長引發了資料格式型別的革命。
- 數量: 在過去十年中,隨著網路發展將更多裝置和使用者帶入網際網路網格,資料呈指數級增長。它與組織每天收集的資料量或大小有關。
- 多樣性: 資料的爆炸式增長引發了資料格式型別的革命。它與組織收集的不同型別的資料有關。例如:CSV(逗號分隔值)、TSV(製表符分隔值)、XML(可擴充套件標記語言)等。
- 速度: 與來自傳統來源的資料相比,網際網路上社交媒體平臺的爆炸式增長導致資料增長呈爆炸式增長。在過去十年中,來自社交媒體網站、移動裝置、企業、機器資料、感測器資料、Web 伺服器和人類互動等來源的大資料來源源不斷地湧現。它與我們獲取資料的速度有關。
- 真實性: 並不總能保證所有產生和攝入大資料平臺的資料都包含乾淨的資料。真實性處理可能隨資料而來的偏差、噪音和異常。它與將資料攝取到組織的各種資料平臺時的資料清潔程度有關
- 價值:在你的大資料叢集中獲取資料需要大量的時間和資源。我們需要絕對確定組織正在從收集的資料中獲得價值。
3. Apache Hadoop 與大資料有什麼關係?
大資料是某些傳統工具和技術無法分析的資料。Apache Hadoop 是可用於大資料分析的工具之一。
Apache Hadoop 是一個開源框架,用於儲存、處理和分析複雜的非結構化資料集,以從中獲取洞察力和情報。
4. 大資料有哪些不同的來源?
雖然大資料有多種來源,但以下是最常見的。
- 基於IOT(物聯網)的感測器
- 基於社交媒體的資料
- 財務資料,例如信用卡號、銀行賬戶和信用評分
- 電子商務網站點選流資料
- 基於 GPS 的資料
- 電信公司CDR(Call Detail Record)資料
- 網際網路cookie
5. 什麼是大資料分類?
所有這些大資料來源都可以分為三個主要部分。
- 機器
- 人們
- 組織
6. 有多少資料存在?
據估計,到 2025 年,全球將收集超過 150 Zettabytes 的資料。
7. 大資料資料有哪些型別?
我們可以將大資料大致分為三類,即結構化、半結構化和非結構化資料。
- 結構化資料: 它具有預定義的模式,並以行和列檔案格式表示資料。
- 半結構化:是一種兼具結構化和非結構化資料特點的自描述結構化資料。
- 非結構化資料:這些是沒有預定義架構或資料模型的資料型別。
8. 大資料平臺有哪些組成部分?
典型的大資料平臺具有三個元件。它們是資料攝取、資料儲存和資料處理。大資料平臺相關的開發團隊需要按照以下步驟部署大資料模型。
- 資料攝取
在這一步中,我們從上游源收集資料並將其攝取到資料平臺中。這裡的上游來源可以在組織內部,也可以來自組織外部,如社交媒體平臺、業務應用程式、日誌檔案、呼叫詳細記錄 (CDR)、資料倉儲等。
- 資料儲存
在資料攝取階段收集和攝取資料後,將其儲存在資料平臺中。我們可以使用分散式儲存平臺(如 Hadoop 分散式檔案系統 (HDFS))儲存資料。
- 資料處理
一旦資料被攝取和儲存,就需要對其進行處理以進行分析並在其上執行視覺化。為了讓使用者做到這一點,我們可以使用Hadoop MapReduce、Apache Spark、Apache Hive和Apache Pig等大資料工具。
9. 有哪些不同的資料處理技術?
藉助大資料處理方法,我們能夠對大資料集進行大規模分析。實際上,資料是以不同的模式收集的,如下所示。
- 批次處理
這是基於離線的處理,主要用於基於商業智慧的報告
- 實時流處理
這種型別的處理是在最近的資料切片上完成的。它主要用於資料分析、實時威脅監控、從金融交易資料中檢測欺詐。
這兩個用例是大資料領域中最流行的用例。
10. 商品硬體是什麼意思?
商品硬體是指需要執行 Apache Hadoop 和相關工具所需的最少資源和元件的計算機。
11.叢集是什麼意思?
在計算世界中,叢集是一組相互連線以協同工作以支援軟體或應用程式的計算機。如果我們要處理海量的資料集,我們需要在一個叢集中處理它們。
相關文章
- 大資料面試可能遇到的問題大資料面試
- 大資料面試題——場景題大資料面試題
- 雲端計算大資料面試題,雲端計算大資料面試題集錦大資料面試題
- 知道創宇大資料面試題大資料面試題
- 寶蘭德大資料面試題大資料面試題
- 【面試題】大資料開發第1輪面試面試題大資料
- 大資料面試常見的面試題總結大資料面試題
- 大資料面試題以及答案整理(一)大資料面試題
- 大資料某公司面試題-附答案大資料面試題
- 大資料常見問題大資料
- 資料科學和機器學習面試問題資料科學機器學習面試
- 新手大資料必問十個問題大資料
- 資料庫sql的優化問題的面試題資料庫SQL優化面試題
- 資料分析的熱門 Excel 面試問題Excel面試
- 大資料常見問題之資料傾斜大資料
- 大資料數倉高階面試題整理《一》大資料面試題
- 大資料面試題整理-好程式設計師大資料面試題程式設計師
- 大廠必問的Redis面試題Redis面試題
- 十大微服務面試問題微服務面試
- 大資料資訊保安問題有哪些大資料
- 如何解決大資料安全問題大資料
- 資料探勘常見10大問題
- 資料庫面試題資料庫面試題
- 面試常問的20個資料庫高頻面試題詳解!資料庫面試題
- Hadoop大資料面試題全版本,必看跳槽指南!Hadoop大資料面試題
- 大廠面試經:高頻率JVM面試問題整理!面試JVM
- 大資料處理需留意哪些問題大資料
- 大資料的風險和現存問題大資料
- 24個必須掌握的資料庫面試問題~資料庫面試
- 面試問題記錄 二 (資料庫、Linux、Redis)面試資料庫LinuxRedis
- 資料庫面試時常見的26個問題資料庫面試
- access資料庫大資料量分頁的問題資料庫大資料
- 大廠Android面試,居然還問這些問題!Android面試
- 資料庫面試題型資料庫面試題
- Python面試必備的7大問題Python面試
- 大資料面試寶典五大資料面試
- 大資料面試那些事(1)大資料面試
- [大資料量]一個經常問的面試題,把7挑出來。大資料面試題