什麼是大資料測試?大資料測試實現步驟有哪些?

新夢想IT發表於2019-08-29

近兩年網際網路行業動不動就喊著“大資料”的口號,大資料的誕生讓很多企業節省人力物力實現精準營銷獲得豐厚利潤。 隨著資料工程和資料分析技術的不斷進步,大資料測試不可避免。

大資料是用於大量結構化或非結構化資料的術語,這些資料有可能提供一些資訊。談論大資料時,具體的資料量無從告之,但通常都是拍位元組(Petabytes)和艾位元組(Exabytes)數量級的。如此大量的資料很難整合。大資料,活潑的快速移動資料,有助於更好地瞭解客戶和產品,從而帶動業務增長。儘管有許多技術可用,技術人員仍然很難找出從哪裡開始。

什麼是大資料測試?大資料測試實現步驟有哪些? 大資料分析

大資料測試

測試大資料應用程式更多的是驗證其資料處理,而不是測試軟體產品的個別功能。當涉及到大資料測試時,效能和功能測試是關鍵。在大資料測試中,QA工程師使用叢集和其他元件來驗證對TB級資料的成功處理。因為處理非常快,所以它需要高水平的測試技能。

大資料應用程式的測試更多的是去驗證其資料處理而不是驗證其單一的功能特色。當然在大資料測試時,功能測試和效能測試是同樣很關鍵的。對於大資料測試工程師而言,如何高效正確的驗證經過大資料工具/框架成功處理過的至少百萬兆位元組的資料將會是一個巨大的挑戰。因為大資料高效的處理測試速度,它要求測軟體工程師具備高水平的測試技術才能應對大資料測試。

大資料處理的三個特性:1)大批次 2)實時性 3)可互動。另外,資料質量也同樣是大資料測試的一個重要維度。

因此在進行應用程式測試之前,必須確保資料質量,並且考慮把資料質量作為資料庫測試的一部分。涉及資料的各種特性的檢驗,例如一致性、準確性、重複性、連貫性、有效性及完整性等等。

大資料應用測試大體可以分為三步驟:

什麼是大資料測試?大資料測試實現步驟有哪些?

步驟一:資料階段驗證

大資料測試的第一步,也稱作pre-hadoop階段該過程包括如下驗證:

1)來自各方面的資料資源應該被驗證,來確保正確的資料被載入進系統。

2)將源資料與推送到Hadoop系統中的資料進行比較,以確保它們匹配。

3)驗證正確的資料被提取並被載入到HDFS正確的位置。

該階段可以使用工具Talend或Datameer,進行資料階段驗證。

步驟二:"MapReduce"驗證

大資料測試的第二步是MapReduce的驗證。在這個階段,測試者在每個節點上進行業務邏輯驗證,然後在執行多個節點後驗證它們,確保如下操作的正確性:

1)Map與Reduce程式正常工作。

2)在資料上實施資料聚合或隔離規則。

3)生成鍵值對。

4)在執行Map和Reduce程式後驗證資料。

步驟三:輸出階段驗證

大資料測試的最後或第三階段是輸出驗證過程。生成輸出資料檔案,同時把檔案移到一個EDW(Enterprise Data Warehouse:企業資料倉儲)中或著把檔案移動到任何其他基於需求的系統中。在第三階段的活動包括:

1)檢查轉換(Transformation)規則被正確應用。

2)檢查資料完整性和成功的資料載入到目標系統中。

3)透過將目標資料與HDFS檔案系統資料進行比較來檢查沒有資料損壞。

什麼是大資料測試?大資料測試實現步驟有哪些?

總結:

1)大資料測試不同於傳統的測試,不僅僅是型別、策略的不同,工具等具體技術都會有區別。

2)大資料因其複雜性,其測試所面臨的挑戰也會不同於傳統的測試。

3)大資料效能測試將會是軟體測試工程師進一步艱難攻克的目標之一。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69940641/viewspace-2655435/,如需轉載,請註明出處,否則將追究法律責任。

相關文章