大資料開發有哪些難點?

xyz藍月發表於2019-06-04

今天我們聊聊大資料開發,大資料開發共有四個階段:資料採集,資料匯聚,資料轉換和對映,資料應用 。那麼每一個階段,他們的難點有都是什麼呢?

資料採集

資料採集有線上和線下兩種方式,線上一般透過爬蟲、透過抓取,或者透過已有應用系統的採集,在這個階段,我們可以做一個大資料採集平臺,依託自動爬蟲(使用python或者nodejs製作爬蟲軟體),ETL工具、或者自定義的抽取轉換引擎,從檔案中、資料庫中、網頁中專項爬取資料,如果這一步透過自動化系統來做的話,可以很方便的管理所有的原始資料,並且從資料的開始對資料進行標籤採集,可以規範開發人員的工作。並且目標資料來源可以更方便的管理。

資料採集的難點在於多資料來源,例如mysql、postgresql、sqlserver 、 mongodb 、sqllite。還有本地檔案、excel統計文件、甚至是doc檔案。如何將他們規整的、有方案的整理進我們的大資料流程中也是必不可缺的一環。

【大資料開發學習資料領取方式】:加入大資料技術學習交流群458345782,點選加入群聊,私信管理員即可免費領取

資料匯聚

資料的匯聚是大資料流程最關鍵的一步,你可以在這裡加上資料標準化,你也可以在這裡做資料清洗,資料合併,還可以在這一步將資料存檔,將確認可用的資料經過可監控的流程進行整理歸類,這裡產出的所有資料就是整個公司的資料資產了,到了一定的量就是一筆固定資產。

資料匯聚的難點在於如何標準化資料,例如表名標準化,表的標籤分類,表的用途,資料的量,是否有資料增量?,資料是否可用? 需要在業務上下很大的功夫,必要時還要引入智慧化處理,例如根據內容訓練結果自動打標籤,自動分配推薦表名、表欄位名等。還有如何從原始資料中匯入資料等。

資料轉換和對映

經過資料匯聚的資料資產如何提供給具體的使用方使用?在這一步,主要就是考慮資料如何應用,如何將兩個?三個?資料錶轉換成一張能夠提供服務的資料。然後定期更新增量。

經過前面的那幾步,在這一步難點並不太多了,如何轉換資料與如何清洗資料、標準資料無二,將兩個欄位的值轉換成一個欄位,或者根據多個可用表統計出一張圖表資料等等。

資料應用

資料的應用方式很多,有對外的、有對內的,如果擁有了前期的大量資料資產,透過restful API提供給使用者?或者提供流式引擎 KAFKA 給應用消費? 或者直接組成專題資料,供自己的應用查詢?這裡對資料資產的要求比較高,所以前期的工作做好了,這裡的自由度很高。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69903766/viewspace-2646744/,如需轉載,請註明出處,否則將追究法律責任。

相關文章