玩轉大資料,你需要了解這8種專案型別!

OneAPM官方技術部落格發表於2016-05-30

【編者按】本文作者為大資料諮詢公司 Mammoth Data 的創始人 Andrew Oliver,主要介紹適宜應用大資料的8大專案型別。文章系國內 ITOM 管理平臺 OneAPM 編譯呈現,以下為正文。

在過去的 12 個月裡,筆者一直在大資料的戰壕裡挖掘。好吧,其實大部分時間我只是坐在比我更聰明的人旁邊,看他們怎麼在戰壕裡挖掘資料,再把所做的事情進行簡化以上報給管理層。

很少有真正獨具一格的 IT 專案,那些聽起來比較特別的專案最終也只是大同小異。不過你們今天有眼福了,因為我決定出來冒個泡兒,跟大家分享一下過去 12 個月裡接觸到的8大專案型別。

1、探索交易週期

那些做電子商務的公司想當然地認為,裝幾個工具就能掌握網頁訪客從銷售到付款的成交情況。但是很多公司處理的資料集遠遠不止網頁成交率,而且這些資料集主要來自經銷商。

每個經銷商提供格式各異的不同資料集。當然,從根本上說,這是一個帶有BI/視覺化前端的核心ETL/資料整合專案。但是,對許多公司而言,要真正瞭解交易的生命週期(從開始、進展到結束)比想象中要困難。你需要整合大量的 CRM 資料、網站分析資料和財務資料,最後才能肯定地說:“是的,PPC(點選付費廣告)帶來了交易,但是40%的客戶連第一筆交易都未能成功走到付款,那麼……”

2、挖掘潛在客戶

很多公司都想知道你在做什麼,然後再根據你的活動情況向你推銷產品。例如,你手機上可能裝了一個提供遙測資料的 app,這樣公司就會知道你在商場的哪個位置。憑藉這些大資料,他們就能預測你在任意時刻的購買需求。

3、衡量營銷效果

營銷人員做事講求效益,他們想知道具體要做哪些事情,以及這些事情對KPI有何影響。從本質上說,這又是一個 BI 專案,而且往往涉及到大量的變更資料捕獲(CDC)和 ETL 資料整合工作。他們測量的實際KPI變化很大,有時還涉及到 Kylin 或 Greenplum 等工具中的資料庫。至於其他情況,可能屬於下一個類別——社交媒體。

4、測量社交媒體熱度

通常,公眾會在公開或半公開的社交網路上談論你(或你的公司)。在這些地方你可以獲取很多有用的資訊,比如大家怎麼看待你的品牌,你的營銷活動是否有成效。既然美國地震勘探局可以通過 Twitter 探測到地震和震級,那麼你也可以通過這樣的平臺瞭解剛推出的廣告活動效果如何。隨著越來越多的專業社交平臺出現,對於某些垂直行業而言,其資料採集範圍遠遠不止 Twitter 和 Facebook。

5、專攻日誌檔案

無論是為了入侵檢測還是應對安全審計,你都需要捕獲並收集日誌檔案並使其可檢索。在這一領域,Splunk 無疑大賺了一筆。當然,在大資料中還有其他更靈活的選擇。

6、因為不想買Teradata!

現在已經不是 Teradata 獨統天下的時代了,大資料正在從邊緣向核心發展,而且 Apache Kylin 的資料庫已對所有人開放。得益於 Impala、HAWQ 和 Greenplum,MPP 分散式系統的地位也更加重要。那些價格昂貴、功能單一而且還不能相容其他資料分析的工具,其發展空間越來越小——更別說是那些只能依靠某單一供應商的私有云。

7、經久不衰的ETL

ETL (Extract-Transform-Load)可能依舊是如今最常見的Hadoop工作負載——而且我敢說,ETL 是適用於 Spark 的最常見的非流式工作負載。順便提一下,現在已經有上百個創業公司冒出來說自己能夠處理這種任務了。

8、先捕獲感測器資料再想辦法處理

不管是電網、製造業、水泵,還是老司機開的車,都在向我們傳遞資訊。這些資訊都需要捕獲。甚至有些人已經弄清了該如何處理這些資料。但是,及時捕獲資料才是最重要的一步,因為很多人都覺得從技術上來說捕獲資料並不那麼容易。

此外,筆者還經常督促大家在大資料專案初期就要考慮資料分析問題。為什麼呢?因為預先設計並確定好資料流的大小,遠比資料已經準備好時再重新考慮整體佈局要容易得多。但是有時候還是得細細咀嚼,做最好的打算。

近一年來,筆者見過不少其他專案型別,但是大多數用例都屬於以上八種之一。不知各位老司機是否還有補充?

OneAPM 能為您提供端到端的 Java 應用效能解決方案,我們支援所有常見的 Java 框架及應用伺服器,助您快速發現系統瓶頸,定位異常根本原因。分鐘級部署,即刻體驗,Java 監控從來沒有如此簡單。想閱讀更多技術文章,請訪問 OneAPM 官方技術部落格

本文轉自 OneAPM 官方部落格

相關文章