儘管“大資料”一詞近年來屢遭熱捧

但很多人都還不知道什麼是大資料

更不知道大資料有甚卵用

這兩年，發現“大資料”這個詞出現的越來越頻繁了

不僅企業，連國家都在部署大資料戰略

一番百度了之後

Oh~ emmmmmmmmm~ +_+

還是沒搞懂大資料到底是個什麼玩意兒

直到有一天

我發現一個秘密

不管我在網上搜尋什麼

頁面都會跳出我要搜尋的相關產品或關聯事物

然後，我恍然大悟！

所謂大資料，就是演算法！

它能夠“算”出我們“心中所想”

那麼問題來了

大資料技術是如何採集到我們的資訊的呢？

資料採集，又稱資料獲取，是利用一種裝置，從系統外部採集資料並輸入到系統內部的一個介面。在網際網路行業快速發展的今天，資料採集已經被廣泛應用於網際網路及分散式領域，比如攝像頭，麥克風，都是資料採集工具。

資料採集系統整合了訊號、感測器、激勵器、訊號調理、資料採集裝置和應用軟體。在資料大爆炸的網際網路時代，資料的型別也是複雜多樣的，包括結構化資料、半結構化資料、非結構化資料。結構化最常見，就是具有模式的資料。非結構化資料是資料結構不規則或不完整，沒有預定義的資料模型，包括所有格式的辦公文件、文字、圖片、XML, HTML、各類報表、影像和音訊/影片資訊等等。大資料採集，是大資料分析的入口，所以是相當重要的一個環節。

我們首先來了解一下資料採集的三大要點：

一、資料採集的三大要點

（1）全面性

資料量足夠具有分析價值、資料面足夠支撐分析需求。

比如對於“檢視商品詳情”這一行為，需要採集使用者觸發時的環境資訊、會話、以及背後的使用者id，最後需要統計這一行為在某一時段觸發的人數、次數、人均次數、活躍比等。

（2）多維性

資料更重要的是能滿足分析需求。靈活、快速自定義資料的多種屬性和不同型別，從而滿足不同的分析目標。

比如“檢視商品詳情”這一行為，透過埋點，我們才能知道使用者檢視的商品是什麼、價格、型別、商品id等多個屬性。從而知道使用者看過哪些商品、什麼型別的商品被檢視的多、某一個商品被檢視了多少次。而不僅僅是知道使用者進入了商品詳情頁。

（3）高效性

高效性包含技術執行的高效性、團隊內部成員協同的高效性以及資料分析需求和目標實現的高效性。也就是說採集資料一定要明確採集目的，帶著問題蒐集資訊，使資訊採集更高效、更有針對性。此外，還要考慮資料的及時性。

不同應用領域的大資料其特點、資料量、使用者群體均不相同。不同領域根據資料來源的物理性質及資料分析的目標採取不同的資料採集方法。

那麼，接下來我們再來了解一下常用的資料採集的方法。

常用的資料採集方法歸結為以下三類：感測器、日誌檔案、網路爬蟲。

（1）感測器

感測器通常用於測量物理變數，一般包括聲音、溫溼度、距離、電流等，將測量值轉化為數字訊號，傳送到資料採集點，讓物體有了觸覺、味覺和嗅覺等感官，讓物體慢慢變得活了起來。

（2）系統日誌採集方法

日誌檔案資料一般由資料來源系統產生，用於記錄資料來源的執行的各種操作活動，比如網路監控的流量管理、金融應用的股票記賬和 web 伺服器記錄的使用者訪問行為。

很多網際網路企業都有自己的海量資料採集工具，多用於系統日誌採集，如Hadoop的Chukwa，Cloudera的Flume，Facebook的Scribe等，這些工具均採用分散式架構，能滿足每秒數百MB的日誌資料採集和傳輸需求。

（3）Web 爬蟲

網路爬蟲是指為搜尋引擎下載並儲存網頁的程式，它是搜尋引擎和 web 快取的主要的資料採集方式。透過網路爬蟲或網站公開API等方式從網站上獲取資料資訊。該方法可以將非結構化資料從網頁中抽取出來，將其儲存為統一的本地資料檔案，並以結構化的方式儲存。它支援圖片、音訊、影片等檔案或附件的採集，附件與正文可以自動關聯。

此外，對於企業生產經營資料上的客戶資料，財務資料等保密性要求較高的資料，可以透過與資料技術服務商合作，使用特定系統介面等相關方式採集資料。比如八度雲端計算的數企BDSaaS，無論是資料採集技術、BI資料分析，還是資料的安全性和保密性，都做的很好。

資料的採集是挖掘資料價值的第一步，當資料量越來越大時，可提取出來的有用資料必然也就更多。只要善用資料化處理平臺，便能夠保證資料分析結果的有效性，助力企業實現資料驅動。

大資料技術是如何採集到我們的資訊的呢？

相關文章