第一篇之認識大資料

akbarken發表於2013-09-26

大資料(Big data)

大資料(Big data)通常用來形容一個公司創造的大量非結構化和半結構化資料,這些資料在下載到關係型資料庫用於分析時會花費過多時間和金錢。大資料分析常和雲端計算聯絡到一起,因為實時的大型資料集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。

戰略意義

大資料技術的戰略意義不在於掌握龐大的資料資訊,而在於對這些含有意義的資料進行專業化處理。

分類

大資料可分成大資料技術、大資料工程、大資料科學和大資料應用等領域。目前人們談論最多的是大資料技術和大資料應用。

4個“V”

大資料的4個“V”,或者說特點有四個層面:第一,資料體量巨大。從TB級別,躍升到PB級別;第二,資料型別繁多。前文提到的網路日誌、視訊、圖片、地理位置資訊等等。第三,價值密度低,商業價值高。以視訊為例,連續不間斷監控過程中,可能有用的資料僅僅有一兩秒。第四,處理速度快。1秒定律。最後這一點也是和傳統的資料探勘技術有著本質的不同。業界將其歸納為4個“V”——Volume,Variety,Value,Velocity。

換算單位

最小的基本單位是Byte,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、DB、NB,
  它們按照進率1024(2的十次方)來計算:
  1Byte = 8 bit
  1 KB = 1,024 Bytes
  1 MB = 1,024 KB = 1,048,576 Bytes
  1 GB = 1,024 MB = 1,048,576 KB = 1,073,741,824 Bytes
  1 TB = 1,024 GB = 1,048,576 MB = 1,073,741,824 KB = 1,099,511,627,776 Bytes
  1 PB = 1,024 TB = 1,048,576 GB =1,125,899,906,842,624 Bytes
  1 EB = 1,024 PB = 1,048,576 TB = 1,152,921,504,606,846,976 Bytes
  1 ZB = 1,024 EB = 1,180,591,620,717,411,303,424 Bytes
  1 YB = 1,024 ZB = 1,208,925,819,614,629,174,706,176 Bytes
  1 DB = 1024 YB = 1,237,940,039,285,380,274,899,124,224 Bytes
  1 NB = 1024 DB = 1,267,650,600,228,229,401,496,703,205,376 Bytes

參考:http://baike.baidu.com/link?url=nj1pXN0tsfh0ecI2MrcrE3cXMU4e-cpfy-Jyfqbhrp7tbVLm71f2rVFIQ1ngZTf_uCZLcr3gTZyvJJ3AtKOlY_#refIndex_1_7093827

相關文章