Hive(structured | semi-structured | unstructured)

13545163656發表於2018-05-31


結構化資料(structured)、半結構化資料(semi-structured)

非結構化資料(unstructured) 



結構化資料

結構化的資料是指可以使用關係型資料庫表示和儲存,表現為二維形式的資料
一般特點是:資料以行為單位,一行資料表示一個實體的資訊,每一行資料的屬性是相同的。舉一個例子:

半結構化資料

半結構化資料是結構化資料的一種形式,它並不符合關係型資料庫或其他資料表的形式關聯起來的資料模型結構,但包含相關標記,用來分隔語義元素以及對記錄和欄位進行分層。因此,它也被稱為自描述的結構。

半結構化資料,屬於同一類實體可以有不同的屬性,即使他們被組合在一起,這些屬性的順序並不重要。

常見的半結構資料有XML、JSON、 HTML,對於對於兩個XML檔案,
第一個可能有

<person> <name>張三</name>  <age>20</age> <gender>female</gender>  </person> 
  • 1
  • 2
  • 3
  • 4
  • 5

第二個可能為:

<person>  <name>李四</name> <gender>male</gender> </person> 
  • 1
  • 2
  • 3
  • 4

從上面的例子中,屬性的順序是不重要的,不同的半結構化資料的屬性的個數是不一定一樣的。有些人說半結構化資料是以樹或者圖的資料結構儲存的資料,怎麼理解呢?上面的例子中,<person>標籤是樹的根節點,<name>和<gender>標籤是子節點。透過這樣的資料格式,可以自由地表達很多有用的資訊,包括自我描述資訊(後設資料)。所以,半結構化資料的擴充套件性是很好的。

非結構化資料

顧名思義,就是沒有固定結構的資料。各種文件、圖片、影片/音訊等都屬於非結構化資料。對於這類資料,我們一般直接整體進行儲存,而且一般儲存為二進位制的資料格式

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31441024/viewspace-2155403/,如需轉載,請註明出處,否則將追究法律責任。

相關文章