Hive(structured | semi-structured | unstructured)
結構化資料(structured)、半結構化資料(semi-structured)
非結構化資料(unstructured)
結構化資料
結構化的資料是指可以使用關係型資料庫表示和儲存,表現為二維形式的資料。
一般特點是:資料以行為單位,一行資料表示一個實體的資訊,每一行資料的屬性是相同的。舉一個例子:
半結構化資料
半結構化資料是結構化資料的一種形式,它並不符合關係型資料庫或其他資料表的形式關聯起來的資料模型結構,但包含相關標記,用來分隔語義元素以及對記錄和欄位進行分層。因此,它也被稱為自描述的結構。
半結構化資料,屬於同一類實體可以有不同的屬性,即使他們被組合在一起,這些屬性的順序並不重要。
常見的半結構資料有XML、JSON、 HTML,對於對於兩個XML檔案,
第一個可能有
- 1
- 2
- 3
- 4
- 5
第二個可能為:
- 1
- 2
- 3
- 4
從上面的例子中,屬性的順序是不重要的,不同的半結構化資料的屬性的個數是不一定一樣的。有些人說半結構化資料是以樹或者圖的資料結構儲存的資料,怎麼理解呢?上面的例子中,<person>標籤是樹的根節點,<name>和<gender>標籤是子節點。透過這樣的資料格式,可以自由地表達很多有用的資訊,包括自我描述資訊(後設資料)。所以,半結構化資料的擴充套件性是很好的。
非結構化資料
顧名思義,就是沒有固定結構的資料。各種文件、圖片、影片/音訊等都屬於非結構化資料。對於這類資料,我們一般直接整體進行儲存,而且一般儲存為二進位制的資料格式
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31441024/viewspace-2155403/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Structured OutputStruct
- Spark Structured Streaming 解析 JSONSparkStructJSON
- 什麼是非結構化資料(unstructured data)?Struct
- LSM(Log Structured Merge Trees ) 筆記Struct筆記
- Spark 系列(九)—— Spark SQL 之 Structured APISparkSQLStructAPI
- spark structured-streaming 最全的使用總結SparkStruct
- C++17: 結構化繫結(Structured Bindings)C++Struct
- Hive --------- hive 的優化Hive優化
- [Hive]Hive排序優化Hive排序優化
- 【Hive】hive資料遷移Hive
- SQL(Structured Query Language,結構化查詢語言)SQLStruct
- HIVEHive
- 【Hive一】Hive安裝及配置Hive
- Flume和Hive整合之hive sinkHive
- Spark學習進度11-Spark Streaming&Structured StreamingSparkStruct
- Hive學習之Hive的安裝Hive
- Hive -------- hive常見查詢練習Hive
- HIVE基本語法以及HIVE分割槽Hive
- [Hive]Hive實現抽樣查詢Hive
- flink實戰--讀寫Hive(Flink on Hive)Hive
- hive匯出到csv hive匯出到excelHiveExcel
- spark with hiveSparkHive
- [hive]hive資料模型中四種表Hive模型
- [Hive]hive分割槽設定注意事項Hive
- 【大資料開發】Hive——Hive函式大全大資料Hive函式
- 2018-07-28-論文閱讀(1)-Learning Ensembled for Structured Prediction RulesStruct
- Cascade-LSTM: A Tree-Structured Neural Classifier for Detecting Misinformation Cascades(KDD20)StructORM
- hive on spark配置HiveSpark
- Hive學習Hive
- Hive 入門Hive
- Hive建立索引Hive索引
- hive 報錯Hive
- 初識HIVEHive
- Hive 常用操作Hive
- HBase vs HiveHive
- Hive shell 命令Hive
- hive去除空格Hive
- Hive安裝Hive