一、物件資料庫
二、資料倉儲及資料探勘
資料倉儲是一個面向主題的、整合的、非易失的,且隨時間變化的集合
資料分配(對分片結果操作),將分片產生的片段分配儲存在各個場地上。解決資料分配的方法:
① 集中式:所有資料片段安排在一個場地上
② 分割式:所有全域性資料有且只有一份,分割成若干被分配在特定場地上的片段
③ 全複製式:全域性資料有多個副本,每個場地上有一個完整的資料副本
④ 混合式:介於分割與全複製之間
分散式資料庫目標(12個):
① 最基本特徵:本地自治、非集中式管理、高可用性
② 分佈透明性(獨立性):
1) 分片透明性:使用者無需考慮資料分片,最高層次的透明性
2) 位置透明性:使用者只需考慮資料分片情況,無需考慮資料分片位置
3) 區域性映像透明性:使用者既要了解全域性資料的分片情況,還有了解個片段的副本複製情況及位置分配情況
③ 複雜性:分散式查詢、事務管理
④ 其他:硬體獨立性、作業系統獨立性、網路獨立性、資料庫系統獨立性
分散式資料庫系統的恢復控制採用的最典型策略是基於兩階段的提交協議
兩階段的提交協議將場地的事務管理器分為協調者和參與者,通過協調者在第一階段詢問所有參與者事務是否可以提交,參與者做出應答,在第二階段協調者根據參與者的回答決定是否提交
並行資料庫系統:通過並行實現各種資料操作,如資料載入、索引建立、資料查詢等,可以提高系統的效能
優勢:增強的可用性:當儲存某個關係的產地系統崩潰時,可繼續使用儲存在別的場地的副本
實現並行DBMS的三種硬體結構:
① 共享記憶體系統(Shared Memory):多個人CPU通過連線網路進行通訊,並能訪問公共的主存。隨著CPU增加,造成記憶體衝突
② 共享磁碟系統(Shared Disk):每個CPU擁有自己的私有記憶體,並通過連線網路,直接訪問所有磁碟,通過網路實現CPU之間的資料交換,增加了通訊代價
③ 無資源共享系統(Shared Nothing):每個CPU擁有自己的記憶體和磁碟空間,並無公共區域,CPU之間所有通訊通過連線網路來實現。存在通訊代價,非本地磁碟的訪問代價高
④ 層次結構(Hierachical):前三種體系的結合。分為兩層,頂層時無共享結構,底層是共享記憶體或共享磁碟結構。整合了以上三種結構的優缺點
一維資料劃分:將大資料集水平劃分到多個磁碟上,可以通過並行讀寫有效利用多磁碟的I/O頻寬:
① 輪轉法:如果系統有n個CPU,將第i條記錄劃分到第i mod n 處理器的方法稱為輪轉劃分方法
② 雜湊法:使用特定的雜湊函式,作用於選定的屬性,將記錄劃分到不同的處理機
③ 範圍劃分法:首先對記錄進行排序,然後按照排序碼將其劃分成n個區域,使每個區域中近似含有相同數目的記錄,處於第i個區域的記錄分佈於處理機i
優缺點:
① 輪轉法可有效應用於需要訪問整個關係的查詢處理,當需要訪問部分記錄時,雜湊法和範圍法更優
② 範圍法可能會導致資料偏斜,也就是不同片含有的記錄數目特別大。資料偏斜會造成存有大片資料分片的處理機效能瓶頸問題
③ 雜湊法優點是:即使資料隨時間增加或減少,也能儲存均勻分佈
後設資料:關於資料的資料,或叫描述資料的資料。用以構造、維持、管理和使用資料倉儲,在資料倉儲中尤為重要
後設資料描述了資料的結構、內容、鏈和索引等內容
在資料倉儲中,後設資料分成技術型後設資料和業務型後設資料
OLAP(Online Analytical Processing)聯機分析處理,實現方法有三種:
① 基於多維資料庫的OlAP(MOLAP)
② 基於關聯式資料庫的OLAP(ROLAP)
③ 混合型的OLAP(HOLAP)
快照(Snapshot)是指定資料集合的一個完全可用拷貝,該拷貝包括相應資料在某個時間點(拷貝開始的時間點)的映像。快照可以是其所表示的資料的一個副本,也可以是資料的一個複製品,適合更新變化量小的資料。
聚類演算法:用於對集中的資料進行分組,使得每組內地資料儘量相似而不同組間資料儘可能不同
聚類演算法與分類演算法的區別:聚類是未知結果有多少類,既可以聚成10類,也可能聚成100類。分類演算法是已知
一共有多少類
關聯規則:用於表示資料內隱含的關聯性。例如:購買尿布的人往往會購買啤酒
支援度(pupport):{X, Y}同時出現的概率。例如{尿布,啤酒}同時出現的概率
注意:支援度沒有先後順序之分。{尿布,啤酒}的支援度等於{啤酒,尿布}的支援度
置信度(confidence):購買X的人,同時購買Y的概率。例如:購買尿布的人,同時購買啤酒的概率
三、XML資料庫
四、雲端計算資料庫
五、空間資料庫