1. 大容量儲存器
1.1. 幾乎是到最後時刻,大容量儲存器才被引入基礎資料的基礎設施中
-
1.1.1. 分析人員通常不會直接在大容量儲存器中進行資料分析
-
1.1.2. 大容量儲存器在基礎資料中扮演的角色也特別重要,它能夠在許多方面支援資料分析人員自由靈活地完成工作,也為資料湖倉的高效使用奠定了基礎
1.2. 大容量儲存器可以利用大量廉價的儲存介質儲存資料
1.3. 儘管大容量儲存器的訪問速度不夠快,效率也不夠高,但大容量儲存器可以持久儲存資料,而且還可以透過應用程式直接訪問
1.4. 大容量儲存器在許多方面與棒球比賽中的替補投手角色類似,儘管大容量儲存器在系統架構中可能不會起到突出作用,但也是絕對必要的
1.5. 優勢
-
1.5.1. 由於資料是以數字化形式儲存的,因此使用者仍然可以隨時訪問資料,並且能夠長期儲存
-
1.5.2. 在大多數情況下不會隨著時間的推移而產生資料異常問題
-
1.5.3. 大容量儲存器的真正優勢在於價格便宜
-
1.5.3.1. 採用大容量儲存器方案的使用者則可以承擔幾乎無限量的資料儲存
-
1.5.3.2. 大容量儲存器能夠有效降低整個組織的儲存成本
-
1.6. 缺點
-
1.6.1. 通常無法直接訪問資料
- 1.6.1.1. 在大容量儲存器中檢索資料時,我們需要按順序訪問
-
1.6.2. 當需要在大容量儲存器中檢索資料時,通常需要開發大量自定義應用程式,這嚴重限制了對大容量儲存器的使用
- 1.6.2.1. 不應該使用大容量儲存器來支援OLTP
1.7. 大容量儲存器適合儲存訪問機率較低的資料
1.8. 許多型別的資料都屬於低訪問機率的範疇
-
1.8.1. 法律要求組織長期儲存相關資料,即使這些資料被訪問的可能性很低
-
1.8.2. 在其他情況下,資料只是隨著時間的推移而變得陳舊和過時
1.9. 大容量儲存器也是儲存大多數機器生成資料的理想選擇,這些資料很可能不會被頻繁訪問或以其他方式用於分析,因為當機器正常執行並生成正常結果時,所生成的測量資料並不重要
1.10. 儘管大容量儲存器並非基礎資料的核心關注點,但它仍然是基礎資料重要和必要的組成部分
- 1.10.1. 大容量儲存器是高效能儲存器的基礎和補充
2. 訪問機率
2.1. 將訪問機率較低的資料儲存在大容量儲存器中,這樣,當系統需要檢索訪問機率較高的資料時,就無需檢索大容量儲存器中的資料,從而提高工作效率
2.2. 在實際場景中,當需要處理大量資料時,訪問機率較高的資料可能會“隱藏”在其他資料之後
2.3. 在低訪問機率的資料叢林中,確保高訪問機率的資料不被埋沒則非常重要
2.4. 提供高訪問機率的可用資料可以簡化分析人員的操作,加快檢索速度,降低資料檢索的處理成本
2.5. 透過區分資料訪問機率的高低,可以實現更高的收益
- 2.5.1. 需要確定哪些資料被訪問的機率高,哪些資料被訪問的機率低
2.6. 使用詞語並非確定訪問機率的唯一標準,更常見的方法是透過資料的年齡(Age of Data)來衡量
-
2.6.1. 隨著時間的推移,資料被訪問的機率會逐漸降低,不同資料降低的速度可能不同
-
2.6.2. 所有資料的訪問機率都會降低,當訪問機率降低時,就應該考慮採用大容量儲存器進行歸檔
3. 索引
3.1. 索引的作用是更高效地訪問資料,如果我們對資料的訪問機率有較高的預期,則可以為對應資料生成索引
3.2. 儘管大容量儲存器中資料的訪問機率較低,但仍然存在被訪問的可能性
-
3.2.1. 需要為大容量儲存器中的資料建立索引,這都是為了“以防萬一”
-
3.2.2. 這種型別的索引通常可以建立在有空閒的機器上
-
3.2.3. 如果需要檢索大容量儲存器中的資料,建立索引能夠節省大量時間
3.3. 當需要檢索大量資料時,檢索過程必須快速完成,而直接在大容量儲存器中進行檢索則無法滿足這個需求,因為這種方式是無法快速完成的
- 3.3.1. 在這種情況下,使用索引則可能解決這個問題
4. 後設資料
4.1. 大容量儲存器的另一個重要特點是對後設資料的需求
4.2. 雖然大容量儲存器中資料的訪問機率不高,但並不意味著大容量儲存器不需要後設資料
4.3. 如果我們在沒有後設資料的情況下將資料轉存到大容量儲存器中,那麼將很難再次找到並使用這些資料
4.4. 後設資料描述對於大容量儲存器和高效能儲存器同樣必不可少
5. 資料架構與資料工程
5.1. 資料架構與資料工程就像是技術領域的陰陽兩面
5.2. 沒有資料架構的資料工程就像沒有舵的船
- 5.2.1. 沒有資料架構的資料工程毫無意義
5.3. 架構師與工程師會共同構建複雜的資訊系統
-
5.3.1. 架構師注重考慮長期因素
-
5.3.2. 工程師則更關注戰術性的問題
5.4. 資料架構師與資料工程師之間同樣也是合作互補的關係,他們能夠融合彼此的技能和視角,共同建立一個現代化的資訊系統環境
5.5. 資料架構師和資料工程師共同合作建立了資料基礎——資料湖倉
-
5.5.1. 建立一個成功的資訊系統環境
-
5.5.2. 將自己的工作建立在另一角色所創造的基礎之上
6. 資料架構師和資料工程師共同興趣點
6.1. 結構化資料只是資料架構師與資料工程師的第一個共同興趣點
-
6.1.1. 資料架構師著眼於專案的大局和長期視野
-
6.1.1.1. 是在最高階別的模型中定義的
-
6.1.1.2. 在需要轉換時可以進行轉換
-
6.1.1.3. 具有完整的資料血緣
-
6.1.1.4. 被正確歸檔
-
6.1.1.5. 被設計用於容納大量資料
-
-
6.1.2. 資料工程師要關注專案的具體細節,包括程式碼、資料庫以及作業系統等方面的實現細節
-
6.1.2.1. 資料的標準化
-
6.1.2.2. 彙總和派生資料
-
6.1.2.3. 選擇正確的資料來源
-
6.1.2.4. 明確定義的轉換
-
6.2. 第二個共同興趣點是文字資料
-
6.2.1. 資料架構師與資料工程師在本體、分類標準、情感分析、相關性分析、語言、多義詞和縮略語等方面有共同的興趣點
-
6.2.2. 資料架構師對本體的完整性、大容量儲存器的使用以及將資料轉換為基礎資料等方面感興趣
-
6.2.2.1. 本體的來源
-
6.2.2.2. 分類標準的相互關係
-
6.2.2.3. 分類標準的重疊部分
-
6.2.2.4. 分類標準的層次級別
-
6.2.2.5. 分類標準的維護
-
-
6.2.3. 資料工程師對將文字轉換為資料庫的ETL、將要使用的資料庫、資料從大容量儲存器到高效能儲存器的流動等方面感興趣
-
6.2.3.1. 分類標準的新鮮度
-
6.2.3.2. 本體與組織實體之間的關係
-
6.2.3.3. 分類標準的完整性
-
6.2.3.4. 分類標準的具體程度
-
6.3. 第三個共同興趣點是組織中的模擬/物聯網資料
-
6.3.1. 都對用於資料蒸餾的演算法、模擬/物聯網環境中不同型別資料的資料結構和組成部分、大容量儲存器管理等方面感興趣
-
6.3.2. 資料架構師關注的方面包括即將面對的資料量、用於蒸餾的演算法、儲存在高效能儲存器中的資料內容和結構等
-
6.3.2.1. 模擬/物聯網資料建立的速率
-
6.3.2.2. 模擬/物聯網資料的粒度級別
-
6.3.2.3. 模擬/物聯網資料滿足的業務需求
-
6.3.2.4. 蒸餾演算法的效率
-
-
6.3.3. 資料工程師關注蒸餾演算法的實際編碼、將資料載入到大容量儲存器和高效能儲存器的過程、將高效能儲存器提供給終端使用者使用等方面
-
6.3.3.1. 對蒸餾後的資料進行維護的能力
-
6.3.3.2. 蒸餾演算法的精度
-
6.3.3.3. 蒸餾後的資料所經歷的分析處理過程
-
6.3.3.4. 偶爾需要重新定義蒸餾的引數
-
6.4. 第四個共同興趣點是跨不同資料型別跟蹤和移動資料的能力
- 6.4.1. 儘管並非所有資料都可以被用於跨資料型別的應用,但如果資料能夠在不同資料型別之間流動,就存在巨大的可能性
6.5. 第五個共同興趣點是資料血緣
-
6.5.1. 資料在組織內通常是流動的
-
6.5.2. 當我們移動資料時,就會發生資料轉換,而且一些資料會被反覆移動
-
6.5.3. 在整個組織的資料流中,我們需要考慮進行資料轉換的演算法和選擇用於轉換的資料
- 6.5.3.1. 當資料從一種資料型別轉換為另一種資料型別時,就會引發許多問題,這也是資料架構師與資料工程師都非常關心的問題