讀資料湖倉07描述性資料

躺柒發表於2024-10-05

1. 描述性資料

1.1. 基礎資料中包含不同型別的資料,而不同型別資料的描述性資料也存在顯著的差異

1.2. 儘管這些描述性資料存在根本性的差異,但透過描述性資料,我們可以全面瞭解基礎資料中的資料

1.3. 透過分析基礎設施中提供的描述性資料可以獲得更詳細的資料

  • 1.3.1. 分析基礎設施是通往詳細資料的路線圖

  • 1.3.2. 描述性資料會告訴分析人員如何定位所需資料,資料的含義,並指導其組合資料

1.4. 分析人員需要從分析基礎設施入手

  • 1.4.1. 描述性資料能為各種分析人員提供幫助,包括資料科學家、業務分析人員、文員,甚至是管理人員

  • 1.4.2. 對任何希望使用基礎資料的人來說,描述性資料都是非常有用的

1.5. 資料湖倉的基礎資料是非常有價值的

  • 1.5.1. 資料湖倉中最基本的資料是整合到基礎資料中的詳細資料

  • 1.5.2. 僅有詳細資料是不夠的,還需要描述性資料,只有將詳細資料和描述性資料結合起來,才能使資料湖倉發揮最大的作用

  • 1.5.3. 由於描述性資料描述了基礎資料中的詳細資料,因此分析人員可以輕鬆找到所需的詳細資料

2. 結構化資料

2.1. 資料模型

  • 2.1.1. 資料模型是對基礎資料中結構化資料的抽象表示

  • 2.1.2. 在實體關係圖層級上,我們會定義組織的主要實體及其之間的關係

  • 2.1.3. 實體關係圖的下一層級是資料項集,用於進一步描述實體

    • 2.1.3.1. 每個實體在實體關係圖中都有一個對應的資料項集,其中包括鍵、屬性以及實體之間的關係等

    • 2.1.3.2. 對於每一組資料項集,我們都可以找到其物理定義,包括實際定義、鍵標識、屬性的名稱、屬性的結構以及索引

  • 2.1.4. 資料模型可以被視為對組織內結構化資料的一種抽象

    • 2.1.4.1. 因為資料可能很快變得非常複雜,抽象可以使得設計師和分析人員更好地訪問和分析基礎資料中的資料

2.2. 後設資料

  • 2.2.1. 在對基礎資料中的結構化資料進行基礎設施分析時,後設資料定義也是很重要的一個部分

  • 2.2.2. 後設資料類似於資料模型的物理屬性

  • 2.2.3. 後設資料確實包含一些資料庫管理系統(Database Management System,DBMS)特有的物理特徵,這些特徵並不包含在資料模型的較低層次中

  • 2.2.4. 在物理層面上,後設資料包括資料庫管理系統所描述資料的實際定義,例如鍵、屬性和索引等要素

2.3. 結構化資料轉換

  • 2.3.1. 名稱轉換

  • 2.3.2. 編碼轉換

  • 2.3.3. 度量單位轉換

  • 2.3.4. 貨幣型別轉換

  • 2.3.5. 計算轉換

  • 2.3.6. 資料選擇轉換

2.4. 結構化資料來源

  • 2.4.1. 在對結構化資料進行基礎設施分析時,識別出結構化資料的資料來源是其中非常重要的一個步驟

  • 2.4.2. 結構化資料的起始來源是事務資料,我們可以從不同的來源收集與事務相關的資料

  • 2.4.3. 事務資料可以來自不同的資料來源

    • 2.4.3.1. 銀行櫃員活動

    • 2.4.3.2. 自動取款機活動

    • 2.4.3.3. 活期存款交易

    • 2.4.3.4. 航空公司訂票

2.5. 資料選擇標準

  • 2.5.1. 在對結構化資料進行基礎設施分析時,確定資料篩選條件是其中最重要的部分之一

  • 2.5.2. 僅僅識別出需要使用的演算法是不夠的,還必須明確計算中包括和排除了哪些資料

  • 2.5.3. 使用基礎資料進行分析的分析人員需要清楚瞭解參與計算的資料具體有哪些

2.6. 資料定義語言

  • 2.6.1. 資料定義語言(Data Definition Language,DDL)也是一個非常重要的部分

  • 2.6.2. 資料定義語言用於定義與資料庫管理系統相關的資料庫結構

  • 2.6.3. 資料定義語言始終包含對定義資料庫有用的其他資訊

2.7. 資料編碼

  • 2.7.1. 編碼是指儲存在資料庫中的有意義的值

2.8. 資料關係

  • 2.8.1. 應用程式支撐的關係

  • 2.8.2. 資料庫管理系統支援的關係

  • 2.8.3. 隱含關係

  • 2.8.4. 顯式關係

  • 2.8.5. 推理關係

2.9. 在結構化環境中,資料的上下文情境非常明確,主要體現在系統的結構中

  • 2.9.1. 對結構化環境來說,資料的上下文情境明確且顯式存在於結構化資料的後設資料中

  • 2.9.2. 在結構化環境中,資料的上下文情境由描述性資料本身的後設資料提供

3. 文字資料

3.1. 支援文字資料和文字資料分析的描述性資料是一類重要的描述性資料

3.2. 文字環境並沒有體現出明確的上下文情境

  • 3.2.1. 人們不會根據上下文情境說話,也不會根據明確的上下文情境寫作

  • 3.2.2. 下文情境會隱式地嵌入語言

3.3. 文字資料中也存在上下文情境,但是文字環境中上下文情境的定義方式與結構化環境中的不同

  • 3.3.1. 要理解文字環境中的上下文情境,有必要先消除文字的歧義

  • 3.3.2. 在文字資料分析中,上下文情境與結構化環境中的上下文情境一樣重要

3.4. 上下文情境在分析基礎設施中扮演著非常重要的角色,可以幫助我們理解資料湖倉中的基礎資料

3.5. 本體

  • 3.5.1. 文字資料的描述性資料的主要組成部分是本體

  • 3.5.2. 本體是由兩個或多個相關分類標準的集合構成

  • 3.5.3. 一般來說,本體提供對業務或學科的完整描

  • 3.5.4. 通用本體主要包括通常使用的單詞和術語,對通用術語而言,通用本體的主題並不重要

  • 3.5.5. 行業本體則包含特定行業的術語,例如,醫療行業有醫療術語,法律行業有法律術語,會計行業有會計術語等

  • 3.5.6. 定製本體包含企業特定的名稱

3.6. 分類標準

  • 3.6.1. 文字資料還需要熟悉分類標準

  • 3.6.2. 分類標準僅僅是一個分類片語

  • 3.6.3. 在分類標準中,每個單詞都與其他元素具有相同的類別關

  • 3.6.4. 分類標準是本體的一部分

  • 3.6.5. 本體的內容是異構的,而分類標準的內容是同質的

  • 3.6.6. 一個分類標準僅包含與該分類關係相同的分類資料

  • 3.6.7. 與本體不同,分類標準的內容是同質的

  • 3.6.8. 僅僅依靠本體和分類標準進行文字分析是不夠的,文字分析還有很多其他要求

3.7. 關聯

  • 3.7.1. 文字消歧需要一個元素,那就是尋找隱含在文字中的業務規則

    • 3.7.1.1. 這種形式的業務規則被稱為關聯

3.8. 上下文情境

  • 3.8.1. 與業務規則相關的是上下文情境的處理過程,而上下文情境則是文字消歧的本體和分類標準解決方案的必要組成部分

  • 3.8.2. 透過將本體和分類標準作為指南,可以消除許多文字的歧義,但是很多其他形式的文字並沒有採用本體和分類標準

  • 3.8.3. 法律合同和實驗室報告就是典型的非自由格式文字

    • 3.8.3.1. 單詞的含義通常需要透過文字資料的上下文情境進行推導

3.9. 文字資料來源

  • 3.9.1. 語音對話

    • 3.9.1.1. 語音對話需要進行轉錄,並且在此過程中往往會損失一定程度的準確性
  • 3.9.2. 電子郵件

    • 3.9.2.1. 電子郵件則依賴對垃圾郵件的過濾能力,以及清理和刪除系統開銷資料的能力

    • 3.9.2.2. 如果不對垃圾郵件進行過濾,電子郵件流的大小將不斷增長,最終難以處理

  • 3.9.3. 印刷資料

    • 3.9.3.1. 印刷資料需要透過光學字元識別進行轉錄,而其準確性與油墨列印的清晰度、字型以及紙張的穩定性等多種因素有關
  • 3.9.4. 電子文字

  • 3.9.5. 網際網路

    • 3.9.5.1. 網際網路取決於網際網路資料所在的站點,每個網際網路站點都是不同的,並且會經常發生變化
  • 3.9.6. 每一種文字資料來源都有自己的特點

4. 模擬/物聯網資料

4.1. 儘管大多數機器的監測資料都不重要,但偶爾也會出現引起人們極大興趣的模擬/物聯網資料

4.2. 需要進行資料蒸餾,將乏味的資料與有趣的資料分離開

4.3. 演算法

  • 4.3.1. 蒸餾演算法是一種特別有趣的演算法,這種演算法具有智慧,可以用於判斷模擬/物聯網資料是否有用

4.4. 閾值

  • 4.4.1. 除了用於分離模擬/物聯網資料的演算法以外,將定義的資料閾值作為引數進行進一步分析也很有意義

  • 4.4.2. 演算法的閾值決定了將記錄寫入訪問檔案的邊界

  • 4.4.3. 偶爾會出現超出正常範圍的測量值,測量值可能過高或過低

    • 4.4.3.1. 異常的記錄將被寫入訪問機率較高的檔案

    • 4.4.3.2. 記錄是否被寫入則取決於所設定的演算法閾值

4.5. 時間排序

  • 4.5.1. 時間排序方法可能會採集到分析人員感興趣的模擬/物聯網資料

  • 4.5.2. 分析人員可以為預期的、感興趣的活動選擇一個時間段,在這個時間段內發生的所有記錄都會被採集

  • 4.5.3. 與依靠預先設定閾值不同,分析人員也可以透過使用時間排序方法來監控活動

4.6. 資料來源

  • 4.6.1. 某些機器以一種速度收集資料

  • 4.6.2. 其他機器則可能以另一種速度收集資料

  • 4.6.3. 某些機器具有很高的精度

  • 4.6.4. 有些機器的精度則很低

  • 4.6.5. 採用一種測量方法來收集資料

  • 4.6.6. 使用不同的測量方法

5. 資料血緣

5.1. 所有不同型別的資料都包含能夠反映資料血緣的資料

5.2. 在組織中,資料從一個資料庫流向另一個資料庫是很常見的現象

5.3. 對使用資料湖倉基礎資料進行工作的分析人員來說,資料血緣是非常有用的

相關文章