資料中臺中的核心概念解析

danny_2018發表於2024-01-29

1、什麼是概念模型,邏輯模型,物理模型?

概念模型指的是對某一個領域或系統中的概念、屬性、關係等進行抽象和概括的模型,通常用來描述系統中的一些基本概念和它們之間的關係,以幫助人們更好地理解和分析系統。例如,一個零售業務的概念模型可能包括顧客、產品、訂單、支付等基本概念及其之間的關係。

邏輯模型指的是對某個系統或過程中流程、決策和控制的邏輯順序進行建模和分析的模型,通常用於定義和描述系統中的業務流程、決策規則和邏輯控制。例如,在一個訂單處理系統中,邏輯模型可能包括訂單接收、訂單稽核、訂單分配、交付等步驟及其邏輯順序和判斷條件。

物理模型指的是將概念模型和邏輯模型轉換為物理實現的模型,也就是系統的實際架構和部署方式。物理模型包括如何組織和實現系統的資料、應用程式、網路和硬體等方面的設計。例如,在一個訂單處理系統中,物理模型可能包括資料儲存方式、應用程式部署位置、網路架構和伺服器配置等方面的設計。

簡單的描述:

概念模型:只有實體名稱、沒有屬性,偏業務

邏輯模型:有實體的名稱、也有屬性,偏業務

物理模型:標準和規則,偏技術,物理模型可以直接到資料庫進行建立表。

資料模型的資料架構的顆粒度要足夠小,則靈活性越大,否則越容易返工。

建模的方法: 1)基於關係, 2)基於維度建模 3)基於事實 4)基於時間 5)非關係型

2、什麼叫資料的顆粒度?

資料的顆粒度指的是資料記錄的粒度大小,即資料記錄中所包含的資訊的詳細程度。資料的顆粒度越細,記錄的資訊就越詳細,反之則越粗略。

以銷售資料為例,如果我們記錄每一個產品,每一個顧客和每一個交易的詳細資訊,那麼資料的顆粒度就是很細的,可以獲得更詳細的銷售資料和顧客行為資訊,但需要記錄的資料量也會很大;如果我們只記錄每天的總銷售額和總交易次數,那麼資料的顆粒度就是粗略的,可處理的資料量少但資料處理效率高。

在實際應用中,對於不同的目的和需求,需要選擇適當的資料顆粒度進行記錄和分析。比如,對於銷售資料分析,通常需要記錄至少每一個訂單或每一個產品的銷售資訊,以便進行產品銷售分析和顧客行為分析等。

3、什麼是資料的域,什麼是主題域?

資料域指的是某個資料元素可取值的範圍或取值限制,它規定了這個資料元素可以取哪些值,以及取值的型別、格式、長度、精度等。

資料域可以理解為資料的“合法取值範圍”,它是對資料進行約束和限制的一種方式。例如,一個表示性別的資料元素,它的資料域可能限制只能取“男”或“女”兩個值;一個表示年齡的資料元素,它的資料域可能限制取值範圍在0-120歲之間等等。

在資料採集、儲存、處理和分析過程中,確定資料域非常重要。它可以避免無效資料進入系統,確保資料的準確性和一致性,提高資料處理的效率和正確性,保證資料的質量和可信度。

資料域的作用,可以實現資料庫中批次修改一個欄位 在不同表中的取值範圍,限制等,不需要一個一個的去不同表裡面去修改。提高資料處理的效率和正確性,保證資料的質量和可信度。

資料的主題域是業務的概念,資料的主題域指的是一個特定的主題或領域,包含了所有相關的資料和資訊。主題域通常是一個特定的資料集合或資料儲存,它圍繞一個明確定義的主題或領域來組織資料和資訊。

例如,一家電商網站的主題域可能包括產品、顧客、訂單、物流等方面的資料,這些資料都與電商經營和運營相關。一個醫療保健組織的主題域可能包括患者、疾病、醫生、藥物、醫療費用等方面的資料,這些資料都與醫療保健業務有關。

資料的主題域定義了一個完整的資料集合,它使得資料可以按照特定領域或業務的要求進行組織、查詢、分析和管理。主題域是資料倉儲、資料整合和資料分析的基礎,透過對主題域的定義和管理,可以使企業或組織更好地利用資料資源,提高業務決策的效率和準確性。

4、資料建模中的正向工程和逆向工程?

資料建模是指使用特定的建模軟體和技術,將現實世界中的事物和關係轉化為視覺化和可操作的資料模型。在資料建模過程中,正向工程和逆向工程是兩個重要的概念,分別表示從不同角度對資料建模進行處理的過程。

正向工程指的是從資料模型的圖示或文字描述生成目標系統的過程。具體來說,就是將建好的資料模型轉化為實際的計算機程式程式碼,在系統中實現資料的結構和功能。

逆向工程則是指從目標系統中已有的資料模型推匯出資料模型的圖示或文字描述的過程。它可以用來研究和理解已有系統的結構和功能,以及用於系統重構、升級、最佳化等目的。

在實際應用中,正向工程和逆向工程是資料建模過程中非常重要的工具和方法。正向工程可以幫助開發人員將資料模型轉化為實際可用的系統,加快系統的開發程式;逆向工程則可以幫助開發人員理解舊系統的結構和功能,更好地對其進行維護和最佳化。同時,這兩個工程也可以相互配合使用,例如,針對已有的系統進行逆向工程分析、確認結構,然後再針對分析結果進行正向工程開發,更好地利用已有系統的基礎。

5、資料治理的正常的順序?

1)後設資料、資料安全、資料架構設計

2)資料質量、資料標準、資料模型設計

3)主資料,資料倉儲建設、資料開發、資料服務

6、冷熱資料儲存在什麼資料庫中?

冷熱混合資料一般儲存在關係型資料庫(如MySQL、PostgreSQL、Oracle等)或者檔案資料庫(如MongoDB、Couchbase等)中,因為這些資料庫可以提供高度一致性、事務支援和較好的資料查詢效能。 也提供一些新增資料更新資料。

hdfs 趨向於冷資料儲存。SPL趨向儲存冷資料和分析型資料

熱資料則通常儲存在記憶體資料庫(如Redis、Memcached等)或者列儲存資料庫(如HBase、Cassandra等)中,因為這些資料庫可以提供更快速的資料訪問速度和更好的資料處理效能。

7、什麼是業務架構,什麼是資料架構,什麼是技術架構?

業務架構是指對企業的業務模式、流程、組織結構、管理模式等方面進行分析和設計,以達成業務目標並支援企業的使命和戰略。業務架構通常涉及業務流程設計、價值鏈分析、業務流程重設計、戰略規劃等方面。

資料架構是指企業採集、管理和使用資料的方式及其組織結構。資料架構包括資料模型、資料儲存方式、資料管理流程、資料治理規劃等等。

技術架構是指企業在實現業務和資料架構的過程中,所選擇的技術方案和技術層次結構,包括軟體、硬體和網路等。技術架構通常涉及系統設計原則、技術選型、架構設計、系統整合和部署等方面。 這三種架構相互關聯,是企業建設及運營的重要方面,應該被有效地統籌規劃和管理。

來自 “ ruby的資料漫談 ”, 原文作者:ruby的資料漫談;原文連結:https://mp.weixin.qq.com/s/lUAR8PiEZ8GDFa2LboEEOg,如有侵權,請聯絡管理員刪除。

相關文章