讀資料湖倉03不同型別的資料

躺柒發表於2024-09-30

1. 結構化資料

1.1. 結構化資料是資料湖倉中最常見的基礎資料之一

  • 1.1.1. 是技術領域中最早出現的資料環境之一

1.2. 每條記錄的結構都是相同的,即便不同記錄中的內容可能不同,但資料的基本佈局完全一樣

1.3. 結構化資料環境都經過了最佳化,計算機能以最優的方式處理結構化資料

1.4. 很多業務活動都會生成結構化記錄,這些結構化記錄類似於業務活動的日誌

1.5. 結構化記錄的設計非常嚴格

1.6. 結構化資料是基礎資料的重要組成部分

1.7. 鍵

  • 1.7.1. 結構化記錄中的鍵可以是唯一的,也可以是不唯一的

  • 1.7.2. 鍵在資料庫中以索引的形式存在,能夠協助高效地直接訪問資料

  • 1.7.3. 如果沒有索引,計算機在檢索特定記錄時,就必須執行低效且複雜的順序查詢(Sequential Search),即逐條檢索資料庫中的所有資料

  • 1.7.4. 有了索引以後,透過結構化記錄上的索引,就可以直接訪問特定記錄

  • 1.7.5. 隨著記錄在計算機中不斷累積,結構化記錄會被寫入表或資料庫中

  • 1.7.6. 在構建包含結構化資料環境的基礎資料時,將結構化資料抽象為資料模型是至關重要的

  • 1.7.7. 資料模型和實際的結構化資料一樣,都應該是可用的

1.8. 聯機事務處理

  • 1.8.1. 直接訪問資料庫中結構化資料的主要優勢之一是能夠進行聯機事務處理(Online Transaction Processing,OLTP)

  • 1.8.1.1. 自動提款機(Automated Teller Machine,ATM)

  • 1.8.1.2. 銀行櫃員處理和預訂系統

  • 1.8.2. OLTP的核心是快速、持續地執行事務

  • 1.8.2.1. 系統的可用性也是一個關鍵因素

  • 1.8.2.2. 如果系統當機,組織將無法正常開展業務

  • 1.8.3. OLTP系統遵循的準則是系統以最慢的速度進行交易,以確保每個事務使用最少的資源

  • 1.8.4. OLTP賦予了組織一個重要的能力,即能夠透過計算機使組織從繁瑣的工作中解脫出來

  • 1.8.5. 在OLTP中,緊急備份和恢復處理功能是必要的

  • 1.8.6. 如果一個事務在OLTP作業流處理過程中出現問題,那麼確保出現問題的事務不會破壞系統所使用的資料則非常重要

  • 1.8.7. 當事務可以線上更新資料時,必須防止另一個事務在同一時間更新相同的資料

  • 1.8.8. 多個事務同時對相同資料進行操作會產生衝突,從而破壞資料的完整性

1.9. 組織資料

  • 1.9.1. 資料倉儲的要求是將各個應用程式的資料整合到組織資料檢視中,以提高資料的完整性

2. 文字資料

2.1. 文字資料是最有用的資料型別之一

  • 2.1.1. 目前我們仍未充分利用它

2.2. 文字資料的呈現方式

  • 2.2.1. 純文字檔案

  • 2.2.2. Word檔案

  • 2.2.3. PDF檔案

  • 2.2.4. HTML網頁

  • 2.2.5. JSON檔案

  • 2.2.6. XML檔案

  • 2.2.7. 手稿

  • 2.2.8. 電子郵件

  • 2.2.9. 網站評論

  • 2.2.10. 部落格

  • 2.2.11. Excel單元格中的文字塊等

2.3. 儘管許多轉錄軟體產品和OCR產品並不完美,但它們在將音訊檔案和圖片檔案轉換為可用的文字資料方面還是表現不錯的

2.4. 文字資料往往都是不完整的且缺乏預定義的形式,同時大多陣列織還將文字資料與數字資料、圖片和細節混合儲存,這進一步增加了人們的困惑

2.5. 文字資料之所以有價值,是因為我們能夠提取有用的資料片段併為其新增上下文情境,從而透過分類、圖表或相關性對其進行解釋

2.6. 使用文字資料時的語言障礙

  • 2.6.1. 文字資料的形式極為複雜,處理起來也極其困難

  • 2.6.2. 全世界存在不少於7組主要字元構成的單詞和文字資料

  • 2.6.2.1. 包括美國字母表、多個阿拉伯字符集、俄語字母和希伯來字母表等

  • 2.6.3. 當前全球有超過7100種語言,其中23種屬於主要語言,全世界約80%的人口使用其中10種最主流的語言之一進行交流

  • 2.6.4. 目前文字資料沒有被廣泛使用的另一個原因是大多數人都不知道如何說好自己的語言

  • 2.6.4.1. 人們傾向於使用快捷說法、俚語以及不夠規範的動詞、名詞和形容詞

2.7. 多義詞

  • 2.7.1. 不使用文字資料的理由還有一個,那就是每個詞語在不同的上下文情境中可能具有多種含義

  • 2.7.2. 同一個詞語可能因句子中其他詞語的不同而具有完全不同的含義

2.8. 提取業務的含義

  • 2.8.1. 手動提取需要讓每位從事這項工作的員工接受相關培訓,使其理解文字中蘊含的語義

  • 2.8.1.1. 手動提取過程相對枯燥乏味,而且提取效果也因人而異

  • 2.8.2. 文字ETL(Extract-Transform-Load)

  • 2.8.3. 文字資料提取結果並不算完美

  • 2.8.4. 情感體現了對某一產品或情形的感受

  • 2.8.4.1. 情感不是一門精確的科學

  • 2.8.5. 自然語言處理(Natural Language Processing,NLP)能夠依據句子中的其他詞語來標記詞語

  • 2.8.5.1. NLP作為一門科學,與其說是關於文字提取的,不如將其理解為基於標記、演算法、人類假設和龐大測試資料集的文字預測

  • 2.8.6. 提取文字資料時需要上下文情境

  • 2.8.6.1. 在不降低結果質量的情況下,完成這種型別的文字資料提取所需要的時間和資源也會大大減少

2.9. 如果想要將文字資料轉化為可用的資料來源,就需要完成3個主要的資料清理步驟

  • 2.9.1. 需要從資料來源中提取文字資料並檢索文字內容

  • 2.9.2. 需要將資料轉換為可與其他資料共同使用的格式

  • 2.9.3. 需要將轉換後的資料載入到待解決業務問題的結構中

3. 模擬/物聯網資料

3.1. 機器生成的模擬/物聯網資料

  • 3.1.1. 機器生成的資料是由機器操作所生成的,當機器執行時,會生成遙測資料以度量機器的工作

  • 3.1.2. 機器可以透過多種途徑生成資料,例如透過攝像頭、熱感測器、壓力感測器等

  • 3.1.3. 在機器生成資料時,還會記錄許多其他引數

3.2. 當機器生成資料時,這些資料就會被儲存到某種儲存裝置中

  • 3.2.1. 工業裝置,如泵或車床

  • 3.2.2. 用於監視的攝像頭

  • 3.2.3. 手錶

  • 3.2.4. 無人機

  • 3.2.5. 車輛

  • 3.2.6. 當我們把有用的資料和無用的資料分開後,就可以把無用資料存入大容量儲存器,之後如果需要的話,無用資料也仍然能被檢索到

  • 3.2.6.1. 節省了儲存成本,因為大容量儲存器更便宜

  • 3.2.6.2. 處理資料所需時間更少

  • 3.2.6.3. 更易於資料分析

  • 3.2.7. 如果機器生成資料的環境構建得當,基礎資料就會進一步固化

3.3. 資料有用性的差異

  • 3.3.1. 大多數資料對企業等組織的業務來說並沒有價值

  • 3.3.2. 機器通常無法區分有用資料和無用資料,只是在不斷地執行並生成資料

  • 3.3.3. 機器生成的大部分資料都是糟粕資料(Dross Data)

  • 3.3.3.1. 糟粕資料是準確的資料,它反映了機器的執行情況

  • 3.3.3.2. 對企業等組織的業務來說是無用的

  • 3.3.3.3. 只有非糟粕的資料才是有用的資料

3.4. 攝像頭

  • 3.4.1. 雖然車輛被破壞時所拍攝的照片數量相對較少,不到所有已拍攝照片的萬分之一,但卻是非常重要的

  • 3.4.2. 對停車場來說,沒有必要保留那些沒有任何意義的照片,拍攝日常活動是沒有任何價值的

  • 3.4.3. 儲存那些不重要的照片既昂貴又浪費資源,但是儲存那些重要的照片是很有價值的

  • 3.4.4. 機器拍攝停車場照片的模式通常是無用的,只會在機器生成資料的世界中一次又一次地重複

  • 3.4.5. 幾乎所有的機器都會遇到記錄資料有用性方面的差異

  • 3.4.6. 管理機器生成的資料則是需要從無用資料中蒸餾出有用的資料

3.5. 人工審視

  • 3.5.1. 要想從無用資料中蒸餾出有用的資料,最原始的方法是透過人工審視資料

  • 3.5.2. 蒸餾資料的方法雖然有效,但卻相對粗暴,因為這意味著必須有人連續觀看數小時的影片(或以其他方式檢視收集的資料)​,才能獲得幾秒或幾條有用的記錄

  • 3.5.3. 如果不小心錯過影片中的重要部分,那麼這一關鍵資訊可能永遠無法被發現

  • 3.5.4. 唯一的好訊息是,雖然這種人工方法痛苦而粗暴,但卻總是有效的

  • 3.5.5. 不建議使用此方法,除非沒有其他更好的方法去訪問和蒸餾機器生成的資料

3.6. 日期分隔

  • 3.6.1. 按日期分隔資料

  • 3.6.2. 手動蒸餾模擬/物聯網資料是始終可用的,這樣總比什麼都沒有好

3.7. 資料篩選

  • 3.7.1. 篩選出可能需要的資料也是一種非常實用的方法,可以將不太可能需要的資料傳送到大容量儲存器,而將很有可能需要的資料傳送到高效能儲存器

  • 3.7.2. 部分不需要的資料仍然會儲存在高效能儲存器中,這也是處理機器生成的資料所必須付出的代價

3.8. 閾值方法

  • 3.8.1. 當資料進入高效能儲存器後,超過閾值的資料記錄立刻就顯而易見了,而其餘的資料則會被髮送到大容量儲存器中

  • 3.8.2. 閾值方法的問題在於必須設定一個閾值

  • 3.8.2.1. 如果閾值設定得太低,那麼分析人員將可能錯過重要的資料

  • 3.8.2.2. 如果閾值設定得太高,分析人員可能將一些不必要的資料儲存到高效能儲存器中

  • 3.8.3. 由於閾值方法能夠節省大量的空間和時間,因此如果可能的話,應該優先考慮使用閾值方法

3.9. 時間排序方法

  • 3.9.1. 蒸餾機器生成資料的另一種方法是時間排序方法

  • 3.9.2. 在時間排序方法中,我們需要確定哪些時間段更有可能儲存重要的資料

  • 3.9.2.1. 決定不保留晚上8:00到早上5:00的監控資料,因為在這個時間段停車場通常沒人

  • 3.9.2.2. 在正常情況下,停車場在特定時間內是沒有汽車的

  • 3.9.2.3. 但也可能出現其他罕見的情況

相關文章