13種資料型別 - forbes

banq發表於2019-07-16

這十三種資料型別其實就是不同業務領域中的資料:

1 . 大資料

大資料被定義為:大量的資料實際上不適合標準(關係)資料庫進行分析和處理,大資料是由人和機器生成的大量資訊引起的過程。

雖然'大資料'的定義可能略有不同,但每個資料集的根源都是非常大的,包含結構化,半結構化和非結構化資料的不同資料集,來自不同來源和不同數量,從位元組到zettabytes。傳統的關聯式資料庫很難(不是不可能)以低延遲捕獲,管理和處理它們,這很複雜。

大資料是驅動機器學習等因素的燃料,機器學習構成了人工智慧(AI)的基石。他說,通過挖掘(和分析)大資料,人們能夠發現模式,以更好地理解事情發生的原因。然後,他們還可以使用AI來預測未來可能發生的情況,並根據這些見解制定戰略方向。

2. 結構化,非結構化,半結構化資料

所有資料都有某種結構。在結構化資料和非結構化資料之間劃分,取決於資料是否具有預定義的資料模型以及是否以預定義的方式組織。

3. 帶時間戳的資料

帶時間戳的資料是一個資料集,它具有時間排序的概念,定義每個資料點被捕獲(事件時間)或收集(處理時間)的序列。

這種型別的資料通常用於收集行為資料(例如,網站上的使用者操作),因此是一段時間內行動的真實表示。擁有這樣的資料集對於正在研究負責預測或估計下一個最佳動作風格模型的系統的資料科學家來說是非常寶貴的,或者可以通過系統重放使用者步驟來執行旅程分析。

4. 機器資料

簡而言之,機器資料是由為現代企業提供動力的系統,技術和基礎設施創造的數字廢氣。

想象你的工作,駕駛聯網汽車到辦公室,登入電腦,撥打電話,回覆電子郵件,訪問應用程式。所有這些活動都會以一系列不可預測的格式建立大量機器資料,這些格式經常被忽略。

機器資料包括來自各種領域的資料,如應用程式程式設計介面(API),安全端點,訊息佇列,變更事件,雲應用程式,呼叫詳細記錄和來自工業系統的感測器資料,然而,機器資料很有價值,因為它包含客戶,使用者,交易,應用程式,伺服器,網路和移動裝置的所有活動和行為的明確,實時記錄。

5. 時空資料

時空資料描述了同一事件的位置和時間 - 它可以向我們展示物理位置中的現象如何隨時間變化。它可以描述點位置或更復雜的線,例如車輛軌跡,或構成國家,道路,湖泊或建築物足跡等地理物件的多邊形(平面圖)。

時空資料包含時間戳中的日期和時間資訊。 有效時間是現實世界中涵蓋的時間段。 事務時間 是已知儲存在資料庫中的事實的時間。

分析人員如何視覺化和與時空資料互動的例子包括:跟蹤移動車輛,描述人口隨時間的變化,或識別電信網路中的異常情況。決策者還可以執行後端資料庫計算,以查詢物件之間的距離或指定位置內包含的物件的摘要統計資訊。

6. 開放資料

開放資料是任何人可以免費獲得的資料(有機會對其應用分析)和重新發布的權利,不受版權,專利或其他控制機制的限制。如果它在人們實際上可以理解的方式來分享的內容開放資料才是有用的。它需要以標準化格式共享,並且可以輕鬆追溯到它的來源。

7. 暗資料

暗資料是未被使用的數字資訊,並且以某種形式處於休眠狀態。組織在其常規業務活動過程中收集,處理和儲存的資訊資產,但通常不能用於其他目的。

8. 實時資料 

分析中最具爆炸性的趨勢之一是能夠流動和處理實時資料。有些人認為這個術語本身就是一種誤稱,即資料的傳播速度與通訊速度一樣快,這並不比時間本身快......所以,從邏輯上講,即使實時資料也略微落後於實際的時間流逝在現實世界。但是,我們仍然可以使用該術語來指代即時計算,其發生速度與人類可以感知的速度一樣快。

邊緣計算和即將到來的5G上升等趨勢正在基於實時資料所帶來的機會獲得動力。資料即時的力量將是實現智慧城市的催化劑。實時資料可以幫助解決在道路交通事故中部署緊急資源,以及在全市範圍內更加順暢地幫助交通流量的所有方面。實時資料還可以在消費者和品牌之間提供更好的聯絡,允許根據位置和偏好在精確的時刻提供最相關的優惠。

9. 基因組學資料

基因組學資料是另一個需要專家理解的領域。基因組學資料涉及分析患者的DNA以識別新藥並通過個性化治療改善護理。

10. 運營資料

公司擁有大資料:他們有應用程式日誌和指標,他們有事件資料,他們有來自微服務應用程式和第三方的資訊。除資料科學家和IT專家外,他們如何將這些資料轉化為決策者和非技術團隊可以使用的商業洞察力?

11. 高維資料

高維資料是與面部識別技術相關的一個術語。由於人臉上輪廓的數量非常複雜,我們需要新的資料表示式,這些資料具有多方面的能力,能夠處理能夠描述面部物理學中存在的所有細微差別和個性的計算。與此相關的是特徵臉的概念,即 當它們用於計算以處理人臉識別時給予一組特徵向量的名稱  。

12. 未驗證的過期資料

這是已收集的資料,但沒有人知道它是相關的,準確的還是正確的型別。從業務角度來說,如果您信任未經驗證的資料,那麼您就不應該相信任何基於此的決策。沒有驗證的資料只是垃圾。

相關文章