大資料概論(2)

weixin_44989941發表於2020-11-25

1.什麼是大資料?

大資料指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。

2.大資料來源

大資料的來源非常廣泛,如資訊管理系統、網路資訊系統、、物聯網系統、科學實驗系統等,其資料型別包括結構化資料、半結構化資料和非結構化資料。
(1)資訊管理系統:企業內部使用的資訊系統,包括辦公自動化等。資訊管理系統主要通過使用者資料和系統二次加工的方式產生資料,其產生的大資料大多數為結構化資料,通常儲存在資料庫中。
(2)網路資訊系統:基於網路執行的資訊系統即網路資訊系統是大資料產生的重要方式,如電子商務系統、社交網路、社會媒體、搜尋引擎等都是常見的網路資訊系統。網路資訊系統產生的大資料多為半結構化或非結構化的資料。
(3)物聯網系統:物聯網是新- -代資訊科技,其核心和基礎仍然是網際網路,是在網際網路基礎上的延伸和擴充套件的網路,其使用者端延伸和擴充套件到了任何物品與物品之間,進行資訊交換和通訊,而其具體實現是通過感測技術獲取外界的物理、化學和生物等資料資訊。
(4)科學實驗系統:主要用於科學技術研究,可以由真實的實驗產生資料,也可以通過模擬方式獲取模擬資料。

3.什麼是髒資料?

髒資料(Dirty Read)是指源系bai統中的資料不在給定的範du圍內或對於實際業務毫無意義,zhi或是資料格式非法,dao以及在源系統中存在不規範的編碼和含糊的業務邏輯。

通俗的講,當一個事務正在訪問資料,並且對資料進行了修改,而這種修改還沒有提交到資料庫中,這時,另外一個事務也訪問這個資料,然後使用了這個資料。

因為這個資料是還沒有提交的資料,那麼另外一個事務讀到的這個資料是髒資料,依據髒資料所做的操作可能是不正確的。

  • 殘缺資料
  • 噪聲資料
  • 冗餘資料

資料視覺化四個步驟:

  • 識別目標需求

資訊需求是確保資料分析過程有效性的主要條件,並且可以為資料收集和分析提供明確的目標。識別資訊需求是管理者的責任。管理人員應根據決策和過程控制的需求提出資訊需求。就過程控制而言,管理者應識別用於支援過程輸入,過程輸出,資源分配的合理性,過程活動的優化以及過程異常的發現所需的資訊。

  • 採集資料

收集資料的目的是確保資料分析過程有效的基礎。組織需要收集資料的內容,渠道和方法的計劃。

  • 資料分析

分析資料是將通過處理,分類和分析收集到的資料轉化為有價值的資訊,通常使用排列圖、因果圖、分層法、調查表、散步圖、直方圖、控制圖、關聯圖、系統圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣資料圖等。

  • 過程改進

資料分析是質量管理體系的基礎。組織的管理者應在適當時評估以下問題的有效性:首先,為決策提供的資訊是否充分和可信,以及由於資訊不足,不準確和滯後而導致決策錯誤的問題;第二個問題是資訊在持續改進質量管理體系、過程和產品方面起到的作用是否達到預期,以及在產品過程中使用資料分析是否有效?第三是收集目的是否明確,收集的資料是否真實,充分,資訊通道是否暢通。第四,資料分析方法是否合理,風險是否控制在可接受的範圍內;實用資料分析所需的資源是否得到保證。

相關文章