大資料概論(2)
1.什麼是大資料?
大資料指無法在一定時間範圍內用常規軟體工具進行捕捉、管理和處理的資料集合,是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產。
2.大資料來源
大資料的來源非常廣泛,如資訊管理系統、網路資訊系統、、物聯網系統、科學實驗系統等,其資料型別包括結構化資料、半結構化資料和非結構化資料。
(1)資訊管理系統:企業內部使用的資訊系統,包括辦公自動化等。資訊管理系統主要通過使用者資料和系統二次加工的方式產生資料,其產生的大資料大多數為結構化資料,通常儲存在資料庫中。
(2)網路資訊系統:基於網路執行的資訊系統即網路資訊系統是大資料產生的重要方式,如電子商務系統、社交網路、社會媒體、搜尋引擎等都是常見的網路資訊系統。網路資訊系統產生的大資料多為半結構化或非結構化的資料。
(3)物聯網系統:物聯網是新- -代資訊科技,其核心和基礎仍然是網際網路,是在網際網路基礎上的延伸和擴充套件的網路,其使用者端延伸和擴充套件到了任何物品與物品之間,進行資訊交換和通訊,而其具體實現是通過感測技術獲取外界的物理、化學和生物等資料資訊。
(4)科學實驗系統:主要用於科學技術研究,可以由真實的實驗產生資料,也可以通過模擬方式獲取模擬資料。
3.什麼是髒資料?
髒資料(Dirty Read)是指源系bai統中的資料不在給定的範du圍內或對於實際業務毫無意義,zhi或是資料格式非法,dao以及在源系統中存在不規範的編碼和含糊的業務邏輯。
通俗的講,當一個事務正在訪問資料,並且對資料進行了修改,而這種修改還沒有提交到資料庫中,這時,另外一個事務也訪問這個資料,然後使用了這個資料。
因為這個資料是還沒有提交的資料,那麼另外一個事務讀到的這個資料是髒資料,依據髒資料所做的操作可能是不正確的。
- 殘缺資料
- 噪聲資料
- 冗餘資料
資料視覺化四個步驟:
- 識別目標需求
資訊需求是確保資料分析過程有效性的主要條件,並且可以為資料收集和分析提供明確的目標。識別資訊需求是管理者的責任。管理人員應根據決策和過程控制的需求提出資訊需求。就過程控制而言,管理者應識別用於支援過程輸入,過程輸出,資源分配的合理性,過程活動的優化以及過程異常的發現所需的資訊。
- 採集資料
收集資料的目的是確保資料分析過程有效的基礎。組織需要收集資料的內容,渠道和方法的計劃。
- 資料分析
分析資料是將通過處理,分類和分析收集到的資料轉化為有價值的資訊,通常使用排列圖、因果圖、分層法、調查表、散步圖、直方圖、控制圖、關聯圖、系統圖、矩陣圖、KJ法、計劃評審技術、PDPC法、矩陣資料圖等。
- 過程改進
資料分析是質量管理體系的基礎。組織的管理者應在適當時評估以下問題的有效性:首先,為決策提供的資訊是否充分和可信,以及由於資訊不足,不準確和滯後而導致決策錯誤的問題;第二個問題是資訊在持續改進質量管理體系、過程和產品方面起到的作用是否達到預期,以及在產品過程中使用資料分析是否有效?第三是收集目的是否明確,收集的資料是否真實,充分,資訊通道是否暢通。第四,資料分析方法是否合理,風險是否控制在可接受的範圍內;實用資料分析所需的資源是否得到保證。
相關文章
- 大資料技術概論大資料
- 大資料技術之大資料概論大資料
- Hadoop系列001-大資料概論Hadoop大資料
- 大資料與雲端計算概論大資料
- 資訊保安概論複習-2
- 大資料技術之Hadoop(入門)第1章 大資料概論大資料Hadoop
- 大資料 機器學習 演算法概論大資料機器學習演算法
- 資料庫事務概論資料庫
- 資料庫概論 (一)資料庫概念資料庫
- 大資料到底怎麼學:資料科學概論與大資料學習誤區大資料資料科學
- 2-1 電機篇-概論
- 資料庫系統概論 第一章 緒論資料庫
- Coursera北大《資料結構基礎》之概論資料結構
- 大資料全系技術概覽大資料
- 實驗課程名稱:資料庫系統概論資料庫
- 資訊保安概論複習3
- 資訊保安概論期末複習
- 大資料之概率論大資料
- 《資料庫系統概論》 (第4版) 個人筆記資料庫筆記
- 《資料庫系統概論》第一章筆記資料庫筆記
- 資訊保安與密碼學概論密碼學
- 大資料技術之Hadoop(入門) 第2章 從Hadoop框架討論大資料生態大資料Hadoop框架
- 作業系統2—作業系統概論(下)作業系統
- 王珊資料庫系統概論第5版視訊教材資料庫
- 【資料庫系統】資料庫系統概論====第十三章 資料庫技術發展資料庫
- 設計模式概論設計模式
- AI 知識概論AI
- 第1章 概論
- 股權和創業投資基金概論創業
- 大資料相關資料論文小結大資料
- 概覽資料庫索引資料庫索引
- 《資料庫系統概論》5.0——常見約束 大學生學習筆記(主鍵 外來鍵)資料庫筆記
- 概覽,如何管控資料
- CTR:2023年1-2月戶外廣告資料概覽
- 2. 大資料基礎大資料
- 大資料小白系列——HDFS(2)大資料
- 《離線和實時大資料開發實戰》(二)大資料平臺架構 & 技術概覽大資料架構
- 6-專案管理概論專案管理