系統日誌資料的採集

Scribe是Facebook開源的日誌收集系統，在Facebook內部已經得到大量的應用。它夠從各種日誌源上收集日誌，儲存到一箇中央儲存系統上，以便於進行集中的統計分析處理。 Scribe為日誌的“分散式收集，統一處理”提供了一個可擴充套件的、高容錯的方案。

Chukwa提供了一個對大資料量日誌類資料採集、儲存、分析和展示的全套解決方案和框架，可以用於監控大規模Hadoop 叢集的整體執行情況並對它們的日誌進行分析（相當於學校內無死角的監控攝像頭）。

資料清理透過填寫缺失值，光滑噪聲資料，識別或刪除離群點並解決不一致性來“清理”資料。資料清理的過程主要包括資料預處理、確定清理方法、檢驗清理方法、執行清理工具和資料歸檔。同時每個階段可以再分若干個任務。

資料整合是將來自多個資料來源的資料集整合到一起，但整合後的不可避免的會出現資料冗餘，原因主要有：代表同一概念的屬性在不同資料庫中可能具有不同的名字；有些屬性可能由於其他屬性匯出的。資料整合後可以再次進行資料清理、檢測和刪去由資料集帶來的冗餘。

資料歸約的目的是得到資料集的簡化表示。雖然資料集的簡化表示比原資料集的規模小得多，但仍然能夠產生幾乎同樣的分析結果。

資料變換是使用規範化、資料離散化和概念分層等方法使得資料的玩具可以在多個抽象層上進行。資料變換操作是引導資料探勘過程成功的附加預處理過程。

寶付大資料分析解析

相關文章