1.前期基本架構圖

2.最終基本架構圖


3.版本
Flume: 1.7
Hadoop: 2.7.3
Scala: 2.11
Kafka: 0.10.1.0
Spark: 2.0.2
InfluxDB: 1.2.0
Grafana: 4.1.1
maven: 3.3.9

4.主要目的
主要是想基於Exec Source開發自定義外掛AdvancedExecSource，將機器名稱和服務名稱新增到cdh 服務的角色log資料的每一行前面，則格式為：機器名稱服務名稱年月日時分秒.毫秒日誌級別日誌資訊   ；
然後在後面的spark streaming 實時計算我們所需求：比如統計每臺機器的服務的每秒出現的error次數、統計每5秒的warn，error次數等等；
來實時視覺化展示和郵件簡訊、微信企業號通知。

  其實主要我們現在的很多監控服務基本達不到秒級的通知，都為5分鐘等等，為了方便我們自己的維護；
  其實對一些即將出現的問題可以提前預知；
  其實最主要可以有效擴充套件到實時計算資料庫級別日誌，比如MySQL慢查詢日誌，nginx，tomcat，linux的系統級別日誌等等。


5.大概流程
1.搭建hadoop cluster
2.eclipse 匯入flume原始碼（window7 安裝maven，eclipse，eclipse與maven整合）
3.開發flume-ng 自定義外掛
4.flume 收集，匯聚到hdfs(主要測試是否匯聚成功，後期也可以做離線處理)
5.flume 收集，匯聚到kafka
6.搭建kafka monitor
7.搭建 spark client
8.window7裝ieda開發工具
9.idea開發 spark streaming 的wc
10.讀取kafka日誌，開發spark streaming的這塊日誌分析
11.寫入influxdb
12.grafana視覺化展示
13.整合郵件
說明：針對自身情況，自行選擇，步驟如上，但不是固定的，有些順序是可以打亂的，例如開發工具的安裝，可以一起操作的，再如這幾個元件的下載編譯，如果不
想編譯可以直接下tar包的，自行選擇就好，但是建議還是自己編譯，遇到坑才能更好的記住這個東西，本身這個專案就是學習提升的過程，要是什麼都是現成的，
那就沒什麼意義了

6.百度雲:   密碼：m2rs

7.GitHub: (歡迎大家單擊Star,持續關注)

00【線上日誌分析】之專案概述和GitHub專案地址

相關文章