00【線上日誌分析】之專案概述和GitHub專案地址

hackeruncle發表於2017-01-07
1.前期基本架構圖
00【線上日誌分析】之專案概述和GitHub專案地址


2.最終基本架構圖
          00【線上日誌分析】之專案概述和GitHub專案地址

3.版本

 Flume: 1.7
 Hadoop: 2.7.3
 Scala: 2.11
 Kafka: 0.10.1.0
 Spark: 2.0.2
InfluxDB: 1.2.0
Grafana: 4.1.1

 maven: 3.3.9
  
4.主要目的
 主要是想基於Exec Source開發自定義外掛AdvancedExecSource,將機器名稱 和 服務名稱 新增到cdh 服務的角色log資料的每一行前面,則格式為:機器名稱 服務名稱 年月日 時分秒.毫秒 日誌級別 日誌資訊  
 然後在後面的spark streaming 實時計算我們所需求:比如統計每臺機器的服務的
每秒出現的error次數 、統計每5秒的warn,error次數等等;
 來實時視覺化展示和郵件簡訊、微信企業號通知。
 

  其實主要我們現在的很多監控服務基本達不到秒級的通知,都為5分鐘等等,為了方便我們自己的維護;
  其實對一些即將出現的問題可以提前預知;
  其實最主要可以有效
擴充套件到實時計算資料庫級別日誌,比如MySQL慢查詢日誌,nginx,tomcat,linux的系統級別日誌等等

  
 

5.大概流程

1.搭建hadoop cluster
2.eclipse 匯入flume原始碼(window7 安裝maven,eclipse,eclipse與maven整合)
3.開發flume-ng 自定義外掛
4.flume 收集,匯聚到hdfs(主要測試是否匯聚成功,後期也可以做離線處理)
5.flume 收集,匯聚到kafka

6.搭建kafka monitor
7.搭建 spark client
8.window7裝ieda開發工具
9.idea開發 spark streaming 的wc
10.讀取kafka日誌,開發spark streaming的這塊日誌分析
11.寫入influxdb
12.grafana視覺化展示
13.整合郵件

說明:針對自身情況,自行選擇,步驟如上,但不是固定的,有些順序是可以打亂的,例如開發工具的安裝,可以一起操作的,再如這幾個元件的下載編譯,如果不
想編譯可以直接下tar包的,自行選擇就好,但是建議還是自己編譯,遇到坑才能更好的記住這個東西,本身這個專案就是學習提升的過程,要是什麼都是現成的,
那就沒什麼意義了


 
6.百度雲:   密碼:m2rs

7.GitHub:   (歡迎大家單擊Star,持續關注)

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/30089851/viewspace-2132037/,如需轉載,請註明出處,否則將追究法律責任。

相關文章