Flume:資料匯入到hdfs中

花和尚也有春天發表於2018-09-17

在前面的部落格上我說了flume就是三個最重要的地方,分別是分別是source、channel、sink,source是獲取資料,channel是通道,傳輸資料的,sink是把資料給誰的,這裡顯而易見的是把資料給hdfs的,所以我們只需要在前面的基礎上改sink就可以了

在之前的基礎上修改a.conf檔案中的sink

修改完後啟動hadoop

                

檢視程式是否開啟,其實這裡只需開dfs就行了,不需要啟動yarn

                 

接著啟動flume

 

新建一個檔案,因為我們配置的時候是監控目錄的,所以複製一個檔案到那個資料夾下

       

寫入一些資料在test檔案中

        

接著把檔案移動到a1_test資料夾下

   

然後我們會發現flume有變化

前面那個箭頭是指我們移動過去的檔案傳輸到了一個目錄下面去了,並且改了一個名字,這是因為我在配置中寫了以時間來命名的,相關配置可以去官網上看,而後面那個箭頭指向的檔案的字尾是tmp,這是因為檔案還在寫入,寫完後它自動會把tmp去掉

然後登入我的hadoop

直接進入目錄/user/hadoop/flumedir

           

接著就會發現我剛剛移動過去的檔案的資訊

          

跟著箭頭一直點,這個目錄我也不知道是什麼

            

接著會發現一個00的目錄,我猜是以編號來命名資料夾的吧

              

最後終於發現了我們的檔案,是以FlumeData為字首,這個字首是預設的,自己也可修改,字尾是一串數字,這串數字是時間的資訊。

             

原文參考:https://blog.csdn.net/Gscsd_T/article/details/80098414

相關文章