在EMR中使用snappy壓縮的時候快速檢視壓縮前文字的內容

很贊發表於2017-12-19

在EMR的專案中,按理阿里雲目前提供的解決方案,大多數的同學可能都是使用的logtail做的日誌收集,然後通過logshipper投遞到oss中儲存。這麼配置以後,儲存在oss裡面的檔案都是snappy格式了,但是怎麼使用估計大部分同學是一臉懵逼的。

有兩個小的配置,可以方便的和使用gzip一樣使用snappy檔案。

1 hadoop fs -text的命令直接檢視。如果是直接使用的話,你看到的都是二進位制,直接把shell搞死。需要用下面的格式檢視

    hadoop fs -Dio.compression.codec.snappy.native=true -text oss://xxx/xx.snappy

2使用MR指令碼的時候,需要配置下,這個可能大部分同學都會,因為之前使用gzip的時候,也需要新增類似的配置項才能跑起來

    hadoop ……. -jobconf io.compression.codec.snappy.native=true


相關文章