tsv檔案在大資料技術棧裡的應用場景

公众号-JavaEdge發表於2024-03-11

原文網址 : https://www.cnblogs.com/JavaEdge/p/18067236

是的，\t 是指製表符（tab），它通常用作欄位分隔符在 TSV（Tab-Separated Values）格式的檔案中。TSV是一種簡單的文字格式，它使用製表符來分隔每一列中的值，而每一行則代表一個資料記錄。

TSV檔案例：

ID\tName\tAge\tCity
1\tJohn Doe\t28\tNew York
2\tJane Smith\t32\tLos Angeles

上面的例子中，\t表示每個值之間的製表符，用來區分不同的列。當你在文字編輯器或者程式碼中見到\t，它代表的在實際的檔案中通常是一個不可見的製表符。在大多數程式語言中，比如Python、Java等，製表符可以用跳脫字元"\t"來表示。

TSV（Tab-Separated Values）檔案因其簡單性在大資料技術棧中有許多應用場景。由於TSV檔案是文字檔案，容易被人和機器解讀，且與CSV（Comma-Separated Values）類似，只是使用製表符（Tab）作為值的分隔符，這使得TSV在處理某些包含逗號的資料時非常有用。以下是一些TSV檔案在大資料技術棧中的應用場景：

資料匯入：在大資料平臺中，TSV檔案常用於資料的匯入操作，例如可以將TSV檔案匯入Hadoop的HDFS系統或者資料庫系統如Hive中進行儲存和處理。
日誌檔案：很多系統生成日誌檔案時會選擇TSV格式，因為它易於解析，且與各種文字處理工具相容，如Unix/Linux的文字處理命令（awk, sed, cut）。
資料交換：TSV檔案可以作為一箇中間格式，方便不同系統或應用之間交換資料。比如，一個應用匯出TSV檔案，另一個應用再將其匯入。
MapReduce作業：在使用MapReduce進行資料處理時，輸入和輸出檔案往往會使用TSV格式。MapReduce中的Mapper和Reducer可以易於解析攜帶原始資料的TSV檔案。
與Hive整合：Hive支援基於文字的檔案格式包括TSV。透過Hive，可以輕鬆地在TSV格式的資料上執行SQL查詢。
Spark資料處理：Apache Spark可以讀寫TSV檔案，並在Spark SQL中對其進行轉換處理，例如使用DataFrame API。
Data Pipeline：在各種資料流水線工具（如Apache NiFi, Apache Airflow）中，TSV檔案經常用於資料的傳輸和暫時儲存。

TSV格式的缺點包括它不支援多行記錄和缺乏資料型別定義。不過，在資料匯入與匯出、日誌儲存，以及其他需要簡單、輕量級資料表示的場景中，TSV檔案是一個常用的選擇。

TSV檔案在Hadoop中如何匯入和儲存？

在Hadoop中匯入和儲存TSV檔案通常遵循以下步驟：

準備TSV檔案：
確保你的TSV檔案是準備好的，並且格式正確。這意味著每個欄位由製表符分隔，每行表示一個記錄。
上傳TSV檔案到HDFS：
使用Hadoop的hdfs dfs -put命令將TSV檔案從本地檔案系統上傳到HDFS。例如：

plaintext

   hdfs dfs -put /local/path/to/filename.tsv /hdfs/path/to/destination

建立Hive表：
如果你打算使用Hive分析你的TSV資料，需要在Hive中建立一個表，表結構應與TSV檔案的結構匹配。Hive表可以具體指定使用製表符作為欄位分隔符。

   CREATE TABLE my_table (
     column1 datatype1,
     column2 datatype2,
     ...
   )
   ROW FORMAT DELIMITED
   FIELDS TERMINATED BY '\t'
   STORED AS TEXTFILE
   LOCATION '/hdfs/path/to/destination';

在這個例子中，STORED AS TEXTFILE 指定了資料將以純文字形式儲存，欄位由製表符分隔。

執行資料載入：
如果檔案已經在正確的位置和格式，由CREATE TABLE語句指定的LOCATION，Hive可以直接查詢這些資料。
如果需要，也可以使用LOAD DATA語句將資料從一個HDFS位置載入到表中。

   LOAD DATA INPATH '/hdfs/path/to/filename.tsv' INTO TABLE my_table;

使用MapReduce或Spark：
如果不使用Hive，透過MapReduce或Apache Spark程式直接處理HDFS上的TSV檔案也是可能的。在MapReduce中，你需要編寫相應的Mapper和Reducer來解析TSV格式，並在Spark中，可以使用Spark SQL的DataFrame或Dataset API進行資料載入和轉換。

這些是在Hadoop環境中匯入和儲存TSV檔案的基本步驟。確保你有適當的許可權來訪問HDFS和執行Hive查詢，以及你的Hadoop叢集配置正確，能夠處理儲存和計算任務。

關注我，緊跟本系列專欄文章，咱們下篇再續！

作者簡介：魔都技術專家兼架構，多家大廠後端一線研發經驗，各大技術社群頭部專家博主。具有豐富的引領團隊經驗，深厚業務架構和解決方案的積累。

負責：

中央/分銷預訂系統效能最佳化

活動&優惠券等營銷中臺建設

交易平臺及資料中臺等架構和開發設計

目前主攻降低軟體複雜性設計、構建高可用系統方向。

參考：

程式設計嚴選網

本文由部落格一文多發平臺 OpenWrite 釋出！

資料湖Iceberg技術在小米的落地與場景應用
2022-11-24
大資料技術在電商的應用
2019-04-22
大資料
一篇文章詳解大資料技術和應用場景大資料
2018-10-22
大資料
Debias 技術在金融推薦場景下的應用
2023-03-28
從應用場景看棧
2019-03-29
滴滴大資料在汽車金融風控場景中的應用
2022-12-06
大資料
VMware Bitfusion GPU共享技術的應用場景
2020-10-10
GPU
大資料平臺架構技術選型與場景運用
2019-02-28
大資料架構
低延時音影片技術在OPPO雲渲染場景的應用
2023-04-07
大資料技術原理與應用
2018-11-12
大資料
大資料技術原理與應用——大資料概述
2018-07-10
大資料
Docker 的應用場景在哪裡
2024-10-25
Docker
淺析WebRTC技術在智慧園區影片管理場景中的應用
2024-08-29
Web
圖技術在美團外賣下的場景化應用及探索
2022-11-24
大資料建模、分析、挖掘技術應用
2022-08-19
大資料
流式圖計算在螞蟻大資料場景的應用
2023-11-14
大資料
大資料分析技術在新型智慧能源建設中的應用
2018-11-21
大資料
人工智慧在各個領域裡的應用場景
2020-02-07
人工智慧
大資料技術棧，主要有哪些
2020-06-15
大資料
String資料型別的應用場景
2020-09-26
資料型別
git 忽略檔案的幾種方式以及應用場景
2019-01-14
Git
LLVM技術在GaussDB等資料庫中的應用
2024-06-03
LVM資料庫
探碼智慧智慧大資料視覺化在應用場景中的實際案例
2018-06-21
大資料視覺化
資料探勘技術在軌跡資料上的應用實踐
2020-09-29
淺析人臉識別技術應用場景
2019-03-28
語音識別技術有哪些應用場景？
2023-01-10
關於大資料的建模、分析、挖掘技術應用
2022-08-03
大資料
大資料處理的關鍵技術及應用
2022-05-19
大資料
實現人工智慧應用場景的關鍵技術
2022-07-13
人工智慧
圖資料庫及應用場景
2018-10-16
資料庫
SAS 在內網監控軟體資料分析場景的應用
2024-10-28
內網
圖演算法、圖資料庫在風控場景的應用
2022-12-29
演算法資料庫
Redis的資料結構及應用場景
2018-12-21
Redis資料結構
sorted set 資料型別的應用場景
2020-09-26
資料型別
[譯] Java 資料流的不同應用場景
2019-01-02
Java
Redis的資料結構與應用場景
2021-02-18
Redis資料結構
區塊鏈技術物流應用場景開發方案,區塊鏈資料上鍊
2019-12-02
區塊鏈
大資料分析技術有哪些應用步驟
2021-10-18
大資料

tsv檔案在大資料技術棧裡的應用場景

TSV檔案在Hadoop中如何匯入和儲存？

相關文章