如何讀取HDFS上的csv/tsv檔案的Timestamp列 - Qiita

banq發表於2021-12-23

如何讀取放置在 HDFS 上的 csv/tsv 檔案的時間戳列，當一個包含 Timestamp 型別字串列的 csv/tsv 檔案被放置在 HDFS 上，讀入一個表，然後需要將該列插入另一個表的過程。我想知道 csv / tsv 檔案的 Timestamp 型別字串是否可以像 Hive 的 Timestamp 型別一樣讀取？

發現：

如果您使用的是 Hive 1.2.0 或更高版本，請按照https://issues.apache.org/jira/browse/HIVE-9298 中所述格式化每個表的時間戳。
在此之前，為了將包含 Timestamp 型別字串列的 csv/tsv 檔案讀取為外部表，最好將其轉換為 unixtime 並輸出。並且當插入到另一個表中時，它會透過 Hive 的查詢轉換為 Timestamp 型別。

1. 如果您使用的是 Hive 1.2.0 或更高版本
如果建立了表，將時間戳格式設定為讀取csv/tsv檔案的表的serdeproperty，如下所示：
ALTER TABLE hogehoge_table SET SERDEPROPERTIES ("timestamp.formats"="yyyy-MM-dd HH:mm:ss");
從現在開始建立表時，最好使用 DDL 進行設定。

CREATE EXTERNAL TABLE hogehoge_table (
  column_1         STRING,
  column_2         INT,
  target_column    TIMESTAMP
)
PARTITIONED BY (
  partition_column STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'
WITH SERDEPROPERTIES (
  "timestamp.formats"="yyyy-MM-dd HH:mm:ss"
)
LOCATION '<your hdfs file location>'
;

在任何情況下，target_column 都可以選擇為 Hive 的時間戳格式。

2. Hive 1.2.0以前版本
建立表讀取csv/tsv檔案時，設定為unixtime格式而不是Timestamp型別的字串。

CREATE EXTERNAL TABLE hogehoge_table (
  column_1         STRING,
  column_2         INT,
  target_column    BIGINT
)
PARTITIONED BY (
  partition_column STRING
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'
LOCATION '<your hdfs file location>'
;

將它插入另一個表時，它會被 SELECT 語句轉換：

INSERT OVERWRITE TABLE fugafuga_table
PARTITION (partition_column = 'aaa')
SELECT
  column_1
  ,column_2
  ,CAST(FROM_UNIXTIME(target_column, 'yyyy-MM-dd HH:mm:ss') AS TIMESTAMP) AS target_column
FROM hogehoge_table
WHERE partition_column = 'aaa'

如何獲取HDFS上檔案的儲存位置
2019-02-27
csv檔案的寫入和讀取
2024-06-08
python 使用字典讀取CSV檔案
2024-07-27
Python
Jmeter之讀取csv檔案踩坑記
2024-07-29
JMeter
R語言 - 讀取CSV檔案報錯
2020-11-26
R語言
jmeter 引數化 csv外掛的讀取檔案 bin目錄
2024-10-14
JMeter
php如何上傳txt檔案，並且讀取txt檔案
2020-12-12
PHP
Python 高階程式設計：深入解析 CSV 檔案讀取
2024-10-08
Python程式設計
C語言讀取寫入CSV檔案 [一]基礎篇
2022-02-23
C語言
python如何讀取大檔案
2021-09-11
Python
Python專案實踐：串列埠字串資料的讀取、分割與儲存到csv檔案
2020-12-15
Python串列埠字串
基於 java 註解的 csv 檔案讀寫框架
2019-06-03
Java框架
go–讀取檔案的方式
2019-02-16
Go
如何有效恢復誤刪的HDFS檔案
2020-12-01
csv格式檔案在win10上如何開啟_win10怎麼開啟csv格式檔案
2020-02-16
Win10
源資料檔案(.csv)中的空格串和空串對pandas讀取結果的影響
2020-10-01
ServiceNow如何匯出豎線分割的CSV檔案?
2024-06-28
讀取CSV資料
2020-10-12
Android讀取配置檔案的方法
2019-08-18
Android
CSV檔案讀取效能大決戰：Julia 、Python與R語言 - Deepak
2020-06-16
PythonR語言
spark直接讀取本地檔案系統的檔案
2024-06-06
Spark
5種高大上的yml檔案讀取方式，你知道嗎？
2022-01-21
如何使用File APIs來讀取檔案
2018-04-26
API
如何讀取和寫入JSON檔案
2023-12-21
JSON
如何在python中讀取配置檔案
2020-11-26
Python
Java中的獲取檔案的物理絕對路徑，和讀取檔案
2019-01-19
Java
從CSV檔案中讀取jpg圖片的URL地址並多執行緒批量下載
2019-02-16
執行緒
Hadoop之HDFS檔案讀寫流程說明
2018-05-21
Hadoop
python讀取yaml配置檔案的方法
2024-04-25
PythonYAML
新型任意檔案讀取漏洞的研究
2020-08-19
php讀取檔案的幾種方式
2021-09-09
PHP
任意檔案讀取
2024-06-10
Java 讀取檔案
2021-01-17
Java
linux 下MySQL命令列匯出csv檔案格式
2024-06-13
LinuxMySql命令列
FileReader()讀取檔案、圖片上傳預覽
2022-02-23
說說在 Python 中，如何讀取檔案中的資料
2019-04-13
Python
如何使用python把json檔案轉換為csv檔案
2021-03-12
PythonJSON
Pandas 基礎 (4) - 讀 / 寫 Excel 和 CSV 檔案
2019-03-08
Excel

如何讀取HDFS上的csv/tsv檔案的Timestamp列 - Qiita

相關文章