sql函式

牧野之月發表於2024-08-30

原文網址 : http://blog.itpub.net/28974745/viewspace-2143372/

1. presto：
1. array_position(applist_install, 'com.funtomic.matchmasters') > 0
2. split('joyit_daily_mas_cleaner','_')[3]—>presto 從1開始計位（spark從0開始計位）
3. 日期diff：
1. DATE_DIFF('day', DATE_PARSE('20220301', '%Y%m%d'), DATE_PARSE('20220313', '%Y%m%d'))
2. date_diff('day',to_date(datepart,'yyyy-mm-dd'),current_date)=1
4. 日期轉化：
+8小時：format_datetime((cast(create_time as timestamp) + interval '8' hour),'yyyyMMdd') ='20230927'
每月最後一天：last_day_of_month(to_date(dt,'yyyymmdd')

split_part(try_cast(from_unixtime((try_cast(event_time AS double)+8*60*60*1000)/1000) AS varchar),':',1)

1. 刪除分割槽 :
	1. ALTER TABLE table_name DROP IF EXISTS PARTITION(year = 2015, month = 10, day = 1);
2. 修改表名 alter table name rename to new name
3. 修改欄位名：Alter table table_name  change column 原欄位名稱  現欄位名稱  資料型別
4. 新增欄位名  alter table detail_flow_test add columns(original_union_id string);
5. 查詢是否字元是否包含 select strpos(addr,'北京')
6. json解析 select json_extract(feild,'$.name') as feild_name
7. 去重列轉行：array_sort(array_distinct(array_agg(欄位名)))
8. 展示儲存地址 ：show create table 表名

****2. spark
1. 動態分割槽要放在靜態分割槽之後寫入
2. MSCK REPAIR TABLE 修復分割槽
3. collect_set :將多個值彙總到一行
4. 建iceberg表: using iceberg partitioned by (dt)
5. array_contains(applist_install, 'com.funtomic.matchmasters')
6. 每月最後一天 last_day(to_date('20230727','yyyyMMdd'))

	1. 建表（csv格式的）
CREATE EXTERNAL TABLE analyst.huanglu_test  
(
`nation` string COMMENT 'from deserializer',
`beyla_id` string COMMENT 'from deserializer',
`push_launch_pv` bigint COMMENT 'from deserializer',
`other_launch_pv` bigint COMMENT 'from deserializer',

`extra1` string COMMENT 'from deserializer',
`extra2` string COMMENT 'from deserializer',
`extra3` string COMMENT 'from deserializer'
)
PARTITIONED BY (`dt` string)
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.OpenCSVSerde'
WITH SERDEPROPERTIES ('separatorChar' = ',','quoteChar' = '\"','escapeChar' = '\\')
STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
LOCATION 's3://da.results.prod.us-east-1/huanglu/temp/test_20200529改一改這裡'  ---3 這行要修改
TBLPROPERTIES ('has_encrypted_data'='false','skip.header.line.count'='1')
	1. 建表（mongodb json格式的）
CREATE EXTERNAL TABLE  game_ue1.ods_gameet_pp_feedback(
  `_id` STRING,
  u STRING,
  app STRING,
  uc STRING,
  i STRING,
  obj STRING,
  cont STRING,
  imgs STRING,
  star double,
  biz STRING,
  ct BIGINT
) PARTITIONED BY (datepart STRING)
 ROW FORMAT SERDE 'org.openx.data.jsonserde.JsonSerDe' 
 WITH SERDEPROPERTIES ('serialization.format' = '1') 
 STORED AS INPUTFORMAT 'org.apache.hadoop.mapred.TextInputFormat' 
 OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat' 
 LOCATION 's3://game.data.us-east-1/data_analyst/server_ods/ods_gameet_pp_feedback'

	1. 時間戳轉化：

select from_unixtime(unix_timestamp('20230515' ,'yyyyMMdd'), 'yyyy-MM-dd')
cast(create_time as timestamp) + interval '8' hour 增加8小時
select from_unixtime(cast ('1668009600000' AS bigint)/1000+ 86060,'yyyy-MM-dd')
from_unixtime(unix_timestamp(cast(create_time as timestamp) + interval '8' hour ,'yyyyMMdd'),'yyyyMMdd')

	1. 動態分割槽
		1. 注意遷移資料的時候需要把分割槽欄位放在最後select出來

set hive.exec.dynamic.partition=true
set hive.exec.dynamic.partition.mode=nonstrict

3. 累計求和

sum(order_pv)OVER (partition by pp_user_id,item_id,item_type,stage
ORDER BY datepart ASC)

**3 tableau**
1. 最大年月：{MAX(DATETRUNC('day',date))}
2. 星期幾：DATENAME('weekday', [YourDateField])
3. 根據不同型別日期範圍截斷：
	1. DATETRUNC('date_part', date_expression, [start_of_week])
		1. 'date_part' 是指定截斷到的時間單位，例如 'year'（年）、'quarter'（季）、'month'（月）、'week'（周）、'day'（日）等。
4. 日期格式：DATEPARSE('yyyy-MM-dd', '2023-01-15')
5. 指定動態分割槽重新整理：--conf spark.sql.sources.partitionOverwriteMode=dynamic
6. spark的引數不需要加set：--conf hive.exec.dynamic.partition.mode=nonstrict
（動態分割槽嚴格模式下至少需要一個靜態列，所以這時候如果使用動態分割槽需要增加這個引數）

【SQL】19 SQL函式
2018-07-27
SQL函式
SQL-函式 - 聚合函式
2024-12-04
SQL函式
Sql 中的 left 函式、right 函式
2018-03-06
SQL函式
T-SQL——函式——字串操作函式
2021-10-10
SQL函式字串
SQL 視窗函式
2022-03-28
SQL函式
SQL LEN()函式用法
2021-01-16
SQL函式
T-SQL——函式——時間操作函式
2021-10-31
SQL函式
SQL中的cast()函式
2018-06-06
SQLAST函式
SQL Server 2016 函式：CAST
2018-06-03
SQLServer函式AST
確定性函式改造sql
2023-10-25
函式SQL
Spark SQL 開窗函式
2020-03-23
SparkSQL函式
SQL---------儲存函式
2024-07-24
SQL儲存函式
SQL Server常用函式整理
2021-03-17
SQLServer函式
【SQL】17 SQL 檢視（Views）、SQL Date 函式、SQL NULL 值、
2018-07-27
SQLView函式Null
與SQL視窗函式相同
2018-12-03
SQL函式
SQL函式Group_concat用法
2020-10-21
SQL函式
SQL語言基礎（函式）
2022-11-19
SQL函式
SQL中常用的字串LEFT函式和RIGHT函式詳解！
2022-05-21
SQL字串函式
SQL查詢中用到的函式
2018-05-14
SQL函式
SQL server儲存過程函式
2024-08-09
SQLServer儲存過程函式
【SQL Server】常見系統函式
2024-07-22
SQLServer函式
sql中select列有自定義函式 dblink
2018-05-26
SQL函式
SQL中的替換函式replace()使用
2018-06-06
SQL函式
單據列表呼叫自定義SQL函式
2024-05-07
SQL函式
Spark 系列（十一）—— Spark SQL 聚合函式 Aggregations
2019-08-14
SparkSQL函式
Hue-hive sql常用函式詳解
2020-04-05
HiveSQL函式
Sql中SYSDATE函式的使用方法
2024-11-29
SQL函式
【Oracle SQL】months_between與trunc函式
2024-08-20
OracleSQL函式
【學習】SQL基礎-004-函式
2018-04-03
SQL函式
詳解SQL操作的視窗函式
2022-05-27
SQL函式
SQL Server最佳化標量函式改寫內聯表值函式
2019-11-28
SQLServer函式
SQL優化案例-自定義函式索引（五）
2018-11-28
SQL優化函式索引
sql常用函式詳解（一）——字串擷取
2018-08-17
SQL函式字串
PostgreSQLOraclePL/SQL相容性之-AGGREGATEUSINGClause聚合函式
2018-06-21
SQLOracleGC函式
sql server 資料型別轉換函式
2018-09-05
SQLServer資料型別函式
Clickhouse SQL日期處理函式及案例分享
2024-05-24
SQL函式
T-SQL——自定義函式解析JSON字串
2024-11-13
SQL函式JSON字串
使用SQL以及函式等做資料分析
2022-03-01
SQL函式

sql函式

相關文章