Hive的row_number和regexp_extract結合帶來的亂碼問題

啦啦啦one發表於2024-04-01
select
            userid,
            from_unixtime(createtime,'yyyy-MM-dd') as dateid,
            regexp_extract(browser,'^([^\\(]*).*$',1) as browser,
            operationsystem,
            device,
            row_number() over (partition by userid order by createtime) as rn
        from ods_log_full
        where module='user'
        and action='login_success'
        and from_unixtime(createtime,'yyyy-MM-dd')='2023-07-26'

如果這樣的話,那麼中文會出現亂碼。

暫時的解決辦法時,使用hive的regexp_replace函式。這個函式沒有上述的問題。

相關文章