大資料交叉報表效能最佳化案例(方案)
軟硬體環境
OS:win7
Cpu:8 核
集算報表:1120 安裝版
Jvm:1G
資料庫:oracle11g
客戶無法解決的問題:
有一個交叉彙總報表,其實格式很簡單,行列各一個統計維度。但後臺業務表的資料有 175 萬條,且還要與其他表(大概在 7w 條左右)做 join,如果由 sql 來處理,可以想象到會慢到什麼程度,關鍵受各種條件影響,能否查出資料都是問題。
注:ACCORECEIVE 表 175w 條資料
目前,測試 birt 需 5 分鐘,藉助各種中間表與檢視。報表友商無法出表。
要求:能做出該報表在 web 展現,且重要的是速度要快,另外,資料(目前大概是 5 年資料)是實時增加的。
客戶報表格式及目前所用 sql:
報表格式:
Sql:
select LOCATIONS.loupan loupan, LOCATIONS.LPORDERNUM, nvl(ACCORECEIVE.RECEIVABLEAMOUNT, 0) yingshou, chargeproct.Description CHARPNAME, chargeproct.ordernum chordernum from ACCORECEIVE,V\_LOCATION\_LP\_LG\_DY LOCATIONS,chargeproct where ACCORECEIVE.Org\_Id = LOCATIONS.Org\_Id and ACCORECEIVE.Sub\_Org\_Id = LOCATIONS.Sub\_Org\_Id and ACCORECEIVE.Fk_Locationid = LOCATIONS.Locationid and ACCORECEIVE.Fk_Chargeproctid = chargeproct.chargeproctid(+) and ACCORECEIVE.Wf_Status not in('作廢')
問題分析及解決方案
常規模式下,大資料要出交叉報表幾乎很難,這裡受 sql 效率慢、jvm 等的影響,一次如果把所有資料全部取出則必然極大可能記憶體溢位。另外,大資料表再有 join,即便能取,那取數速度上肯定也無法保證(sql join 的效率低),上面 sql 中能體現出所有問題。
解決方案:
1、為避免一次性取數記憶體溢位,可採用集算器遊標 cursor 取數; –cursor
2、去除不需要欄位及 join 欄位。分析後發現,客戶實際不需要 org_id、sub_org_id 的關聯;
3、取數後可根據客戶所出報表對應做資料處理,這裡可 groups 處理一次分組彙總;–替代報表表示式 group
4、為擺脫 sql join 效率低問題,可將 join 放在集算器內處理,這裡 ACCORECEIVE 與 V_LOCATION_LP_LG_DY 表(query 即可,資料不大)分開取數; –switch 連線
注:集算器中測試了兩表 sql 中 join,時間大概需 5 分鐘。
5、結合客戶報表格式及所用的資料庫表,可將上面 sql 中 chargeproct 表放到報表 sql 取數,因其僅體現顯示值作用,且僅幾十條資料。
集算指令碼:
注:程式碼有每一步的作用說明
結論
–
潤乾能出表且速度最快,客戶聯絡人是非常滿意的。對比:
1、友商:無法出表,包含不做 join 僅單查業務表資料。
2、Birt:客戶說 4、5 分鐘出表,雖無法驗證,但個人有點懷疑;
3、潤乾:12s(多次測試)左右,(取數 + 報表展現)。–因資料處理在集算器已完成,所以報表幾乎無計算,報表計算及生成 html(大概是 20 行 +35 列的單元格)基本不佔用時間。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69900830/viewspace-2671013/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Mysql資料庫大表最佳化方案和Mysql大表最佳化步驟MySql資料庫
- 效能最佳化之報表資料預先計算
- 報表的效能最佳化
- oracle大表效能最佳化Oracle
- Stimulsoft Reports報表使用者手冊:資料帶中的交叉表報表
- 二十三、資料庫效能最佳化方案資料庫
- Elasticsearch 億級資料檢索效能最佳化案例實戰!Elasticsearch
- 史上最全效能最佳化詳解(9大必備大廠最佳化方案)
- 頂級大廠Quora如何最佳化資料庫效能?資料庫
- MySQL 大表最佳化方案,收藏了細看!MySql
- 大資料集報表點選表頭排序大資料排序
- 解析MySQL資料庫效能最佳化的六大技巧MySql資料庫
- MySQL資料庫效能最佳化MySql資料庫
- 專案效能最佳化方案
- 報表實施案例:某市利用大資料助力精準扶貧專案開展大資料
- 9大效能最佳化方案詳解(圖文全面總結)
- Python技術棧與Spark交叉資料分析雙向整合進階實戰–大資料ML樣本集案例實戰PythonSpark大資料
- Python技術棧與Spark交叉資料分析雙向整合進階實戰--大資料ML樣本集案例實戰PythonSpark大資料
- Python技術棧與Spark交叉資料分析雙向整合技術實戰--大資料ML樣本集案例實戰PythonSpark大資料
- GSMA:移動大資料解決方案報告大資料
- 實現多資料來源混合計算的效能最佳化方案之一
- 怎麼製作動態列報表(非常規交叉表)
- 政府大資料方案大資料
- mysql 資料表的複製案例MySql
- ElasticSearch第3篇 大資料處理3大問題(“10000條”問題解決方案、hits total值統計總數不精確解決方案、大資料深度分頁效能問題3種最佳化方案)Elasticsearch大資料
- 《大資料: Redis 安全效能》大資料Redis
- 如何最佳化大模型在Java環境下的效能表現大模型Java
- MySQL效能最佳化淺析及線上案例MySql
- 大資料時代,揭秘Hive表設計最佳化的五大神器大資料Hive
- SQL Server 資料庫 最佳化 效能瓶頸SQLServer資料庫
- 大資料4.1 - Flume整合案例+Hive資料倉大資料Hive
- 大資料解決方案大資料
- 效能最佳化之報表與演算法的統一管理演算法
- 多庫取數的效能最佳化方案
- 幫任總DBA太太最佳化條金融SQL案例(DM資料庫案例)SQL資料庫
- 獲獎方案 | 基於大模型和向量資料庫的SQL生成與稽核最佳化解決方案大模型資料庫SQL
- WPFDataGrid效能載入大資料大資料
- 資料採集典型案例,如何助力企業搭建資料方案