SQL與Pandas大資料分析效能對比(Haki Benita)
Pandas熊貓是一種非常流行的資料分析工具。它內建了許多有用的功能,經過了實戰測試並被廣泛接受。但是,熊貓並不一定總是工作的最佳工具。
SQL資料庫自1970年代就已經存在。世界上一些最聰明的人致力於使快速,高效地切片,切塊,獲取和運算元據變得容易。SQL資料庫已經走了很長一段路,以至於許多開發人員和資料科學家失去了對他們已經擁有的資料庫可以做什麼的跟蹤!
本文演示瞭如何使用SQL和Pandas相結合執行快速有效的資料分析。
假設有一個簡單的表,其中有100萬個使用者,每個使用者都有一個使用者名稱和一個標誌,標誌是說明該使用者是否已啟用。現在資料分析任務是:有多少個已啟用和未啟用的使用者?
點選標題見原文,直接上結論:
使用Pandas分析整張表: 記憶體347M 執行1.101秒 使用Pandas分析必要資料: 記憶體193M 執行0.839秒 使用資料庫聚合的Pandas: 記憶體40M 執行0.38秒 不使用Pandas使用資料庫聚合: 記憶體2.3M 執行0.114秒 |
雖然,最後SQL從記憶體消耗和執行時間完勝Pandas,所有這一切並不是說Pandas是不必要的,或者可以替換它。Pandas提供了巨大的利益,它已被證明具有不可估量的價值。
要利用資料庫和大資料兩個世界優點並建立速度更快的輕量級程式,請同時使用SQL和Pandas!
相關文章
- 【SQL】Oracle資料庫變更後sql效能對比SQLOracle資料庫
- 用Jupyter+pandas資料分析,6種資料格式效率對比
- Python利用pandas處理資料與分析Python
- Python - pandas 資料分析Python
- Python 資料分析:讓你像寫 Sql 語句一樣,使用 Pandas 做資料分析PythonSQL
- [譯] 使用 Pandas 對 Kaggle 資料集進行統計資料分析
- Python資料分析之pandasPython
- 資料分析---pandas模組
- 資料分析利器之Pandas
- Python大資料分析學習.Pandas 資料匯入問題 (1)Python大資料
- 大資料分析師,比資料分析師厲害在哪大資料
- Pandas使用DataFrame進行資料分析比賽進階之路(一)
- 入門資料分析選擇Python還是SQL?七個常用操作對比PythonSQL
- Mobx 與 Redux 的效能對比Redux
- 資料庫全量SQL分析與審計系統效能優化之旅資料庫SQL優化
- Python資料分析之Pandas篇Python
- 使用pandas進行資料分析
- 基於python的大資料分析實戰學習筆記-pandas(資料分析包)Python大資料筆記
- 使用Exp和Expdp匯出資料的效能對比與最佳化
- Python資料分析 Pandas模組 基礎資料結構與簡介Python資料結構
- SQL------SQL效能分析SQL
- 基於python的大資料分析-pandas資料儲存(程式碼實戰)Python大資料
- 基於python的大資料分析-pandas資料讀取(程式碼實戰)Python大資料
- pandas-profiling資料分析預覽
- 效能狗(Perfdog)測試與資料分析
- 對線面試官:SQL中的IN與NOT IN、EXISTS與NOT EXISTS的區別及效能分析面試SQL
- MySQL SQL效能分析MySql
- PHP 5 與 PHP 7 的效能對比PHP
- 關聯式資料庫與文件資料庫對比資料庫
- Pandas 資料分析——Merge 資料拼接圖文詳解
- 資料分析-pandas資料處理清洗常用總結
- 利用Tushare資料介面+pandas進行股票資料分析
- 小程式與Vue對比·資料繫結Vue
- openGauss資料與PostgreSQL的差異對比SQL
- 用 Python 進行資料分析 pandas (一)Python
- Python入門教程—資料分析工具PandasPython
- for & range 效能對比
- 國產資料庫oceanBbase,達夢,金倉與mysql資料庫的效能對比 六、python讀mysql資料庫資料庫MySqlPython