SQL與Pandas大資料分析效能對比(Haki Benita)
Pandas熊貓是一種非常流行的資料分析工具。它內建了許多有用的功能,經過了實戰測試並被廣泛接受。但是,熊貓並不一定總是工作的最佳工具。
SQL資料庫自1970年代就已經存在。世界上一些最聰明的人致力於使快速,高效地切片,切塊,獲取和運算元據變得容易。SQL資料庫已經走了很長一段路,以至於許多開發人員和資料科學家失去了對他們已經擁有的資料庫可以做什麼的跟蹤!
本文演示瞭如何使用SQL和Pandas相結合執行快速有效的資料分析。
假設有一個簡單的表,其中有100萬個使用者,每個使用者都有一個使用者名稱和一個標誌,標誌是說明該使用者是否已啟用。現在資料分析任務是:有多少個已啟用和未啟用的使用者?
點選標題見原文,直接上結論:
使用Pandas分析整張表: 記憶體347M 執行1.101秒 使用Pandas分析必要資料: 記憶體193M 執行0.839秒 使用資料庫聚合的Pandas: 記憶體40M 執行0.38秒 不使用Pandas使用資料庫聚合: 記憶體2.3M 執行0.114秒 |
雖然,最後SQL從記憶體消耗和執行時間完勝Pandas,所有這一切並不是說Pandas是不必要的,或者可以替換它。Pandas提供了巨大的利益,它已被證明具有不可估量的價值。
要利用資料庫和大資料兩個世界優點並建立速度更快的輕量級程式,請同時使用SQL和Pandas!
相關文章
- 用Jupyter+pandas資料分析,6種資料格式效率對比
- 【SQL】Oracle資料庫變更後sql效能對比SQLOracle資料庫
- 【python資料探勘課程】十二.Pandas、Matplotlib結合SQL語句對比圖分析PythonSQL
- Python利用pandas處理資料與分析Python
- MySQL大量資料插入各種方法效能分析與比較MySql
- Python - pandas 資料分析Python
- 資料分析利器之Pandas
- 中美兩國農業大資料對比與思考大資料
- Pandas使用DataFrame進行資料分析比賽進階之路(一)
- [譯] 使用 Pandas 對 Kaggle 資料集進行統計資料分析
- Python 資料分析:讓你像寫 Sql 語句一樣,使用 Pandas 做資料分析PythonSQL
- Python大資料分析學習.Pandas 資料匯入問題 (1)Python大資料
- Python資料分析之pandasPython
- 使用Exp和Expdp匯出資料的效能對比與優化優化
- Mobx 與 Redux 的效能對比Redux
- Memcache,Redis,MongoDB(資料快取系統)方案對比與分析RedisMongoDB快取
- 資料庫事務與隔離級別示例(oracle與sql server對比)資料庫OracleSQLServer
- Python資料分析 Pandas模組 基礎資料結構與簡介Python資料結構
- 基於python的大資料分析實戰學習筆記-pandas(資料分析包)Python大資料筆記
- MySql和SQL Server資料型別 對比MySqlServer資料型別
- 使用Exp和Expdp匯出資料的效能對比與最佳化
- Python資料分析之Pandas篇Python
- 大資料分析師,比資料分析師厲害在哪大資料
- 基於python的大資料分析-pandas資料讀取(程式碼實戰)Python大資料
- 基於python的大資料分析-pandas資料儲存(程式碼實戰)Python大資料
- 5款Java效能分析工具的對比Java
- Groovy 2與Java的效能對比Java
- 資料庫對比SQL SERVER 、 ORACLE、DB2資料庫SQLServerOracleDB2
- Python資料分析與挖掘實戰(Pandas,Matplotlib常用方法)Python
- 資料庫全量SQL分析與審計系統效能優化之旅資料庫SQL優化
- 資料分析-pandas資料處理清洗常用總結
- 效能狗(Perfdog)測試與資料分析
- SQL與MongoDB的詳細對比SQLMongoDB
- Python資料分析(二): Pandas技巧 (1)Python
- Python資料分析庫pandas基本操作Python
- Python資料分析(二): Pandas技巧 (2)Python
- 尋路大資料:海量資料與大規模分析大資料
- 入門資料分析選擇Python還是SQL?七個常用操作對比PythonSQL