SQL與Pandas大資料分析效能對比(Haki Benita)

banq發表於2021-04-30

Pandas熊貓是一種非常流行的資料分析工具。它內建了許多有用的功能,經過了實戰測試並被廣泛接受。但是,熊貓並不一定總是工作的最佳工具。
SQL資料庫自1970年代就已經存在。世界上一些最聰明的人致力於使快速,高效地切片,切塊,獲取和運算元據變得容易。SQL資料庫已經走了很長一段路,以至於許多開發人員和資料科學家失去了對他們已經擁有的資料庫可以做什麼的跟蹤!
本文演示瞭如何使用SQL和Pandas相結合執行快速有效的資料分析。
假設有一個簡單的表,其中有100萬個使用者,每個使用者都有一個使用者名稱和一個標誌,標誌是說明該使用者是否已啟用。現在資料分析任務是:有多少個已啟用和未啟用的使用者?
點選標題見原文,直接上結論:

使用Pandas分析整張表:     記憶體347M  執行1.101秒
使用Pandas分析必要資料:   記憶體193M  執行0.839秒
使用資料庫聚合的Pandas:   記憶體40M   執行0.38秒
不使用Pandas使用資料庫聚合: 記憶體2.3M  執行0.114秒


雖然,最後SQL從記憶體消耗和執行時間完勝Pandas,所有這一切並不是說Pandas是不必要的,或者可以替換它。Pandas提供了巨大的利益,它已被證明具有不可估量的價值。
要利用資料庫和大資料兩個世界優點並建立速度更快的輕量級程式,請同時使用SQL和Pandas!

 

相關文章