CSV檔案讀取效能大決戰:Julia 、Python與R語言 - Deepak

banq發表於2020-06-16

任何資料分析工作流程中的首要任務就是簡單地讀取資料,而這絕對必須快速而有效地完成,這樣才能開始更有趣的工作。在許多行業和領域中,CSV檔案格式都是儲存和共享表格資料的主要工具。快速而強大地載入CSV是至關重要的,並且必須在各種檔案大小,資料型別和形狀之間很好地擴充套件。這篇文章比較了在三個不同的CSV解析器中讀取8個不同的真實資料集的效能:R的fread,Pandas的read_csv和Julia的CSV.jl,每個庫都被選為“同類最佳” CSV解析器。
多執行緒對於實現當今計算機的最佳效能至關重要,但是隻有一種語言(Julia)能夠始終如一地有效使用多個核心。

基準測試表明,即使在限制單個核心的情況下,Julia的CSV.jl也比Pandas快1.5至5倍;啟用多執行緒後,速度可以提高20倍以上。R的fread支援多執行緒,因此更具競爭力,但在許多資料集中,它仍然比Julia落後10倍或更多。用於基準測試的工具是用於Julia的BenchmarkTools.jl,用於R的microbenchmark和用於Python的timeit

詳細分析點選標題進入原文

相關文章