一種比較省記憶體的稀疏矩陣Python儲存方案

pythontab發表於2014-05-22

推薦系統中經常需要處理類似user_id, item_id, rating這樣的資料，其實就是數學裡面的稀疏矩陣，scipy中提供了sparse模組來解決這個問題，但scipy.sparse有很多問題不太合用：1、不能很好的同時支援data[i, ...]、data[..., j]、data[i, j]快速切片；2、由於資料儲存在記憶體中，不能很好的支援海量資料處理。

要支援data[i, ...]、data[..., j]的快速切片，需要i或者j的資料集中儲存；同時，為了儲存海量的資料，也需要把資料的一部分放在硬碟上，用記憶體做buffer。這裡的解決方案比較簡單，用一個類Dict的東西來儲存資料，對於某個i（比如9527），它的資料儲存在dict['i9527']裡面，同樣的，對於某個j（比如3306），它的全部資料儲存在dict['j3306']裡面，需要取出data[9527, ...]的時候，只要取出dict['i9527']即可，dict['i9527']原本是一個dict物件，儲存某個j對應的值，為了節省記憶體空間，我們把這個dict以二進位制字串形式儲存，直接上程式碼：

'''
Sparse Matrix
'''
import struct
import numpy as np
import bsddb
from cStringIO import StringIO
 
class DictMatrix():
    def __init__(self, container = {}, dft = 0.0):
        self._data  = container
        self._dft   = dft
        self._nums  = 0
 
    def __setitem__(self, index, value):
        try:
            i, j = index
        except:
            raise IndexError('invalid index')
 
        ik = ('i%d' % i)
        # 為了節省記憶體，我們把j, value打包成字二進位制字串
        ib = struct.pack('if', j, value)
        jk = ('j%d' % j)
        jb = struct.pack('if', i, value)
 
        try:
            self._data[ik] += ib
        except:
            self._data[ik] = ib
        try:
            self._data[jk] += jb
        except:
            self._data[jk] = jb
        self._nums += 1
 
    def __getitem__(self, index):
        try:
            i, j = index
        except:
            raise IndexError('invalid index')
 
        if (isinstance(i, int)):
            ik = ('i%d' % i)
            if not self._data.has_key(ik): return self._dft
            ret = dict(np.fromstring(self._data[ik], dtype = 'i4,f4'))
            if (isinstance(j, int)): return ret.get(j, self._dft)
 
        if (isinstance(j, int)):
            jk = ('j%d' % j)
            if not self._data.has_key(jk): return self._dft
            ret = dict(np.fromstring(self._data[jk], dtype = 'i4,f4'))
 
        return ret
 
    def __len__(self):
        return self._nums
 
    def __iter__(self):
        pass
 
    '''
    從檔案中生成matrix
    考慮到dbm讀寫的效能不如記憶體，我們做了一些快取，每1000W次批次寫入一次
    考慮到字串拼接效能不太好，我們直接用StringIO來做拼接
    '''
    def from_file(self, fp, sep = 't'):
        cnt = 0
        cache = {}
        for l in fp:
            if 10000000 == cnt:
                self._flush(cache)
                cnt = 0
                cache = {}
            i, j, v = [float(i) for i in l.split(sep)]
 
            ik = ('i%d' % i)
            ib = struct.pack('if', j, v)
            jk = ('j%d' % j)
            jb = struct.pack('if', i, v)
 
            try:
                cache[ik].write(ib)
            except:
                cache[ik] = StringIO()
                cache[ik].write(ib)
 
            try:
                cache[jk].write(jb)
            except:
                cache[jk] = StringIO()
                cache[jk].write(jb)
 
            cnt += 1
            self._nums += 1
 
        self._flush(cache)
        return self._nums
 
    def _flush(self, cache):
        for k,v in cache.items():
            v.seek(0)
            s = v.read()
            try:
                self._data[k] += s
            except:
                self._data[k] = s
 
if __name__ == '__main__':
    db = bsddb.btopen(None, cachesize = 268435456)
    data = DictMatrix(db)
    data.from_file(open('/path/to/log.txt', 'r'), ',')

測試4500W條rating資料（整形,整型,浮點格式），922MB文字檔案匯入，採用記憶體dict儲存的話，12分鐘構建完畢，消耗記憶體1.2G，採用示例程式碼中的bdb儲存，20分鐘構建完畢，佔用記憶體300～400MB左右，比cachesize大不了多少，資料讀取測試：

import timeit
timeit.Timer('foo = __main__.data[9527, ...]', 'import __main__').timeit(number = 1000)

消耗1.4788秒，大概讀取一條資料1.5ms。

採用類Dict來儲存資料的另一個好處是你可以隨便用記憶體Dict或者其他任何形式的DBM，甚至傳說中的Tokyo Cabinet….

好的，碼完收工。

稀疏矩陣
2020-10-15
矩陣
儲存結構的種類與比較
2024-01-11
稀疏矩陣轉置
2016-11-23
矩陣
稀疏矩陣之三元組壓縮儲存並且轉置
2020-11-12
矩陣
資料結構(一)-稀疏矩陣
2020-09-13
資料結構矩陣
【scipy 基礎】--稀疏矩陣
2023-11-23
矩陣
幾種非易失性儲存器的比較
2020-10-23
Laravel Model查詢結果的3種儲存格式記憶體佔用對比
2020-09-21
Laravel記憶體
儲存解決方案DAS、NAS與SAN比較
2022-01-16
資料結構：陣列，稀疏矩陣，矩陣的壓縮。應用：矩陣的轉置，矩陣相乘
2020-10-28
資料結構陣列矩陣
InnoDB儲存引擎——記憶體
2017-03-10
儲存引擎記憶體
記憶體洩漏與記憶體溢位神比較
2017-09-10
記憶體溢位
CUDA版本稀疏矩陣向量乘
2017-12-27
矩陣
OpenMP 版本稀疏矩陣向量乘
2017-12-27
矩陣
matlab標量或矩陣比較
2020-10-13
Matlab矩陣
C++陣列的儲存|C++陣列所佔記憶體空間
2012-09-17
C++陣列記憶體
記憶體中的資料儲存
2019-10-03
記憶體
幾種儲存介面協議全面比較(轉載)
2007-09-13
協議
3 python的數值在記憶體中如何儲存
2024-03-19
Python記憶體
原地旋轉矩陣(不申請新的記憶體空間旋轉矩陣)
2012-07-14
矩陣記憶體
RxJava記憶體洩漏的一種解決方案
2017-11-13
RxJava記憶體
RMAN 相容性矩陣及版本比較
2009-08-11
矩陣
matlab比較兩個矩陣是否相等
2024-10-01
Matlab矩陣
Swift記憶體賦值探索一：理解物件在記憶體中的儲存狀態
2018-03-16
Swift記憶體賦值物件
分割陣列的幾種方法比較
2019-03-12
陣列
用三列二維陣列表示的稀疏矩陣類
2012-08-16
陣列矩陣
儲存類別和記憶體管理
2018-01-31
記憶體
一個比較不錯的儲存過程分頁
2006-11-10
儲存過程
Fdmemtable 記憶體表儲存圖片的例子
2024-08-15
記憶體
Redis 記憶體優化神技，小記憶體儲存大資料
2022-07-13
Redis記憶體優化大資料
MRAM與常用計算機記憶體的效能比較
2020-09-07
計算機記憶體
_DataStructure_C_Impl:圖的鄰接矩陣儲存
2017-08-18
ASTStruct矩陣
Redis 記憶體使用優化與儲存
2016-10-09
Redis記憶體優化
小數在記憶體中是如何儲存的？
2020-04-28
記憶體
【C語言】整型在記憶體中的儲存
2021-06-30
C語言記憶體
一個比較複雜的多次拆分字串的儲存過程
2014-04-10
字串儲存過程
Java不同資料結構記憶體消耗比較
2015-03-23
Java資料結構記憶體
資料儲存位置記憶體圖及一個題目
2018-05-14
記憶體

一種比較省記憶體的稀疏矩陣Python儲存方案

相關文章