這篇文章主要介紹了python使用稀疏矩陣節(jié)省內(nèi)存實(shí)例,矩陣中非零元素的個(gè)數(shù)遠(yuǎn)遠(yuǎn)小于矩陣元素的總數(shù),并且非零元素的分布沒有規(guī)律,則稱該矩陣為稀疏矩陣,需要的朋友可以參考下。
推薦系統(tǒng)中經(jīng)常需要處理類似user_id,item_id,rating這樣的數(shù)據(jù),其實(shí)就是數(shù)學(xué)里面的稀疏矩陣,scipy中提供了sparse模塊來解決這個(gè)問題,但scipy.sparse有很多問題不太合用:
1、不能很好的同時(shí)支持data[i,...]、data[...,j]、data[i,j]快速切片;
2、由于數(shù)據(jù)保存在內(nèi)存中,不能很好的支持海量數(shù)據(jù)處理。
要支持data[i,...]、data[...,j]的快速切片,需要i或者j的數(shù)據(jù)集中存儲(chǔ);同時(shí),為了保存海量的數(shù)據(jù),也需要把數(shù)據(jù)的一部分放在硬盤上,用內(nèi)存做buffer。這里的解決方案比較簡(jiǎn)單,用一個(gè)類dict的東西來存儲(chǔ)數(shù)據(jù),對(duì)于某個(gè)i(比如9527),它的數(shù)據(jù)保存在dict['i9527']里面,同樣的,對(duì)于某個(gè)j(比如3306),它的全部數(shù)據(jù)保存在dict['j3306']里面,需要取出data[9527,...]的時(shí)候,只要取出dict['i9527']即可,dict['i9527']原本是一個(gè)dict對(duì)象,儲(chǔ)存某個(gè)j對(duì)應(yīng)的值,為了節(jié)省內(nèi)存空間,我們把這個(gè)dict以二進(jìn)制字符串形式存儲(chǔ),直接上代碼:
代碼如下:
'''
sparsematrix
'''
importstruct
importnumpyasnp
importbsddb
fromcstringioimportstringio
classdictmatrix():
def__init__(self,container={},dft=0.0):
self._data=container
self._dft=dft
self._nums=0
def__setitem__(self,index,value):
try:
i,j=index
except:
raiseindexerror('invalidindex')
ik=('i%d'%i)
#為了節(jié)省內(nèi)存,我們把j,value打包成字二進(jìn)制字符串
ib=struct.pack('if',j,value)
jk=('j%d'%j)
jb=struct.pack('if',i,value)
try:
self._data[ik]+=ib
except:
self._data[ik]=ib
try:
self._data[jk]+=jb
except:
self._data[jk]=jb
self._nums+=1
def__getitem__(self,index):
try:
i,j=index
except:
raiseindexerror('invalidindex')
if(isinstance(i,int)):
ik=('i%d'%i)
ifnotself._data.has_key(ik):returnself._dft
ret=dict(np.fromstring(self._data[ik],dtype='i4,f4'))
if(isinstance(j,int)):returnret.get(j,self._dft)
if(isinstance(j,int)):
jk=('j%d'%j)
ifnotself._data.has_key(jk):returnself._dft
ret=dict(np.fromstring(self._data[jk],dtype='i4,f4'))
returnret
def__len__(self):
returnself._nums
def__iter__(
測(cè)試代碼:
代碼如下:
importtimeit
timeit.timer('foo=__main__.data[9527,...]','import__main__').timeit(number=1000)
消耗1.4788秒,大概讀取一條數(shù)據(jù)1.5ms。