在python/R中使用稀疏矩阵的优缺点?

在python/R中使用稀疏矩阵的优缺点?,python,r,sparse-matrix,Python,R,Sparse Matrix,我正在用python处理大型稀疏矩阵(由文本生成的文档特征矩阵)。仔细研究这些需要相当多的处理时间和内存,我认为稀疏矩阵可以提供一些改进。但我担心使用稀疏矩阵库会使插入其他python(以及R,通过rpy2)模块变得更加困难 过了这座桥的人能提供一些建议吗?在性能、可伸缩性和兼容性方面,在python/R中使用稀疏矩阵的优缺点是什么?在python中使用稀疏矩阵本身可能不是一个好主意。 你退房了吗 Numpy带来了在Python中主要使用C代码来提高性能的巨大好处 从我在R中进行文本处理的有限经

我正在用python处理大型稀疏矩阵(由文本生成的文档特征矩阵)。仔细研究这些需要相当多的处理时间和内存,我认为稀疏矩阵可以提供一些改进。但我担心使用稀疏矩阵库会使插入其他python(以及R,通过rpy2)模块变得更加困难


过了这座桥的人能提供一些建议吗?在性能、可伸缩性和兼容性方面,在python/R中使用稀疏矩阵的优缺点是什么?

在python中使用稀疏矩阵本身可能不是一个好主意。 你退房了吗

Numpy带来了在Python中主要使用C代码来提高性能的巨大好处

从我在R中进行文本处理的有限经验来看,除了探索性的数据分析之外,它的性能使它几乎不可用


无论如何,你不应该对稀疏矩阵使用普通的列表,这将(可以理解)需要一段时间来仔细研究它们。

有几种方法来表示稀疏矩阵(R SparseM包的文档报告了存储稀疏矩阵数据的20种不同方法),因此,与所有解决方案完全兼容可能是不可能的。数字选项还表明,在所有情况下都没有最佳解决方案


根据在这些矩阵上发现的大量数字运算例程(numpy或R),选择numpy稀疏矩阵或R的SparseM(通过rpy2)。

我看过这些文档,但我很难读出其中的含义。其他库是否与稀疏矩阵类兼容?我希望获得哪些类型的速度/内存增益?