在Java或Scala中,我可以使用什么库来计算大型稀疏矩阵?

在Java或Scala中,我可以使用什么库来计算大型稀疏矩阵?,java,scala,sparse-matrix,compression,Java,Scala,Sparse Matrix,Compression,当我使用大型稀疏矩阵时,最好使用压缩矩阵,如CCS、CRS等 我试着用ScalaNLP,la4j,colc来计算100000*100000稀疏矩阵。 有一些问题 微风(斯卡兰普/斯卡拉拉) 它给了我CSCMatrix类型,可以有100000*100000大小 但问题是它正在开发中 因此,我们无法使用CSCMatrix计算CSCMatrix的元素级乘积,如csc1:*csc2 也不能将CSC矩阵相互添加 la4j 它有CCSMatrix和CRSMatrix 但是在创建(新的CCSMatrix

当我使用大型稀疏矩阵时,最好使用压缩矩阵,如CCS、CRS等

我试着用ScalaNLP,la4j,colc来计算100000*100000稀疏矩阵。 有一些问题

  • 微风(斯卡兰普/斯卡拉拉)

    • 它给了我
      CSCMatrix
      类型,可以有100000*100000大小
    • 但问题是它正在开发中
    • 因此,我们无法使用
      CSCMatrix
      计算
      CSCMatrix
      的元素级乘积,如
      csc1:*csc2
    • 也不能将CSC矩阵相互添加
  • la4j

    • 它有CCSMatrix和CRSMatrix
    • 但是在创建(新的CCSMatrixFactory).createMatrix(100000,100000)时,会出现OutOfMemoryError
    • 矩阵应为零,因此不应使用大的内存空间
  • 可乐

    • 它有稀疏的双矩阵
    • 但当创建新的SparseDoubleMatrix2d(100000,100000)这样的矩阵时,它会说IllegalArgumentException:矩阵太大了
  • 要计算大型稀疏矩阵,我可以使用什么库?
    你能给我看看这个例子吗?

    我对Breeze很好奇,所以我查看了它的来源。这有点混乱,因为操作符都是从一些println风格的代码生成(!)中发出的。。。但我想到了这个:

    import breeze.linalg.operators.{BinaryOp, OpMulScalar}
    
    object CSCMatrixExtraOps {
      abstract class CSCMatrixCanMulM_M[@specialized (Int, Float, Long, Double) A]
        extends BinaryOp[CSCMatrix[A], CSCMatrix[A], OpMulScalar, CSCMatrix[A]] {
    
        protected def times(a: A, b: A): A
    
        protected def zeros  (rows: Int, cols: Int): CSCMatrix[A]
        protected def builder(rows: Int, cols: Int, sz: Int): CSCMatrix.Builder[A]
    
        final def apply(a: CSCMatrix[A], b: CSCMatrix[A]): CSCMatrix[A] = {
          val rows  = a.rows
          val cols  = a.cols
          require(rows == b.rows, "Matrices must have same number of rows!")
          require(cols == b.cols, "Matrices must have same number of cols!")
    
          if (cols == 0) return zeros(rows, cols)
    


    示例:

    import breeze.linalg._
    import CSCMatrixExtraOps._
    
    val m1 = CSCMatrix((0, 0, 0), (0, 5, 0), (0, 0, 10), (0, 13, 0))
    val m2 = CSCMatrix((0, 0, 0), (0, 5, 0), (0, 0, 10), (13, 0, 0))
    (m1 :* m2).toDenseMatrix
    
    结果:

    0  0   0    
    0  25  0    
    0  0   100  
    0  0   0    
    
    我是《图书馆》的作者。让我给你一些建议。因此,当您创建一个新的CRS/CCS矩阵时,la4j只为其分配32个长度的数组(这是默认的最小大小)。因此,它不能抛出OOM错误(我刚刚检查过):

    但是,最好使用公共构造函数:

    Matrix a = new CCSMatrix(100000, 100000);
    
    无论如何,如果仍然出现此错误,请尝试使用
    -Xmx1024m-Xms512m
    扩展堆大小

    你所说的“矩阵应该是零,所以它不应该使用大的内存空间”是什么意思?我不确定我是否理解正确


    顺便说一句,使用la4j的最新版本:。您发现的问题可能已由解决。

    您尝试过MTJ吗。(请注意,这里有一个关于这个主题的更一般的问题……尽管没有好的答案。)尝试使用MTJ。具体表现如下。scala>val mtx=new CompColMatrix(100001000000,Array.fill(100000)(Array.fill(100000)))java.lang.OutOfMemoryError:java堆空间。除了使用matlab或python之外,没有其他想法……您是否试图弄清楚它为什么会这样做?您确定这是创建稀疏矩阵的正确方法吗?在我看来,当您遇到问题时,您似乎正在从一个产品切换到下一个产品。Array.fill(100000)(Array.fill(100000))此代码肯定会溢出。在循环中填充稀疏矩阵,或者使用展开,或者如果它是稀疏矩阵,则默认情况下应使用零初始化。谢谢您的评论。我的目标是创建大的零压缩稀疏矩阵,并向该矩阵中添加一些数据,然后计算一点。我仍然没有很好地理解MTJ的用法。我会试试的。谢谢。它应该是require(a.cols==b.rows)等等。顺便说一句,你的答案帮助我谢谢!我认为他希望矩阵很小,因为它需要存储的只是非零单元格的索引和值,而绝大多数单元格为零,不需要存储。如果你的矩阵实际上存储了大量的0值,那么它就不是稀疏的。
    0  0   0    
    0  25  0    
    0  0   100  
    0  0   0    
    
    Matrix a = Matrices.CRS_FACTORY.createMatrix(100000, 100000);
    
    Matrix a = new CCSMatrix(100000, 100000);