Performance 基于特征稀疏矩阵的性能调整

Performance 基于特征稀疏矩阵的性能调整,performance,sparse-matrix,eigen,eigen3,Performance,Sparse Matrix,Eigen,Eigen3,我用Eigen的SparseMatrix实现了一些东西,基本上是这样的 SparseMatrix W; ... W.row(i) += X.row(j); // X is another SparseMatrix, both W and X are row major. ... 我通过google pprof对代码进行了性能评测,我认为上面的代码有问题,请参见下图 图1 然后图2 最后图3 看起来操作符+=带来了很多内存拷贝内容 我不太了解SparseMatrix操作的内部结构,但是有

我用Eigen的SparseMatrix实现了一些东西,基本上是这样的

SparseMatrix W;
...
W.row(i) += X.row(j);  // X is another SparseMatrix, both W and X are row major.
...
我通过
google pprof
对代码进行了性能评测,我认为上面的代码有问题,请参见下图

图1

然后图2

最后图3

看起来
操作符+=
带来了很多内存拷贝内容


我不太了解SparseMatrix操作的内部结构,但是有没有推荐的方法来优化上面的代码?

如果X的稀疏度是W的稀疏度的子集,那么您可以编写自己的函数来进行适当的添加:

namespace Eigen {
template<typename Dst, typename Src>
void inplace_sparse_add(Dst &dst, const Src &src)
{
  EIGEN_STATIC_ASSERT( ((internal::evaluator<Dst>::Flags&RowMajorBit) == (internal::evaluator<Src>::Flags&RowMajorBit)),
                      THE_STORAGE_ORDER_OF_BOTH_SIDES_MUST_MATCH);

  using internal::evaluator;
  evaluator<Dst> dst_eval(dst);
  evaluator<Src> src_eval(src);

  assert(dst.rows()==src.rows() && dst.cols()==src.cols());
  for (Index j=0; j<src.outerSize(); ++j)
  {
    typename evaluator<Dst>::InnerIterator dst_it(dst_eval, j);
    typename evaluator<Src>::InnerIterator src_it(src_eval, j);
    while(src_it)
    {
      while(dst_it && dst_it.index()!=src_it.index())
        ++dst_it;
      assert(dst_it);
      dst_it.valueRef() += src_it.value();
      ++src_it;
    }
  }
}
}
名称空间特征{
模板
就地无效(Dst&Dst、常量Src&Src)
{
特征值静态断言((内部::计算器::标志和RowMajorBit)=(内部::计算器::标志和RowMajorBit)),
双方的存储顺序必须匹配);
使用内部评估器;
评估员dst_eval(dst);
评估员src_eval(src);
断言(dst.rows()==src.rows()&&dst.cols()==src.cols());

对于(索引j=0;jDoes
W.row(i)
X.row(j)
具有相同的稀疏模式??如果是,那么这确实可以优化。@ggael,是的,它们应该是,至少
W
的每一行应该覆盖
X
中的任何稀疏行,这意味着,就稀疏模式而言,
X
的每一行应该是
W
中任何行的子集,如果<代码> W/COD>是一个稠密矩阵,上面的代码> W.row(i)+= X.row(j)< /C>仍然可以进一步优化吗?我也不知道eigen的<代码> SARSMATRAIKIX < /C> E-MeLY添加比使用STL<代码> HASMAP 或vector?GGAEL的普通C++ IMPL性能要低,请给我一些提示吗?如果W是一个稠密矩阵(例如,
MatrixXd
)这应该没问题。如果W是一个稀疏矩阵,但您确信
W.row(i)+=X.row(j)
可以在不进行任何重新分配/复制的情况下就地完成,那么这可以通过(1)扩展API让Eigen知道和(2)在Eigen本身内进行优化编写相应的就地评估代码。同时,您可以编写自己的就地评估。我将发布一个示例。
int main()
{
  int n = 10;
  MatrixXd R = MatrixXd::Random(n,n);
  SparseMatrix<double, RowMajor> A = R.sparseView(0.25,1), B = 0.5*R.sparseView(0.65,1);

  cout << A.toDense() << "\n\n" << B.toDense() << "\n\n";

  inplace_sparse_add(A, B);

  cout << A.toDense() << "\n\n";

  auto Ai = A.row(2);
  inplace_sparse_add(Ai, B.row(2));

  cout << A.toDense() << "\n\n";
}