Performance 基于特征稀疏矩阵的性能调整_Performance_Sparse Matrix_Eigen_Eigen3

Performance 基于特征稀疏矩阵的性能调整

performance

Performance 基于特征稀疏矩阵的性能调整,performance,sparse-matrix,eigen,eigen3,Performance,Sparse Matrix,Eigen,Eigen3,我用Eigen的SparseMatrix实现了一些东西，基本上是这样的 SparseMatrix W; ... W.row(i) += X.row(j); // X is another SparseMatrix, both W and X are row major. ... 我通过google pprof对代码进行了性能评测，我认为上面的代码有问题，请参见下图图1 然后图2 最后图3 看起来操作符+=带来了很多内存拷贝内容我不太了解SparseMatrix操作的内部结构，但是有

我用Eigen的SparseMatrix实现了一些东西，基本上是这样的

SparseMatrix W;
...
W.row(i) += X.row(j);  // X is another SparseMatrix, both W and X are row major.
...

我通过

google pprof

对代码进行了性能评测，我认为上面的代码有问题，请参见下图

图1

然后图2

最后图3

看起来

操作符+=

带来了很多内存拷贝内容

我不太了解SparseMatrix操作的内部结构，但是有没有推荐的方法来优化上面的代码？

如果X的稀疏度是W的稀疏度的子集，那么您可以编写自己的函数来进行适当的添加：

namespace Eigen {
template<typename Dst, typename Src>
void inplace_sparse_add(Dst &dst, const Src &src)
{
  EIGEN_STATIC_ASSERT( ((internal::evaluator<Dst>::Flags&RowMajorBit) == (internal::evaluator<Src>::Flags&RowMajorBit)),
                      THE_STORAGE_ORDER_OF_BOTH_SIDES_MUST_MATCH);

  using internal::evaluator;
  evaluator<Dst> dst_eval(dst);
  evaluator<Src> src_eval(src);

  assert(dst.rows()==src.rows() && dst.cols()==src.cols());
  for (Index j=0; j<src.outerSize(); ++j)
  {
    typename evaluator<Dst>::InnerIterator dst_it(dst_eval, j);
    typename evaluator<Src>::InnerIterator src_it(src_eval, j);
    while(src_it)
    {
      while(dst_it && dst_it.index()!=src_it.index())
        ++dst_it;
      assert(dst_it);
      dst_it.valueRef() += src_it.value();
      ++src_it;
    }
  }
}
}

名称空间特征{
模板
就地无效（Dst&Dst、常量Src&Src）
{
特征值静态断言（（内部：：计算器：：标志和RowMajorBit）=（内部：：计算器：：标志和RowMajorBit）），
双方的存储顺序必须匹配）；
使用内部评估器；
评估员dst_eval（dst）；
评估员src_eval（src）；
断言（dst.rows（）==src.rows（）&&dst.cols（）==src.cols（））；
对于（索引j=0；jDoesW.row（i）
和X.row（j）
具有相同的稀疏模式？？如果是，那么这确实可以优化。@ggael，是的，它们应该是，至少W
的每一行应该覆盖X
中的任何稀疏行，这意味着，就稀疏模式而言，X
的每一行应该是W
中任何行的子集，如果<代码> W/COD>是一个稠密矩阵，上面的代码> W.row（i）+= X.row（j）< /C>仍然可以进一步优化吗？我也不知道eigen的<代码> SARSMATRAIKIX < /C> E-MeLY添加比使用STL<代码> HASMAP 或vector？GGAEL的普通C++ IMPL性能要低，请给我一些提示吗？如果W是一个稠密矩阵（例如，MatrixXd
）这应该没问题。如果W是一个稀疏矩阵，但您确信W.row（i）+=X.row（j）可以在不进行任何重新分配/复制的情况下就地完成，那么这可以通过（1）扩展API让Eigen知道和（2）在Eigen本身内进行优化编写相应的就地评估代码。同时，您可以编写自己的就地评估。我将发布一个示例。
int main()
{
  int n = 10;
  MatrixXd R = MatrixXd::Random(n,n);
  SparseMatrix<double, RowMajor> A = R.sparseView(0.25,1), B = 0.5*R.sparseView(0.65,1);

  cout << A.toDense() << "\n\n" << B.toDense() << "\n\n";

  inplace_sparse_add(A, B);

  cout << A.toDense() << "\n\n";

  auto Ai = A.row(2);
  inplace_sparse_add(Ai, B.row(2));

  cout << A.toDense() << "\n\n";
}