面向MATLAB的文本分类数据集

面向MATLAB的文本分类数据集,matlab,dataset,Matlab,Dataset,我正在寻找一个可靠的数据集在MATLAB格式的文本分类任务。 我想做一些实验,不想在预处理文本和创建特征向量上花费太多时间。我需要准备一些东西,这样我就可以把它插入我的算法中。我在这里找到了路透社数据集的MATLAB文件: 这里的一切都准备好了,但我想使用其中的一个子集。在本文件中,“fea”包含每个文档的特征向量。然而,它似乎不是一个正常的矩阵。例如,我想选择此“fea”中的前1000个文档。如果你下载它并加载到MATLAB中,你就会明白我的意思。 因此,如果可能的话,我需要为上述数据集或任何

我正在寻找一个可靠的数据集在MATLAB格式的文本分类任务。 我想做一些实验,不想在预处理文本和创建特征向量上花费太多时间。我需要准备一些东西,这样我就可以把它插入我的算法中。我在这里找到了路透社数据集的MATLAB文件:

这里的一切都准备好了,但我想使用其中的一个子集。在本文件中,“fea”包含每个文档的特征向量。然而,它似乎不是一个正常的矩阵。例如,我想选择此“fea”中的前1000个文档。如果你下载它并加载到MATLAB中,你就会明白我的意思。 因此,如果可能的话,我需要为上述数据集或任何替代数据集提供解决方案。 提前感谢。

它存储为。提取前1000个文档(行),如果有足够的空间,可以将其转换为全密度矩阵:

load Reuters21578.mat
TF = full( fea(1:1000,:) );
让我们检查一下我们拥有的变量:

>> whos
  Name             Size                   Bytes  Class     Attributes

  TF            1000x18933            151464000  double              
  fea           8293x18933              4749196  double    sparse    
  gnd           8293x1                    66344  double              
  testIdx       2347x1                    18776  double              
  trainIdx      5946x1                    47568  double        
所以你可以看到TF现在大约是150MB

除此之外,其余内容不言自明:

  • fea
    :术语频率矩阵,行为文档,列为术语
  • gnd
    :每个文档的类别,其中
    numel(唯一(gnd))==65
  • trainIdx
    /
    testIdx
    :为分类目的拆分实例(文档),包含行索引,用作:
    tr=fea(trainIdx,:);tt=有限元分析(testIdx,:)

我在这台计算机上没有Matlab,所以
如果你下载它并将其加载到Matlab中,你就会明白我的意思。
对我没有多大帮助(而且对你也没有多大帮助)。你能描述一下当你试图选择前1000个文档时会发生什么吗?