面向MATLAB的文本分类数据集_Matlab_Dataset

面向MATLAB的文本分类数据集

matlab

面向MATLAB的文本分类数据集,matlab,dataset,Matlab,Dataset,我正在寻找一个可靠的数据集在MATLAB格式的文本分类任务。我想做一些实验，不想在预处理文本和创建特征向量上花费太多时间。我需要准备一些东西，这样我就可以把它插入我的算法中。我在这里找到了路透社数据集的MATLAB文件：这里的一切都准备好了，但我想使用其中的一个子集。在本文件中，“fea”包含每个文档的特征向量。然而，它似乎不是一个正常的矩阵。例如，我想选择此“fea”中的前1000个文档。如果你下载它并加载到MATLAB中，你就会明白我的意思。因此，如果可能的话，我需要为上述数据集或任何

我正在寻找一个可靠的数据集在MATLAB格式的文本分类任务。我想做一些实验，不想在预处理文本和创建特征向量上花费太多时间。我需要准备一些东西，这样我就可以把它插入我的算法中。我在这里找到了路透社数据集的MATLAB文件：

这里的一切都准备好了，但我想使用其中的一个子集。在本文件中，“fea”包含每个文档的特征向量。然而，它似乎不是一个正常的矩阵。例如，我想选择此“fea”中的前1000个文档。如果你下载它并加载到MATLAB中，你就会明白我的意思。因此，如果可能的话，我需要为上述数据集或任何替代数据集提供解决方案。提前感谢。

它存储为。提取前1000个文档（行），如果有足够的空间，可以将其转换为全密度矩阵：

load Reuters21578.mat
TF = full( fea(1:1000,:) );

让我们检查一下我们拥有的变量：

>> whos
  Name             Size                   Bytes  Class     Attributes

  TF            1000x18933            151464000  double              
  fea           8293x18933              4749196  double    sparse    
  gnd           8293x1                    66344  double              
  testIdx       2347x1                    18776  double              
  trainIdx      5946x1                    47568  double

所以你可以看到TF现在大约是150MB

除此之外，其余内容不言自明：

```
fea
```
：术语频率矩阵，行为文档，列为术语
```
gnd
```
：每个文档的类别，其中
```
numel（唯一（gnd））==65
```

trainIdx

testIdx

：为分类目的拆分实例（文档），包含行索引，用作：

tr=fea（trainIdx，：）；tt=有限元分析（testIdx，：）

我在这台计算机上没有Matlab，所以如果你下载它并将其加载到Matlab中，你就会明白我的意思。
对我没有多大帮助（而且对你也没有多大帮助）。你能描述一下当你试图选择前1000个文档时会发生什么吗？