面向MATLAB的文本分类数据集
我正在寻找一个可靠的数据集在MATLAB格式的文本分类任务。 我想做一些实验,不想在预处理文本和创建特征向量上花费太多时间。我需要准备一些东西,这样我就可以把它插入我的算法中。我在这里找到了路透社数据集的MATLAB文件: 这里的一切都准备好了,但我想使用其中的一个子集。在本文件中,“fea”包含每个文档的特征向量。然而,它似乎不是一个正常的矩阵。例如,我想选择此“fea”中的前1000个文档。如果你下载它并加载到MATLAB中,你就会明白我的意思。 因此,如果可能的话,我需要为上述数据集或任何替代数据集提供解决方案。 提前感谢。它存储为。提取前1000个文档(行),如果有足够的空间,可以将其转换为全密度矩阵:面向MATLAB的文本分类数据集,matlab,dataset,Matlab,Dataset,我正在寻找一个可靠的数据集在MATLAB格式的文本分类任务。 我想做一些实验,不想在预处理文本和创建特征向量上花费太多时间。我需要准备一些东西,这样我就可以把它插入我的算法中。我在这里找到了路透社数据集的MATLAB文件: 这里的一切都准备好了,但我想使用其中的一个子集。在本文件中,“fea”包含每个文档的特征向量。然而,它似乎不是一个正常的矩阵。例如,我想选择此“fea”中的前1000个文档。如果你下载它并加载到MATLAB中,你就会明白我的意思。 因此,如果可能的话,我需要为上述数据集或任何
load Reuters21578.mat
TF = full( fea(1:1000,:) );
让我们检查一下我们拥有的变量:
>> whos
Name Size Bytes Class Attributes
TF 1000x18933 151464000 double
fea 8293x18933 4749196 double sparse
gnd 8293x1 66344 double
testIdx 2347x1 18776 double
trainIdx 5946x1 47568 double
所以你可以看到TF现在大约是150MB
除此之外,其余内容不言自明:
:术语频率矩阵,行为文档,列为术语fea
:每个文档的类别,其中gnd
numel(唯一(gnd))==65
/trainIdx
:为分类目的拆分实例(文档),包含行索引,用作:testIdx
tr=fea(trainIdx,:);tt=有限元分析(testIdx,:)代码>
如果你下载它并将其加载到Matlab中,你就会明白我的意思。
对我没有多大帮助(而且对你也没有多大帮助)。你能描述一下当你试图选择前1000个文档时会发生什么吗?