Python nltk：使用自定义特征集的文本分类_Python_Text_Python 3.x_Classification_Nltk

Python nltk：使用自定义特征集的文本分类

python text python-3.x

Python nltk：使用自定义特征集的文本分类,python,text,python-3.x,classification,nltk,Python,Text,Python 3.x,Classification,Nltk,我的数据集如下所示： featureDict = {identifier1: [[first 3-gram], [second 3-gram], ... [last 3-gram]], ... identifierN: [[first 3-gram], [second 3-gram], ... [last 3-gram]]} 另外，我还有一套相同文件的标签： labelDict = {identifier1: label1,

我的数据集如下所示：

featureDict = {identifier1: [[first 3-gram], [second 3-gram], ... [last 3-gram]],
               ...
               identifierN: [[first 3-gram], [second 3-gram], ... [last 3-gram]]}

另外，我还有一套相同文件的标签：

labelDict = {identifier1: label1,
             ...
             identifierN: labelN}

我想找出最合适的nltk容器，在其中我可以将这些信息存储在一个地方，并无缝地应用nltk分类器

此外，在使用此数据集上的任何分类器之前，我还希望在此功能空间上使用tf idf过滤器

参考资料和文档将很有帮助。

您只需要一个简单的记录。请查看中的代码片段

这方面的参考文档仍然是nltk手册：和API规范：

以下是一些可能对您有所帮助的页面：

此外，请记住，nltk在其提供的分类器算法方面是有限的。对于更高级的探索，您最好使用scikit learn。

您只需要一个简单的dict。请查看中的代码片段

这方面的参考文档仍然是nltk手册：和API规范：

以下是一些可能对您有所帮助的页面：

此外，请记住，nltk在其提供的分类器算法方面是有限的。对于更高级的探索，最好使用scikit learn