Python 考虑字序的文件分类_Python_Machine Learning_Scikit Learn

Python 考虑字序的文件分类

python machine-learning scikit-learn

Python 考虑字序的文件分类,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我正试图对一系列文件进行分类。在分类之前，我使用CountVectorizer和TfidfVectorizer对文档进行矢量化。结果是好的，但我认为，如果我们不仅要考虑文档中特定词的存在，还要考虑这些词的顺序，它们会更好。我知道也可以考虑成对和三元组的单词，但是我正在寻找更具包容性的东西。 < P>信不信由你，但是单词袋在各种文本数据集上都能很好地工作。你已经想到了双克或三克。假设你有10克。你有关于单词顺序的信息，但事实证明每10克中很少有一个以上的实例，因此分类模型可以从中学习的示例很少。您

我正试图对一系列文件进行分类。在分类之前，我使用CountVectorizer和TfidfVectorizer对文档进行矢量化。结果是好的，但我认为，如果我们不仅要考虑文档中特定词的存在，还要考虑这些词的顺序，它们会更好。我知道也可以考虑成对和三元组的单词，但是我正在寻找更具包容性的东西。

< P>信不信由你，但是单词袋在各种文本数据集上都能很好地工作。你已经想到了双克或三克。假设你有10克。你有关于单词顺序的信息，但事实证明每10克中很少有一个以上的实例，因此分类模型可以从中学习的示例很少。您可以尝试基于文本的其他自定义功能工程，但这将是一个很好的工作量，很少有多大帮助。自然语言处理中还有其他成功的方法，特别是在最近几年，但它们通常关注的不仅仅是单词排序。

我处理的文档是表单，而不是自由文本。某些单词可能出现在文档的开头或结尾。它应该相应地改变分类。问题是：有没有一种算法可以考虑到这一点？不幸的是，10克的方法对我没有帮助