Python 考虑字序的文件分类
我正试图对一系列文件进行分类。在分类之前,我使用CountVectorizer和TfidfVectorizer对文档进行矢量化。结果是好的,但我认为,如果我们不仅要考虑文档中特定词的存在,还要考虑这些词的顺序,它们会更好。我知道也可以考虑成对和三元组的单词,但是我正在寻找更具包容性的东西。 < P>信不信由你,但是单词袋在各种文本数据集上都能很好地工作。你已经想到了双克或三克。假设你有10克。你有关于单词顺序的信息,但事实证明每10克中很少有一个以上的实例,因此分类模型可以从中学习的示例很少。您可以尝试基于文本的其他自定义功能工程,但这将是一个很好的工作量,很少有多大帮助。自然语言处理中还有其他成功的方法,特别是在最近几年,但它们通常关注的不仅仅是单词排序。我处理的文档是表单,而不是自由文本。某些单词可能出现在文档的开头或结尾。它应该相应地改变分类。问题是:有没有一种算法可以考虑到这一点?不幸的是,10克的方法对我没有帮助Python 考虑字序的文件分类,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我正试图对一系列文件进行分类。在分类之前,我使用CountVectorizer和TfidfVectorizer对文档进行矢量化。结果是好的,但我认为,如果我们不仅要考虑文档中特定词的存在,还要考虑这些词的顺序,它们会更好。我知道也可以考虑成对和三元组的单词,但是我正在寻找更具包容性的东西。 < P>信不信由你,但是单词袋在各种文本数据集上都能很好地工作。你已经想到了双克或三克。假设你有10克。你有关于单词顺序的信息,但事实证明每10克中很少有一个以上的实例,因此分类模型可以从中学习的示例很少。您