Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/328.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 考虑字序的文件分类_Python_Machine Learning_Scikit Learn - Fatal编程技术网

Python 考虑字序的文件分类

Python 考虑字序的文件分类,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,我正试图对一系列文件进行分类。在分类之前,我使用CountVectorizer和TfidfVectorizer对文档进行矢量化。结果是好的,但我认为,如果我们不仅要考虑文档中特定词的存在,还要考虑这些词的顺序,它们会更好。我知道也可以考虑成对和三元组的单词,但是我正在寻找更具包容性的东西。 < P>信不信由你,但是单词袋在各种文本数据集上都能很好地工作。你已经想到了双克或三克。假设你有10克。你有关于单词顺序的信息,但事实证明每10克中很少有一个以上的实例,因此分类模型可以从中学习的示例很少。您

我正试图对一系列文件进行分类。在分类之前,我使用CountVectorizer和TfidfVectorizer对文档进行矢量化。结果是好的,但我认为,如果我们不仅要考虑文档中特定词的存在,还要考虑这些词的顺序,它们会更好。我知道也可以考虑成对和三元组的单词,但是我正在寻找更具包容性的东西。

< P>信不信由你,但是单词袋在各种文本数据集上都能很好地工作。你已经想到了双克或三克。假设你有10克。你有关于单词顺序的信息,但事实证明每10克中很少有一个以上的实例,因此分类模型可以从中学习的示例很少。您可以尝试基于文本的其他自定义功能工程,但这将是一个很好的工作量,很少有多大帮助。自然语言处理中还有其他成功的方法,特别是在最近几年,但它们通常关注的不仅仅是单词排序。

我处理的文档是表单,而不是自由文本。某些单词可能出现在文档的开头或结尾。它应该相应地改变分类。问题是:有没有一种算法可以考虑到这一点?不幸的是,10克的方法对我没有帮助