Machine learning 如何使用bigrams+;三角形+;countVectorizer中的单词标记词汇?

Machine learning 如何使用bigrams+;三角形+;countVectorizer中的单词标记词汇?,machine-learning,nlp,text-classification,countvectorizer,Machine Learning,Nlp,Text Classification,Countvectorizer,我使用文本分类和朴素贝叶斯和计数向量器对方言进行分类。我读了一篇研究论文,作者结合使用了: bigrams + trigrams + word-marks vocabulary 他在这里指的是单词标记,是特定于某一方言的单词 如何在countVectorizer中调整这些参数 字迹 这些都是单词标记的例子,但我没有,因为我的是阿拉伯语。所以我翻译了它们 word_marks=['love', 'funny', 'happy', 'amazing'] 这些用于对文本进行分类 此外,在本帖中:

我使用文本分类和朴素贝叶斯和计数向量器对方言进行分类。我读了一篇研究论文,作者结合使用了:

bigrams + trigrams + word-marks vocabulary 
他在这里指的是单词标记,是特定于某一方言的单词

如何在countVectorizer中调整这些参数

字迹 这些都是单词标记的例子,但我没有,因为我的是阿拉伯语。所以我翻译了它们

word_marks=['love', 'funny', 'happy', 'amazing']
这些用于对文本进行分类

此外,在本帖中:

答案是:

>>> v = CountVectorizer(ngram_range=(1, 2), vocabulary={"keeps", "keeps the"})
>>> v.fit_transform(["an apple a day keeps the doctor away"]).toarray()
array([[1, 1]])  # unigram and bigram found

我无法理解输出,[1,1]在这里是什么意思?他是如何将ngram与词汇结合使用的?它们不是相互排斥的吗

您想使用n_gram range参数来使用bigram和trigram。在您的例子中,它将是CountVectorizer(ngram_range=(1,3))

有关更多详细信息,请参阅已接受的答案

请为问题的另一部分提供“单词标记”的示例

您可能需要运行CountVectorizer两次-一次用于n-grams,一次用于自定义单词标记词汇表。然后,您可以将两个计数器向量器的两个输出连接起来,以获得n-gram计数和自定义词汇表计数的单个特征集。上述问题的答案还解释了如何为CountVectorizer的第二次使用指定自定义词汇表


下面是一个关于连接数组的示例

您想使用n_gram range参数来使用bigram和trigram。在您的例子中,它将是CountVectorizer(ngram_range=(1,3))

有关更多详细信息,请参阅已接受的答案

请为问题的另一部分提供“单词标记”的示例

您可能需要运行CountVectorizer两次-一次用于n-grams,一次用于自定义单词标记词汇表。然后,您可以将两个计数器向量器的两个输出连接起来,以获得n-gram计数和自定义词汇表计数的单个特征集。上述问题的答案还解释了如何为CountVectorizer的第二次使用指定自定义词汇表


下面是一个关于串联数组的示例

您想使用一个“countVectorizer”来获取所有三个bigram、trigram和单词标记词汇表吗?你们有每种方言的词汇词典吗?请添加一个包含输入和预期输出的示例是的,我想同时使用这三个示例,并且我确实有一个每个方言数组的单词词典([1,1,]),这意味着CountVectorizer在输入句子中找到了一个“keeps”实例和一个“keeps the”实例。代码仅在自定义词汇表中查找匹配项。尝试更改输入句子以添加更多“keeps”和“keeps the”的实例,以查看输出计数如何更改。是否要使用单个“countVectorizer”获取所有三个bigram、trigram和单词标记词汇表?你们有每种方言的词汇词典吗?请添加一个包含输入和预期输出的示例是的,我想同时使用这三个示例,并且我确实有一个每个方言数组的单词词典([1,1,]),这意味着CountVectorizer在输入句子中找到了一个“keeps”实例和一个“keeps the”实例。代码仅在自定义词汇表中查找匹配项。尝试更改输入句子以添加更多“keeps”和“keeps the”的实例,以查看输出计数的变化。我已编辑了文章,请查看我添加的内容。另外,您能否提供一个示例,说明如何在拟合后连接两个向量?当我有管道时,是否可以这样做?此外,我是否在拟合阶段或变换阶段连接?我将如何预测呢?我已经编辑了这篇文章,请看我添加的内容。另外,您能否提供一个示例,说明如何在拟合后连接两个向量?当我有管道时,是否可以这样做?此外,我是否在拟合阶段或变换阶段连接?我如何才能预测呢?