当返回具有相反方向相同单词的短语时,是否会产生独特的quanteda ngrams或textstat_搭配?

当返回具有相反方向相同单词的短语时,是否会产生独特的quanteda ngrams或textstat_搭配?,r,n-gram,quanteda,R,N Gram,Quanteda,在quanteda文本分析过程中,需要提取2grams搭配,因此通常使用tokens\u ngram或textstat\u搭配。 由于我的文章有1000多篇评论,这个过程会产生一些类似的短语(包括相同的单词),但方向相反。注意textstat_搭配结果中的第2行和第6行: collocation count count_nested length lambda z 1 street noisy 13

在quanteda文本分析过程中,需要提取2grams搭配,因此通常使用
tokens\u ngram
textstat\u搭配
。 由于我的文章有1000多篇评论,这个过程会产生一些类似的短语(包括相同的单词),但方向相反。注意textstat_搭配结果中的第2行和第6行:

                collocation count count_nested length   lambda        z
1              street noisy    13            0      2 3.390877 6.963736
2              poor service    11            0      2 2.573747 6.806637
3                 beds hard     5            0      2 5.324351 5.673206
4            extremely rude     4            0      2 3.846168 5.600208
5                room dirty     9            0      2 2.142518 5.482638
6              service poor     8            0      2 2.231967 5.338507
有没有办法将它们合并到一个结果中并求和计数?
当返回具有相反方向的相同单词的短语时,是否有任何方法可以唯一化quanteda ngrams或textstat_搭配结果?

您可以按字母顺序拆分和重新组合每个搭配,然后按新的字母顺序重新排列的搭配组合计数。这将以您想要的方式组合(a,b)和(b,a)组合

tab%
汇总(计数=总和(计数))%>%
排列(描述(计数))
###tibble:5 x 2
##搭配计数
##                 
##1服务差19
##2噪音街13
##3肮脏的房间9
##4张硬床5张
##非常粗鲁