在tidyr中堵塞ngrams
我试图用这两个词的词干来创造双字格。但我的代码只对第二个单词进行词干分析,而没有对第一个单词进行词干分析。例如,“担心”和“担心”是分开列出的 任何协助都将不胜感激在tidyr中堵塞ngrams,r,tidyr,stemming,R,Tidyr,Stemming,我试图用这两个词的词干来创造双字格。但我的代码只对第二个单词进行词干分析,而没有对第一个单词进行词干分析。例如,“担心”和“担心”是分开列出的 任何协助都将不胜感激 bigram_text <- text_df %>% mutate_all(as.character) %>% unnest_tokens(bigram, text, token = "ngrams", n = 2)%>% mutate(bigram = wordStem(bigram
bigram_text <- text_df %>%
mutate_all(as.character) %>%
unnest_tokens(bigram, text, token = "ngrams", n = 2)%>%
mutate(bigram = wordStem(bigram))
bigramcount<- bigram_text %>%
count(bigram, sort = TRUE)
bigram\u text%
全部变异(如字符)%>%
unnest_标记(bigram,text,token=“ngrams”,n=2)%>%
变异(bigram=wordStem(bigram))
bigramcount%
计数(bigram,sort=TRUE)
您面临的问题是wordStem
和许多其他词干分析器仅用于词干。你想干掉一个2字的二元字母。你需要的是使用一个特定的函数来阻止句子。在这种情况下,您可以使用名为stem\u strings
的程序包textstem中的函数
library(textstem)
bigram_text <- text_df %>%
mutate_all(as.character) %>%
unnest_tokens(bigram, text, token = "ngrams", n = 2)%>%
mutate(bigram = stem_strings(bigram))
库(textstem)
双字符文本%
全部变异(如字符)%>%
unnest_标记(bigram,text,token=“ngrams”,n=2)%>%
变异(bigram=stem_字符串(bigram))
当然,一种更为迂回的方法是将二元图拆分为两列,对列进行主干处理,然后将它们重新粘贴在一起 您面临的问题是
wordStem
和许多其他词干分析器都只处理词干。你想干掉一个2字的二元字母。你需要的是使用一个特定的函数来阻止句子。在这种情况下,您可以使用名为stem\u strings
的程序包textstem中的函数
library(textstem)
bigram_text <- text_df %>%
mutate_all(as.character) %>%
unnest_tokens(bigram, text, token = "ngrams", n = 2)%>%
mutate(bigram = stem_strings(bigram))
库(textstem)
双字符文本%
全部变异(如字符)%>%
unnest_标记(bigram,text,token=“ngrams”,n=2)%>%
变异(bigram=stem_字符串(bigram))
当然,一种更为迂回的方法是将二元图拆分为两列,对列进行主干处理,然后将它们重新粘贴在一起 如果您包含一个简单的示例输入和所需的输出,可以用来测试和验证可能的解决方案,那么就更容易为您提供帮助。请确保明确列出您正在使用的所有软件包,以便明确每个函数的来源。如果您包含一个简单的示例输入和所需的输出,可用于测试和验证可能的解决方案,则更容易为您提供帮助。请确保明确列出您正在使用的所有软件包,以便明确每个函数的来源。