如何在R中找出语料库中所有的大写词
所以,我有一个文档语料库,我需要在R中的所有文档中找到所有都是大写的单词(即,该单词中的每个字符都是大写)。我不确定如何找到。我已经看过R中的文本挖掘“tm”包,没有这样的函数可以找到它 输入字符串:如何在R中找出语料库中所有的大写词,r,text-mining,R,Text Mining,所以,我有一个文档语料库,我需要在R中的所有文档中找到所有都是大写的单词(即,该单词中的每个字符都是大写)。我不确定如何找到。我已经看过R中的文本挖掘“tm”包,没有这样的函数可以找到它 输入字符串:“俄罗斯是最大的国家” 所需输出:“该” 如何使用“tm”软件包实现这一点?尝试使用正则表达式 sub('.*(\\b[A-Z]+\\b).*','\\1',string) #[1] "THE" 尝试使用正则表达式 sub('.*(\\b[A-Z]+\\b).*','\\1',string) #[
“俄罗斯是最大的国家”
所需输出:“该”
如何使用“tm”软件包实现这一点?尝试使用正则表达式
sub('.*(\\b[A-Z]+\\b).*','\\1',string)
#[1] "THE"
尝试使用正则表达式
sub('.*(\\b[A-Z]+\\b).*','\\1',string)
#[1] "THE"
您可以使用gregexpr和regmatches:
unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc)))
[1] "THE"
数据
abc您可以使用gregexpr和regmatches:
unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc)))
[1] "THE"
数据
abc带stringr(如果您想查找所有带大写的单词(作为向量),而不仅仅是第一个):
使用stringr(如果您希望查找所有此类带有大写而不仅仅是第一个大写的单词(作为向量):
这将只找到一个单词,例如尝试使用string。这将只找到一个单词,例如尝试使用string