如何在R中找出语料库中所有的大写词

如何在R中找出语料库中所有的大写词,r,text-mining,R,Text Mining,所以,我有一个文档语料库,我需要在R中的所有文档中找到所有都是大写的单词(即,该单词中的每个字符都是大写)。我不确定如何找到。我已经看过R中的文本挖掘“tm”包,没有这样的函数可以找到它 输入字符串:“俄罗斯是最大的国家” 所需输出:“该” 如何使用“tm”软件包实现这一点?尝试使用正则表达式 sub('.*(\\b[A-Z]+\\b).*','\\1',string) #[1] "THE" 尝试使用正则表达式 sub('.*(\\b[A-Z]+\\b).*','\\1',string) #[

所以,我有一个文档语料库,我需要在R中的所有文档中找到所有都是大写的单词(即,该单词中的每个字符都是大写)。我不确定如何找到。我已经看过R中的文本挖掘“tm”包,没有这样的函数可以找到它

输入字符串:
“俄罗斯是最大的国家”

所需输出:
“该”


如何使用“tm”软件包实现这一点?

尝试使用正则表达式

sub('.*(\\b[A-Z]+\\b).*','\\1',string)
#[1] "THE"

尝试使用正则表达式

sub('.*(\\b[A-Z]+\\b).*','\\1',string)
#[1] "THE"

您可以使用gregexpr和regmatches:

unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc)))
[1] "THE"
数据
abc您可以使用gregexpr和regmatches:

unlist(regmatches(abc, gregexpr('\\b[A-Z]+\\b', abc)))
[1] "THE"
数据
abc带stringr(如果您想查找所有带大写的单词(作为向量),而不仅仅是第一个):

使用stringr(如果您希望查找所有此类带有大写而不仅仅是第一个大写的单词(作为向量):


这将只找到一个单词,例如尝试使用
string。这将只找到一个单词,例如尝试使用
string