R 查找以特定字符开头和结尾的字符串_R_Regex_Unicode

R 查找以特定字符开头和结尾的字符串

r regex unicode

R 查找以特定字符开头和结尾的字符串,r,regex,unicode,R,Regex,Unicode,我正在从事一个利用twitter数据的文本挖掘项目。在我的数据框中，许多单词被转换成Unicode字符，例如我想收集每一个像上面这样转换的单词，并把它们放在一个大字符串中，这样我就可以单独处理它们了有没有办法用R找到所有以开头的字符串您的请求有点不精确，因此我冒昧地对您希望输出的方式做一些假设 text <- "Words <Q+0E2B><U+0E2B2>, 1 < 2, <p> <U+0E2B><U

我正在从事一个利用twitter数据的文本挖掘项目。在我的数据框中，许多单词被转换成Unicode字符，例如

我想收集每一个像上面这样转换的单词，并把它们放在一个大字符串中，这样我就可以单独处理它们了

有没有办法用R找到所有以

开头的字符串

您的请求有点不精确，因此我冒昧地对您希望输出的方式做一些假设

text <- "Words <Q+0E2B><U+0E2B2>, 1 < 2, <p> 
         <U+0E2B><U+0E25><U+0E07><U+0E1E> </p> some more words"

regmatches(text, gregexpr("<U\\+[0-9A-Z]{4}>", text))
# "<U+0E2B>" "<U+0E25>" "<U+0E07>" "<U+0E1E>"

text也许，您正在寻找grep（“^（？）+$”，x）
我已经在数据框中的一行中尝试了这一点，但不知怎的它给出了结果：integer（0）
请提供具有预期输出的示例数据。谢谢，这是我预期的输出。