R 查找以特定字符开头和结尾的字符串
我正在从事一个利用twitter数据的文本挖掘项目。在我的数据框中,许多单词被转换成Unicode字符,例如R 查找以特定字符开头和结尾的字符串,r,regex,unicode,R,Regex,Unicode,我正在从事一个利用twitter数据的文本挖掘项目。在我的数据框中,许多单词被转换成Unicode字符,例如 我想收集每一个像上面这样转换的单词,并把它们放在一个大字符串中,这样我就可以单独处理它们了 有没有办法用R找到所有以开头的字符串 您的请求有点不精确,因此我冒昧地对您希望输出的方式做一些假设 text <- "Words <Q+0E2B><U+0E2B2>, 1 < 2, <p> <U+0E2B><U
我想收集每一个像上面这样转换的单词,并把它们放在一个大字符串中,这样我就可以单独处理它们了
有没有办法用R找到所有以
开头的字符串 您的请求有点不精确,因此我冒昧地对您希望输出的方式做一些假设
text <- "Words <Q+0E2B><U+0E2B2>, 1 < 2, <p>
<U+0E2B><U+0E25><U+0E07><U+0E1E> </p> some more words"
regmatches(text, gregexpr("<U\\+[0-9A-Z]{4}>", text))
# "<U+0E2B>" "<U+0E25>" "<U+0E07>" "<U+0E1E>"
text也许,您正在寻找grep(“^(?)+$”,x)
我已经在数据框中的一行中尝试了这一点,但不知怎的它给出了结果:integer(0)
请提供具有预期输出的示例数据。谢谢,这是我预期的输出。