如何从R字符串中提取某些单词?
我对解析数据比较陌生 我有一个数据集,其中包含以下紧跟此格式的示例文本数据:如何从R字符串中提取某些单词?,r,stringr,R,Stringr,我对解析数据比较陌生 我有一个数据集,其中包含以下紧跟此格式的示例文本数据: "Blessed to receive an offer from Texas State University." "Blessed to receive an offer from Columbia University." 在“from”之后提取学校名称的好方法是什么 我知道stringr和pattern,但似乎找不到一种方法来正确提取学校名称的变化 使用stru extract(并假设所有uni名称后面紧跟
"Blessed to receive an offer from Texas State University."
"Blessed to receive an offer from Columbia University."
在“from”之后提取学校名称的好方法是什么
我知道stringr和pattern,但似乎找不到一种方法来正确提取学校名称的变化 使用
stru extract
(并假设所有uni名称后面紧跟一个句点):
你试过哪些不起作用?这似乎是一个很好的起点:@camille我试过使用str_split_fixed(df$text,“from”,3)和str_split(df$text,“from”),那些不起作用的呢?这有助于深入了解你的问题,如果问题后面没有句号,那么最好的做法是什么?这将彻底改变情况。然后,这可能会有所帮助:
为后代提供数据,您还可以执行stru匹配(数据,“from\\s([A-Za-z\\s]+)”)
@rpolicastro您建议的正则表达式的结果不完全是所需的匹配:stru匹配(数据,“from\\s([A-Za-z\\s]+)”[,1][,2][1,]“来自德克萨斯州立大学”“德克萨斯州立大学”[2,]“来自哥伦比亚大学”“哥伦比亚大学”[3,]“来自哥伦比亚大学和其他大学”“哥伦比亚大学和其他大学”
我在回复原来的帖子。我不知道他想要的比赛不会以周期结束。
data <- c("Blessed to receive an offer from Texas State University.",
"Blessed to receive an offer from Columbia University.")
UniNames <- str_extract(data, "(?<=from\\s).*(?=\\.)")
UniNames
[1] "Texas State University" "Columbia University"