如何在保持缩略的同时拆分R中的单词
我正在尝试将一个字符向量novel.lower.mid转换为一个单字列表。到目前为止,我使用的代码如下:如何在保持缩略的同时拆分R中的单词,r,list,strsplit,R,List,Strsplit,我正在尝试将一个字符向量novel.lower.mid转换为一个单字列表。到目前为止,我使用的代码如下: midnight.words.l <- strsplit(novel.lower.mid, "\\W") midnight.words.l我们可以使用 library(stringr) str_extract_all(novel.lower.mid, "\\b[[:alnum:]']+\\b") 或 如果您只希望当前的“\W”拆分不包含撇号,请将\W和'取反: novel.low
midnight.words.l <- strsplit(novel.lower.mid, "\\W")
midnight.words.l我们可以使用
library(stringr)
str_extract_all(novel.lower.mid, "\\b[[:alnum:]']+\\b")
或
如果您只希望当前的“\W”拆分不包含撇号,请将\W
和'
取反:
novel.lower.mid <- c("I won't eat", "green eggs and", "ham")
strsplit(novel.lower.mid, "[^\\w']", perl=T)
# [[1]]
# [1] "I" "won't" "eat"
#
# [[2]]
# [1] "green" "eggs" "and"
#
# [[3]]
# [1] "ham"
novel.lower.mid您用什么来分隔单词?你有样本数据吗?@steveb我真的不知道我的数据是用什么分隔的。下面是数据的一部分示例:class(novel.lower.mid)[1]“character”novel.lower.mid[1]“第一册穿孔纸我出生在孟买……很久以前。不,那不行,不能逃避这个日期:我于1947年8月15日出生在纳利卡医生的疗养院。时间呢?时间也很重要。那么,在晚上。不,更重要的是…我试了第二个,但它没有停止运行,然后我不得不被迫退出研究。我用了第一个,它成功了+1我尝试了你的建议,但它没有停止运行,然后我不得不强制退出studio@Stefano-这必须特定于您的特定数据(可能有很多数据,或者有特定的编码)。你必须提供更多的信息!对不起!我正在研究一个基本上包含整个小说的角色向量,大约300页的文本。下面是我如何获得小说的。lower.mid:
novel.lower.mid <- c("I won't eat", "green eggs and", "ham")
strsplit(novel.lower.mid, "[^\\w']", perl=T)
# [[1]]
# [1] "I" "won't" "eat"
#
# [[2]]
# [1] "green" "eggs" "and"
#
# [[3]]
# [1] "ham"