在r程序设计中如何在标记中保留(,#符号)
使用R编程 我正在处理一个文本文件,其中包含乔布斯广告中的(c#,c++,.net)等词,当我将其转换为标记时,#,++和点被删除。 如何将它们保存在生成的令牌中在r程序设计中如何在标记中保留(,#符号),r,data-mining,tokenize,R,Data Mining,Tokenize,使用R编程 我正在处理一个文本文件,其中包含乔布斯广告中的(c#,c++,.net)等词,当我将其转换为标记时,#,++和点被删除。 如何将它们保存在生成的令牌中 unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE) 问题在于参数token=“words”,它在非单词字符上拆分(可能使用正则表达式\\W+)。此函数丢弃分隔符,因此为了保留这些字符,您必须使用“words”以外的其他参数。您可能希望使用token=“reg
unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE)
问题在于参数
token=“words”
,它在非单词字符上拆分(可能使用正则表达式\\W+
)。此函数丢弃分隔符,因此为了保留这些字符,您必须使用“words”
以外的其他参数。您可能希望使用token=“regex”
和类似的内容定义自己的拆分正则表达式:
unnest_tokens(word,
REQUIREMENTS,
token = "regex",
to_lower = TRUE,
pattern = "\\s+") # split on whitespace rather than non-word elements
这样,就可以自定义文本的标记化方式