在r程序设计中如何在标记中保留（，#符号）_R_Data Mining_Tokenize

在r程序设计中如何在标记中保留（，#符号）

在r程序设计中如何在标记中保留（，#符号）,r,data-mining,tokenize,R,Data Mining,Tokenize,使用R编程我正在处理一个文本文件，其中包含乔布斯广告中的（c#，c++，.net）等词，当我将其转换为标记时，#，++和点被删除。如何将它们保存在生成的令牌中 unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE) 问题在于参数token=“words”，它在非单词字符上拆分（可能使用正则表达式\\W+）。此函数丢弃分隔符，因此为了保留这些字符，您必须使用“words”以外的其他参数。您可能希望使用token=“reg

使用R编程我正在处理一个文本文件，其中包含乔布斯广告中的（c#，c++，.net）等词，当我将其转换为标记时，#，++和点被删除。如何将它们保存在生成的令牌中

unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE)

问题在于参数

token=“words”

，它在非单词字符上拆分（可能使用正则表达式

\\W+

）。此函数丢弃分隔符，因此为了保留这些字符，您必须使用

“words”

以外的其他参数。您可能希望使用

token=“regex”

和类似的内容定义自己的拆分正则表达式：

unnest_tokens(word,
              REQUIREMENTS,
              token = "regex",
              to_lower = TRUE,
              pattern = "\\s+") # split on whitespace rather than non-word elements

这样，就可以自定义文本的标记化方式