Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/84.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在r程序设计中如何在标记中保留(,#符号)_R_Data Mining_Tokenize - Fatal编程技术网

在r程序设计中如何在标记中保留(,#符号)

在r程序设计中如何在标记中保留(,#符号),r,data-mining,tokenize,R,Data Mining,Tokenize,使用R编程 我正在处理一个文本文件,其中包含乔布斯广告中的(c#,c++,.net)等词,当我将其转换为标记时,#,++和点被删除。 如何将它们保存在生成的令牌中 unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE) 问题在于参数token=“words”,它在非单词字符上拆分(可能使用正则表达式\\W+)。此函数丢弃分隔符,因此为了保留这些字符,您必须使用“words”以外的其他参数。您可能希望使用token=“reg

使用R编程 我正在处理一个文本文件,其中包含乔布斯广告中的(c#,c++,.net)等词,当我将其转换为标记时,#,++和点被删除。 如何将它们保存在生成的令牌中

unnest_tokens(word,REQUIREMENTS, token = "words",to_lower=TRUE)

问题在于参数
token=“words”
,它在非单词字符上拆分(可能使用正则表达式
\\W+
)。此函数丢弃分隔符,因此为了保留这些字符,您必须使用
“words”
以外的其他参数。您可能希望使用
token=“regex”
和类似的内容定义自己的拆分正则表达式:

unnest_tokens(word,
              REQUIREMENTS,
              token = "regex",
              to_lower = TRUE,
              pattern = "\\s+") # split on whitespace rather than non-word elements
这样,就可以自定义文本的标记化方式