R中主题建模文本预处理时获取奇怪字符

R中主题建模文本预处理时获取奇怪字符,r,character-encoding,text-processing,data-cleaning,R,Character Encoding,Text Processing,Data Cleaning,我正在准备文档,以便在西班牙语新闻文章的大数据框上运行stm。在使用函数prepDocuments时,我注意到术语矩阵得到了一些奇怪的“vocabs”(“\U0001d45d”),如下面的代码所示 这是我的代码 #Preparing the documents out <- prepDocuments(to_stm$documents, to_stm$vocab, to_stm$meta, lower.thresh = 1, upper.thre

我正在准备文档,以便在西班牙语新闻文章的大数据框上运行
stm
。在使用函数
prepDocuments
时,我注意到术语矩阵得到了一些奇怪的“vocabs”(“\U0001d45d”),如下面的代码所示

这是我的代码

#Preparing the documents

out <- prepDocuments(to_stm$documents, to_stm$vocab, to_stm$meta,
                     lower.thresh = 1, upper.thresh = 8677, verbose = TRUE)

#This is what I get when I inspect some of the out$vocab
    > out$vocab[60:95]
 [1] "\U0001d45d\U0001d450\U0001d452\U0001d459\U0001d462\U0001d459\U0001d44e\U0001d45f"    "\U0001d45d\U0001d450\U0001d452\U0001d459\U0001d462\U0001d459\U0001d44e\U0001d45fel"  "\U0001d45d\U0001d452\U0001d45f\U0001d460\U0001d45c\U0001d45b\U0001d44e"     "\U0001d45d\U0001d452\U0001d45f\U0001d460\U0001d45c\U0001d45b\U0001d44e\U0001d460"    "\U0001d45d\U0001d453\U0001d456\U0001d457\U0001d45c"       "\U0001d45d\U0001d456"          "ª"          
 [8] "à"           "a4"          "a6"          "aa"          "aaa"         "aarak"       "ab"         
[15] "abaco"       "abad"        "abadía"      "abajo"       "abalanzó"    "abaleados"   "abanderada" 
[22] "abanderadas" "abanderado"  "abanderados" "abanderar"   "abanderó"    "abandona"    "abandonaba" 
[29] "abandonaban" "abandonada"  "abandonadas" "abandonado"  "abandonados" "abandonamos" "abandonan"  
[36] "abandonando"
#准备文档
out$vocab[60:95]
[1] “\U0001d45d\U0001d450\U0001d452\U0001d459\U0001d462\U0001d459\U0001d44e\U0001d45f”“\U0001d45d\U0001d450\U0001d462\U0001d452\U0001D45E\U0001d45d\U0001d452\U0001d45f\U0001d460\U0001d45b\U00015D\U00015D\U0001d452\U0001d452\U0001F\U0001d460\U0001D455E”\U0001d45d\U0001d453\U0001d456\U0001d457\U0001d45c”“\U0001d45d\U0001d456”“ª”
[8] “a4”“a6”“aa”“aaa”“aarak”“ab”
[15] “abaco”“abad”“abadía”“abajo”“abalanzó”“abaleados”“abanderada”
【22】“abanderadas”“abanderado”“abanderados”“abanderar”“abanderó”“abundera”“abunderada”“abunderada”“abunderada”“abanderado”“abanderados”“abanderados”“abanderar”“abandera”“abandera”“abund
[29]“放弃”指的是“放弃”,也就是“放弃”
[36]“放弃安多”
我试着从我的数据帧中筛选或子集这些数据,但我没有找到它们。知道可能会发生什么吗?这似乎与编码有关,但我是R新手,所以我不知道编码是如何工作的


我没有分享我的数据样本,因为dataframe由17000篇文章组成,因此我无法猜测哪些文章包含这些奇怪的字符。

如果您在Windows上,则无法使用R中的非BMP Unicode代码点。我是。甚至没有机会将这些Unicode转换为纯字符串来查看它们是什么?如果不是,你认为这会对我的主题建模产生影响吗?在术语矩阵中大约50000个术语中,Unicode中只有大约25个术语,你可以将它们过滤掉。
grep([^\\x{0000}-\\x{FFFF}],out$vocab,invert=TRUE,perl=TRUE)
结果我得到了
整数(0)
。我检查了
out$vocab[45:66]
这些unicode在哪里,它们仍然在那里。我是否有可能在我的原始数据框中过滤它们?也许可以使用一些代码来识别新闻文章中的unicode?然后你需要提供一个MCVE,一个。