R中主题建模文本预处理时获取奇怪字符_R_Character Encoding_Text Processing_Data Cleaning

R中主题建模文本预处理时获取奇怪字符

r character-encoding

R中主题建模文本预处理时获取奇怪字符,r,character-encoding,text-processing,data-cleaning,R,Character Encoding,Text Processing,Data Cleaning,我正在准备文档，以便在西班牙语新闻文章的大数据框上运行stm。在使用函数prepDocuments时，我注意到术语矩阵得到了一些奇怪的“vocabs”（“\U0001d45d”），如下面的代码所示这是我的代码 #Preparing the documents out <- prepDocuments(to_stm$documents, to_stm$vocab, to_stm$meta, lower.thresh = 1, upper.thre

我正在准备文档，以便在西班牙语新闻文章的大数据框上运行

stm

。在使用函数

prepDocuments

时，我注意到术语矩阵得到了一些奇怪的“vocabs”（“\U0001d45d”），如下面的代码所示

这是我的代码

#Preparing the documents

out <- prepDocuments(to_stm$documents, to_stm$vocab, to_stm$meta,
                     lower.thresh = 1, upper.thresh = 8677, verbose = TRUE)

#This is what I get when I inspect some of the out$vocab
    > out$vocab[60:95]
 [1] "\U0001d45d\U0001d450\U0001d452\U0001d459\U0001d462\U0001d459\U0001d44e\U0001d45f"    "\U0001d45d\U0001d450\U0001d452\U0001d459\U0001d462\U0001d459\U0001d44e\U0001d45fel"  "\U0001d45d\U0001d452\U0001d45f\U0001d460\U0001d45c\U0001d45b\U0001d44e"     "\U0001d45d\U0001d452\U0001d45f\U0001d460\U0001d45c\U0001d45b\U0001d44e\U0001d460"    "\U0001d45d\U0001d453\U0001d456\U0001d457\U0001d45c"       "\U0001d45d\U0001d456"          "ª"          
 [8] "à"           "a4"          "a6"          "aa"          "aaa"         "aarak"       "ab"         
[15] "abaco"       "abad"        "abadía"      "abajo"       "abalanzó"    "abaleados"   "abanderada" 
[22] "abanderadas" "abanderado"  "abanderados" "abanderar"   "abanderó"    "abandona"    "abandonaba" 
[29] "abandonaban" "abandonada"  "abandonadas" "abandonado"  "abandonados" "abandonamos" "abandonan"  
[36] "abandonando"

#准备文档
out$vocab[60:95]
[1] “\U0001d45d\U0001d450\U0001d452\U0001d459\U0001d462\U0001d459\U0001d44e\U0001d45f”“\U0001d45d\U0001d450\U0001d462\U0001d452\U0001D45E\U0001d45d\U0001d452\U0001d45f\U0001d460\U0001d45b\U00015D\U00015D\U0001d452\U0001d452\U0001F\U0001d460\U0001D455E”\U0001d45d\U0001d453\U0001d456\U0001d457\U0001d45c”“\U0001d45d\U0001d456”“ª”
[8] “a4”“a6”“aa”“aaa”“aarak”“ab”
[15] “abaco”“abad”“abadía”“abajo”“abalanzó”“abaleados”“abanderada”
【22】“abanderadas”“abanderado”“abanderados”“abanderar”“abanderó”“abundera”“abunderada”“abunderada”“abunderada”“abanderado”“abanderados”“abanderados”“abanderar”“abandera”“abandera”“abund
[29]“放弃”指的是“放弃”，也就是“放弃”
[36]“放弃安多”

我试着从我的数据帧中筛选或子集这些数据，但我没有找到它们。知道可能会发生什么吗？这似乎与编码有关，但我是R新手，所以我不知道编码是如何工作的

我没有分享我的数据样本，因为dataframe由17000篇文章组成，因此我无法猜测哪些文章包含这些奇怪的字符。

如果您在Windows上，则无法使用R中的非BMP Unicode代码点。我是。甚至没有机会将这些Unicode转换为纯字符串来查看它们是什么？如果不是，你认为这会对我的主题建模产生影响吗？在术语矩阵中大约50000个术语中，Unicode中只有大约25个术语，你可以将它们过滤掉。

grep（[^\\x{0000}-\\x{FFFF}]，out$vocab，invert=TRUE，perl=TRUE）

结果我得到了

整数（0）

。我检查了

out$vocab[45:66]

这些unicode在哪里，它们仍然在那里。我是否有可能在我的原始数据框中过滤它们？也许可以使用一些代码来识别新闻文章中的unicode？然后你需要提供一个MCVE，一个。