R中主题建模文本预处理时获取奇怪字符
我正在准备文档,以便在西班牙语新闻文章的大数据框上运行R中主题建模文本预处理时获取奇怪字符,r,character-encoding,text-processing,data-cleaning,R,Character Encoding,Text Processing,Data Cleaning,我正在准备文档,以便在西班牙语新闻文章的大数据框上运行stm。在使用函数prepDocuments时,我注意到术语矩阵得到了一些奇怪的“vocabs”(“\U0001d45d”),如下面的代码所示 这是我的代码 #Preparing the documents out <- prepDocuments(to_stm$documents, to_stm$vocab, to_stm$meta, lower.thresh = 1, upper.thre
stm
。在使用函数prepDocuments
时,我注意到术语矩阵得到了一些奇怪的“vocabs”(“\U0001d45d”),如下面的代码所示
这是我的代码
#Preparing the documents
out <- prepDocuments(to_stm$documents, to_stm$vocab, to_stm$meta,
lower.thresh = 1, upper.thresh = 8677, verbose = TRUE)
#This is what I get when I inspect some of the out$vocab
> out$vocab[60:95]
[1] "\U0001d45d\U0001d450\U0001d452\U0001d459\U0001d462\U0001d459\U0001d44e\U0001d45f" "\U0001d45d\U0001d450\U0001d452\U0001d459\U0001d462\U0001d459\U0001d44e\U0001d45fel" "\U0001d45d\U0001d452\U0001d45f\U0001d460\U0001d45c\U0001d45b\U0001d44e" "\U0001d45d\U0001d452\U0001d45f\U0001d460\U0001d45c\U0001d45b\U0001d44e\U0001d460" "\U0001d45d\U0001d453\U0001d456\U0001d457\U0001d45c" "\U0001d45d\U0001d456" "ª"
[8] "à" "a4" "a6" "aa" "aaa" "aarak" "ab"
[15] "abaco" "abad" "abadía" "abajo" "abalanzó" "abaleados" "abanderada"
[22] "abanderadas" "abanderado" "abanderados" "abanderar" "abanderó" "abandona" "abandonaba"
[29] "abandonaban" "abandonada" "abandonadas" "abandonado" "abandonados" "abandonamos" "abandonan"
[36] "abandonando"
#准备文档
out$vocab[60:95]
[1] “\U0001d45d\U0001d450\U0001d452\U0001d459\U0001d462\U0001d459\U0001d44e\U0001d45f”“\U0001d45d\U0001d450\U0001d462\U0001d452\U0001D45E\U0001d45d\U0001d452\U0001d45f\U0001d460\U0001d45b\U00015D\U00015D\U0001d452\U0001d452\U0001F\U0001d460\U0001D455E”\U0001d45d\U0001d453\U0001d456\U0001d457\U0001d45c”“\U0001d45d\U0001d456”“ª”
[8] “a4”“a6”“aa”“aaa”“aarak”“ab”
[15] “abaco”“abad”“abadía”“abajo”“abalanzó”“abaleados”“abanderada”
【22】“abanderadas”“abanderado”“abanderados”“abanderar”“abanderó”“abundera”“abunderada”“abunderada”“abunderada”“abanderado”“abanderados”“abanderados”“abanderar”“abandera”“abandera”“abund
[29]“放弃”指的是“放弃”,也就是“放弃”
[36]“放弃安多”
我试着从我的数据帧中筛选或子集这些数据,但我没有找到它们。知道可能会发生什么吗?这似乎与编码有关,但我是R新手,所以我不知道编码是如何工作的
我没有分享我的数据样本,因为dataframe由17000篇文章组成,因此我无法猜测哪些文章包含这些奇怪的字符。如果您在Windows上,则无法使用R中的非BMP Unicode代码点。我是。甚至没有机会将这些Unicode转换为纯字符串来查看它们是什么?如果不是,你认为这会对我的主题建模产生影响吗?在术语矩阵中大约50000个术语中,Unicode中只有大约25个术语,你可以将它们过滤掉。
grep([^\\x{0000}-\\x{FFFF}],out$vocab,invert=TRUE,perl=TRUE)
结果我得到了整数(0)
。我检查了out$vocab[45:66]
这些unicode在哪里,它们仍然在那里。我是否有可能在我的原始数据框中过滤它们?也许可以使用一些代码来识别新闻文章中的unicode?然后你需要提供一个MCVE,一个。