R 如何使用tm软件包进行希伯来语或阿拉伯语文本分析
我想使用tm软件包进行希伯来语或阿拉伯语文本分析。我尝试了几种方法,看看tm是否能够处理一些单词,但我遇到了一个错误,有没有办法解决这个问题R 如何使用tm软件包进行希伯来语或阿拉伯语文本分析,r,text,tm,R,Text,Tm,我想使用tm软件包进行希伯来语或阿拉伯语文本分析。我尝试了几种方法,看看tm是否能够处理一些单词,但我遇到了一个错误,有没有办法解决这个问题 text <- "הנוסעים חיכו זמן רב לנסיעה" Encoding(text) #[1] "unknown" Encoding(text) <- "UTF-8" ap.corpus <- Corpus(DataframeSource(data.frame(text))) ap.corpus <-
text <- "הנוסעים חיכו זמן רב לנסיעה"
Encoding(text)
#[1] "unknown"
Encoding(text) <- "UTF-8"
ap.corpus <- Corpus(DataframeSource(data.frame(text)))
ap.corpus <- tm_map(ap.corpus, removePunctuation)
ap.corpus <- tm_map(ap.corpus, content_transformer(tolower))
Error in FUN(content(x), ...) :
invalid input 'הנוסעים חיכו זמן רב לנסיעה' in 'utf8towcs'
text来自:
语料库构造函数的第二个参数readerControl
必须是
包含命名组件读取器和语言的列表。(……)最后
第二个组件语言
设置文本的语言(最好使用
ISO 639-2标准)
从中,阿拉伯语的ISO 639-2代码为ara,希伯来语的ISO 639-2代码为heb。所以不妨试试这个:
ap.corpus <- Corpus(DataframeSource(data.frame(text), readerControl = list(language = "heb")))
ap.corpus答案如下,我们需要添加这种编码方法:
iconv(text, "ISO-8859-8", "UTF-8")[1]
我没有使用:Encoding(text)Hi@Hoju,而是得到了:DataframeSource(data.frame(text),readerControl=list(language=“heb”):未使用的参数(readerControl=list(language=“heb”))