Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/66.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
R 如何使用tm软件包进行希伯来语或阿拉伯语文本分析_R_Text_Tm - Fatal编程技术网

R 如何使用tm软件包进行希伯来语或阿拉伯语文本分析

R 如何使用tm软件包进行希伯来语或阿拉伯语文本分析,r,text,tm,R,Text,Tm,我想使用tm软件包进行希伯来语或阿拉伯语文本分析。我尝试了几种方法,看看tm是否能够处理一些单词,但我遇到了一个错误,有没有办法解决这个问题 text <- "הנוסעים חיכו זמן רב לנסיעה" Encoding(text) #[1] "unknown" Encoding(text) <- "UTF-8" ap.corpus <- Corpus(DataframeSource(data.frame(text))) ap.corpus <-

我想使用tm软件包进行希伯来语或阿拉伯语文本分析。我尝试了几种方法,看看tm是否能够处理一些单词,但我遇到了一个错误,有没有办法解决这个问题

 text  <- "הנוסעים חיכו זמן רב לנסיעה"
 Encoding(text)
#[1] "unknown"
 Encoding(text)  <- "UTF-8"
 ap.corpus <- Corpus(DataframeSource(data.frame(text)))
 ap.corpus <- tm_map(ap.corpus, removePunctuation)
 ap.corpus <- tm_map(ap.corpus, content_transformer(tolower))
Error in FUN(content(x), ...) : 
  invalid input 'הנוסעים חיכו זמן רב לנסיעה' in 'utf8towcs'
text来自:

语料库构造函数的第二个参数
readerControl
必须是 包含命名组件读取器和语言的列表。(……)最后 第二个组件
语言
设置文本的语言(最好使用 ISO 639-2标准)

从中,阿拉伯语的ISO 639-2代码为ara,希伯来语的ISO 639-2代码为heb。所以不妨试试这个:

 ap.corpus <- Corpus(DataframeSource(data.frame(text), readerControl = list(language = "heb")))

ap.corpus答案如下,我们需要添加这种编码方法:

iconv(text, "ISO-8859-8", "UTF-8")[1]

我没有使用:
Encoding(text)Hi@Hoju,而是得到了:DataframeSource(data.frame(text),readerControl=list(language=“heb”):未使用的参数(readerControl=list(language=“heb”))