文本挖掘阿拉伯文&;R中的英文tm软件包-MAC OSX和MICROSOFT Windows 8.1操作系统的结果不同 R-TM软件包-阿拉伯语版本-Mac OS X和Windows OS之间的差异 在MACBOOK PRO上使用RSTUDIO 在带有RSTUDIO的WINDOWS 8.1上 问题描述

文本挖掘阿拉伯文&;R中的英文tm软件包-MAC OSX和MICROSOFT Windows 8.1操作系统的结果不同 R-TM软件包-阿拉伯语版本-Mac OS X和Windows OS之间的差异 在MACBOOK PRO上使用RSTUDIO 在带有RSTUDIO的WINDOWS 8.1上 问题描述,r,utf-8,arabic,text-mining,tm,R,Utf 8,Arabic,Text Mining,Tm,亲爱的各位 我整个周末都在工作。我正在攻读社会网络分析博士学位。目前,我正在使用TM软件包进行文本挖掘和分析,投标数据集中混合了英语和阿拉伯语 数据集通过JAVA程序从TwitterAPI收集,并放置在MongoDB数据库中 出于测试目的,我使用了一个36000条tweet的小数据集 问题是,对于大型数据集计算(>1000000行),我的MacBookPro是不够的。我需要使用Windows 8.1操作系统的电脑,它有更好的ROM和RAM 在Windows 8.1操作系统上测试我的代码时,使用相

亲爱的各位

我整个周末都在工作。我正在攻读社会网络分析博士学位。目前,我正在使用TM软件包进行文本挖掘和分析,投标数据集中混合了英语和阿拉伯语

数据集通过JAVA程序从TwitterAPI收集,并放置在MongoDB数据库中

出于测试目的,我使用了一个36000条tweet的小数据集

问题是,对于大型数据集计算(>1000000行),我的MacBookPro是不够的。我需要使用Windows 8.1操作系统的电脑,它有更好的ROM和RAM

在Windows 8.1操作系统上测试我的代码时,使用相同的测试数据集在MAC OS X上的RStudio上运行良好,在语料库计算级别,我从TM软件包中得到了一些不同的结果

这里是R代码的开头:

```{r}
y <<- dget("file") # get the file ext rated from MongoDB with rmongodb package
a <<- y$tweet_text # extract only the text of the tweets in the dataset
text_df <<- data.frame(a, stringsAsFactors = FALSE) # Save as a data frame
myCorpus_df <<- Corpus(DataframeSource(text_df_2)) # Compute a Corpus from the data frame
```
然而,当我在WINDOWS操作系统上用RSTUDIO编写相同部分的代码时,所有的阿拉伯语都被错误地解码了(无法在这里传递给您)。语料库的str显示了相同的参数。只有阿拉伯语的显示是不可读的。在数据框检查时,阿拉伯语显示良好

当我在两个操作系统(MAC和WINDOWS操作系统)上检查阿拉伯语单词的编码时,它似乎编码得很好:

```{r}
Encoding("لمياه_و_الإصحا")
```

[1] "UTF-8"
在创建
语料库
(使用
readerControl
等)时,我尝试传递许多附加信息,但没有任何改变:在使用tm软件包的Windows操作系统上,我的阿拉伯语在R或RStudio中没有很好地显示


是否有人在MAC OS X和WINDOWS OS之间遇到过与非拉丁语文本挖掘相同的差异问题?

据我所知,在我看来,阿拉伯语字符是用一些本机(特定于WINDOWS的)编码编码的,而您的
R
代码错误地将其解码为UTF8。这就是为什么你会得到像“Ø”**这样的令人尊敬的符号。要验证这一点,只需使用
charToRaw
检查字符串变量的原始字节,然后检查UTF8字符表

我以前没有使用过
mongodb
包,但我想知道是否有办法强制以UTF8格式从
mongodb
读取数据,可能是通过指定某个“read”函数的编码参数


**事实上,我之所以能够立即识别这些字符,是因为我在处理使用
twitteR
软件包获得的阿拉伯语tweet时遇到了这种问题。

我认为原因是windows的编码与UTF-8不同。如果可以的话,试着在那台电脑上使用linux(例如通过VirtualBox)是的,我认为问题来自WINDOWS操作系统。虚拟化的问题是R文本和数据挖掘计算的ROM/RAM效率的损失。我将试着用这种方法做几天,然后找到另一个解决方案。在Windows8.1操作系统上的Rstudio会话上提取语料库-查看第二个对象的tweet文本格式:{r}inspect(myCorpus_df[1:2]`[[1]]编年史《眼》杂志的阿赫拉尔·沙姆显然正在与伊斯兰国作战,那里的人袭击了一些曼比杰建筑,阿勒颇[[2]]本月月月日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日日本周日的各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各各默认字符windows 8.1的r编码?我下载了一些适用于windows 8.1的阿拉伯语软件包。但原因可能是r环境中显示阿拉伯语:当您通过rmongodb软件包调用MongoDB数据库并显示集合列表时,阿拉伯语名称在r控制台和r全局环境中的格式错误。当您执行一个数据库从R收集到R中的一个数据帧,得到的R对象以良好的格式显示阿拉伯语。但是我的R代码和rmongodb的局限性不允许我构建用于分析的大型数据帧。
```{r}
y <<- dget("file") # get the file ext rated from MongoDB with rmongodb package
a <<- y$tweet_text # extract only the text of the tweets in the dataset
text_df <<- data.frame(a, stringsAsFactors = FALSE) # Save as a data frame
myCorpus_df <<- Corpus(DataframeSource(text_df_2)) # Compute a Corpus from the data frame
```
```{r}
str(myCorpus_df[1:2])
```

List of 2
 $ 1:List of 2
  ..$ content: chr "The CHRONICLE EYE  Ahrar al#Sham is clearly fighting #ISIS where its men storm some #Manbij buildings #Aleppo "
  ..$ meta   :List of 7
  .. ..$ author       : chr(0) 
  .. ..$ datetimestamp: POSIXlt[1:1], format: "2014-07-03 22:42:18"
  .. ..$ description  : chr(0) 
  .. ..$ heading      : chr(0) 
  .. ..$ id           : chr "1"
  .. ..$ language     : chr "en"
  .. ..$ origin       : chr(0) 
  .. ..- attr(*, "class")= chr "TextDocumentMeta"
  ..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"


 $ 2:List of 2
  ..$ content: chr "RT @######## جبهة النصرة مهاجرينها وأنصارها  مقراتها مكان آمن لكل من يخشى على نفسه الآذى "
  ..$ meta   :List of 7
  .. ..$ author       : chr(0) 
  .. ..$ datetimestamp: POSIXlt[1:1], format: "2014-07-03 22:42:18"
  .. ..$ description  : chr(0) 
  .. ..$ heading      : chr(0) 
  .. ..$ id           : chr "2"
  .. ..$ language     : chr "en"
  .. ..$ origin       : chr(0) 
  .. ..- attr(*, "class")= chr "TextDocumentMeta"
  ..- attr(*, "class")= chr [1:2] "PlainTextDocument" "TextDocument"
 - attr(*, "class")= chr [1:2] "VCorpus" "Corpus"
```{r}
Encoding("لمياه_و_الإصحا")
```

[1] "UTF-8"