R 从MongoDB按列显示数据时保留内容
从twitter读取数据,然后将其保存在MongoDB中R 从MongoDB按列显示数据时保留内容,r,regex,mongodb,R,Regex,Mongodb,从twitter读取数据,然后将其保存在MongoDB中 data.list <- searchTwitter('#demonetization ', n=10) data.df = twListToDF(data.list) temp=mongo.bson.from.df(data.df) mongo <- mongo.create() DB_Details <- paste(twitter, "filterstream", sep=".") mongo.inse
data.list <- searchTwitter('#demonetization ', n=10)
data.df = twListToDF(data.list)
temp=mongo.bson.from.df(data.df)
mongo <- mongo.create()
DB_Details <- paste(twitter, "filterstream", sep=".")
mongo.insert.batch(mongo, DB_Details, temp)
输出-2
> **dataset$text**
4.在OUTPUT-2中检测这些奇怪的字符并将其清除是很困难的。我能够删除特殊字符(标记)并使用REGEX为OUTPUT-1中文本列的
内容获取干净的文本,但是OUTPUT-2中文本列的内容非常不同,我无法删除那些特殊的奇怪字符
5.为什么在从数据集中打印特定列时内容突然改变,我做错了什么。可能会引起兴趣。可能有兴趣。
> **dataset**
--------------------------------------------------
| id | text |
--------------------------------------------------
| 1 | <ed><U+00A0><U+00BD><ed><U+00B8><U+0082><ed><U+00A0><U+00BD>
<ed> <U+00B8> <U+0082><ed><U+00A0><U+00BD>
<ed> <U+00B1><U+0087>\nSome great jokes on #DeMonetization on
my TL today.\n\nThank you, Modi ji. <ed><U+00A0><U+00BD>
<ed><U+00B1><U+0087> |
--------------------------------------------------
| 2 | should be one |
--------------------------------------------------
> **dataset$text**
| id | text |
--------------------------------------------------
| 1 | \xed��\xed�\u0082\xed��\xed�\u0082\xed��\xed�\u0087\nSome great jokes on #DeMonetization on my TL today.\n\nThank you, Modi ji. \xed��\xed�\u0087 |
--------------------------------------------------
| 2 | should be one |
--------------------------------------------------