如何处理带有UTF-8标记字符串的R包中的示例数据

如何处理带有UTF-8标记字符串的R包中的示例数据,r,twitter,utf-8,R,Twitter,Utf 8,我想在我正在编写的R包中包含一个示例数据集(包括Twittertweets和metadata) 我使用twitterapi下载了一个示例data.frame,并将其保存为包中的.RData(以及相应的.code>R数据描述文件) 当我运行R CMDCheck时,我得到以下提示: * checking data for non-ASCII characters ... NOTE Note: found 287 marked UTF-8 strings 我尝试用ASCII=TRUE保存data

我想在我正在编写的
R
包中包含一个示例数据集(包括
Twitter
tweets和
metadata

我使用
twitterapi
下载了一个示例data.frame,并将其保存为包中的
.RData
(以及相应的.code>R数据描述文件)

当我运行
R CMD
Check时,我得到以下提示:

 * checking data for non-ASCII characters ... NOTE
 Note: found 287 marked UTF-8 strings
我尝试用
ASCII=TRUE
保存
data.frame
,希望这能解决问题。但它依然存在。你知道如何让
R CMD
CHECK在没有注释的情况下运行吗

(另外,如果这是解决方案,我愿意从示例数据中删除所有
UTF-8
标记的字符串)。谢谢大家!

data.frame中的示例行:

First time in SF (@ San Francisco International Airport (SFO) - @flysfo in San Francisco, CA) https://t.co/1245xqxtwesr
  favorited favoriteCount replyToSN             created truncated replyToSID                 id replyToUID
1     FALSE             0      <NA> 2015-03-13 23:30:35     FALSE       <NA> 576525795927179264       <NA>
                                                   statusSource screenName retweetCount isRetweet retweeted
1 <a href="http://foursquare.com" rel="nofollow">Foursquare</a>  my_name93            0     FALSE     FALSE
      longitude    latitude
1 -122.38100052 37.61865062
<代码>首次在SF(@旧金山国际机场(SFO)-@ FLYSFO在CA旧金山市”)https://t.co/1245xqxtwesr favorited favoriteCount replyToSN已创建截断的replyToSID id replyToUID 1假0 2015-03-13 23:30:35假576525795927179264 statusSource屏幕名称retweetCount IsRetweeted 1我的名字93 0假假假 经纬度 1 -122.38100052 37.61865062
如果它对将来的任何人都有用,我找到的解决方案是:

UTF-8标记的字符出现在数据集中,因为Twitter推文有时包含表情符号

我得到的建议是,在不删除所有UTF-8标记的字符串的情况下,没有一种简单的方法可以删除包CMD检查中的注释

为此,我使用了以下命令:


nonUTF我在谷歌上搜索了一个,粘贴在我的代码中,转换后,再粘贴回我的脚本中


因为这个答案被否决了,它把我的注意力吸引到了我链接到的原始网站上。所以我从答案中删除了这个特定的链接。如果你偶然发现了一个不好的结果,请使用另一个,因为在google的顶级结果中有很多可用的结果。

stringi::stri_enc_toascii()
中的
stringi
包解决了我在包开发中的问题

stringi::stri_enc_isascii(a) [1] 假假假假假假假假假假假假假假假假假假假假假假假假 [18] 假假假假假假假假假假假假假假假假假假假假假假假假 [35]假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假 [52]假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假 [69]假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假 [86]假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假 [103]假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假 [120]假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假 [137]假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假 [154]假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假假 >stri_enc_isascii(b) [1] 真实真实真实真实真实真实真实真实真实真实真实真实真实真实真实真实真实真实真实 [22]真的真的真的真的真的真的真的 [43]真的真的真的真的真的真的真的真的 [64]真的真的真的真的真的真的 [85]真的真的真的真的真的真的真的 [106]真的真的真的真的真的真的真的真的 [127]真的真的真的真的真的真的真的 [148]真的
看起来您需要将
“/@href”
粘贴到xpath查询,或者在节点
a
上粘贴
XML::xmlGetAttr(a,“href”)
。将
用作(statusSource,“character”)
也可以工作。但是我们能看看你打电话获取原始数据的代码吗?