使用twitteR删除包含超链接的推文

使用twitteR删除包含超链接的推文,r,twitter,sentiment-analysis,R,Twitter,Sentiment Analysis,在使用twitteR软件包对一个电子商务网站进行情绪分析时,我注意到我收到的大多数推文都是关于报价和销售的。他们总是有一个超链接,如果我可以忽略我输入提要中的那些推文,我可以从我想了解其情绪的消费者那里获得更多推文。虽然我可以在细化数据时忽略这些tweet,但它会产生一个非常小的数据集。在搜索过程中我有没有办法做到这一点?我的目标是获得一个足够大的数据集,其中包含要处理的客户推文。虽然我不清楚您的问题,但如果您只是想使用twitteR软件包从数据中删除URL,这可能会有所帮助 removeURL

在使用twitteR软件包对一个电子商务网站进行情绪分析时,我注意到我收到的大多数推文都是关于报价和销售的。他们总是有一个超链接,如果我可以忽略我输入提要中的那些推文,我可以从我想了解其情绪的消费者那里获得更多推文。虽然我可以在细化数据时忽略这些tweet,但它会产生一个非常小的数据集。在搜索过程中我有没有办法做到这一点?我的目标是获得一个足够大的数据集,其中包含要处理的客户推文。

虽然我不清楚您的问题,但如果您只是想使用twitteR软件包从数据中删除URL,这可能会有所帮助

removeURL <- function (x) gsub("http[[:alnum:]]*", "", x)
myCorpus  <- tm_map(myCorpus, removeURL)

removeURL不,您不能正确地向API请求“不包含链接的tweet”。找到这些推文的共同点,比如“Etrans:我刚买了Xhttp://...'并在以后的查询中通过'querysubject-Etrans'过滤掉它们。

我想过滤输入推文,以便排除包含URL的推文。i、 e.如果我查询1000条推文,我想从twitter api中获得1000条不包含任何URL的推文。从我在twitter REST api文档和类似twitter的软件包手册中所读到的内容来看,没有办法做到这一点。您只能在请求后过滤无URL的推文。抱歉@srikterdon回复太晚,您可能已经收到了ans。我发现这将不可能满足您的要求。为什么不做另一件事,从数据集中删除整行,如果单词包含www或https://。这是怎么回事sound@Noah,您的建议可能是过滤数据集的唯一可行方法,但它会导致85-90%的数据被过滤。结果数据集太小,没有意义。重复搜索也无济于事,因为我们得到的数据或多或少都是相同的。@Srikterdon,技术仍然无能为力;祝你的项目好运,你已经过滤了至少10个这样的查询对象,但这并没有改善提要。我在1000条用户推文中只获得了大约75条,因此需要在API本身进行过滤。