Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/67.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
使用R中的tm软件包进行文本挖掘,删除以[http]或任何其他指定单词开头的单词_R_Text Mining_Tm_Word Cloud_Metacharacters - Fatal编程技术网

使用R中的tm软件包进行文本挖掘,删除以[http]或任何其他指定单词开头的单词

使用R中的tm软件包进行文本挖掘,删除以[http]或任何其他指定单词开头的单词,r,text-mining,tm,word-cloud,metacharacters,R,Text Mining,Tm,Word Cloud,Metacharacters,我不熟悉R和文本挖掘。我用推特上与某个术语相关的feed制作了一个单词cloud。我面临的问题是,在wordcloud中,它显示http:。。。或htt。。。 我如何处理这个问题 我试过使用元字符,但我仍然怀疑我是否正确地应用了它 tw.text=removeWords(tw.text,c(stopwords(“en”),“rt”,“http\\\*”) 有人喜欢文本搜索,请帮我解决这个问题。如果您想从字符串中删除URL,您可以使用: gsub("(f|ht)tp(s?)://(.*)[.][a

我不熟悉R和文本挖掘。我用推特上与某个术语相关的feed制作了一个单词cloud。我面临的问题是,在wordcloud中,它显示http:。。。或htt。。。 我如何处理这个问题 我试过使用元字符,但我仍然怀疑我是否正确地应用了它

tw.text=removeWords(tw.text,c(stopwords(“en”),“rt”,“http\\\*”)


有人喜欢文本搜索,请帮我解决这个问题。

如果您想从字符串中删除URL,您可以使用:

gsub("(f|ht)tp(s?)://(.*)[.][a-z]+", "", x)
其中
x
为:

x <- c("some text http://idontwantthis.com", 
         "same problem again http://pleaseremoveme.com")
x clean_xclean_x
[1] “某些文本”“再次出现相同问题”

作为补充,我建议在挖掘之前搜索现有的文本清理方法是值得的。例如,讨论的
clean
功能将使您能够自动执行此操作。在类似的行中,有清除推文(
#
@
)、标点和其他不需要的条目中的文本的功能。

如果您希望从字符串中删除URL,您可以使用:

gsub("(f|ht)tp(s?)://(.*)[.][a-z]+", "", x)
其中
x
为:

x <- c("some text http://idontwantthis.com", 
         "same problem again http://pleaseremoveme.com")
x clean_xclean_x
[1] “某些文本”“再次出现相同问题”

作为补充,我建议在挖掘之前搜索现有的文本清理方法是值得的。例如,讨论的
clean
功能将使您能够自动执行此操作。在类似的行中,有清除推文(
#
@
)、标点和其他不需要的条目中的文本的功能。

将下面的代码应用到语料库中,以空格替换字符串模式。 字符串模式可以是要从wordcloud中删除的URL或术语。 例如,要删除以https开头的术语:

替换为空格 toSpace=content_transformer(函数(x,模式)gsub(模式,“,x))

tweet_corpus_clean=tm_地图(tweet_corpus,toSpace,“https*”)

或者传递如下模式以删除URL tweet_corpus_clean=tm_map(tweet_corpus,toSpace,“(f|ht)tp(s?)/(.*)[.][a-z]+”)


将下面的代码应用于语料库,用空格替换字符串模式。 字符串模式可以是要从wordcloud中删除的URL或术语。 例如,要删除以https开头的术语:

替换为空格 toSpace=content_transformer(函数(x,模式)gsub(模式,“,x))

tweet_corpus_clean=tm_地图(tweet_corpus,toSpace,“https*”)

或者传递如下模式以删除URL tweet_corpus_clean=tm_map(tweet_corpus,toSpace,“(f|ht)tp(s?)/(.*)[.][a-z]+”)


您可以只使用
gsub
来修改原始数据。请发布一小段您的数据、要删除的文本和所需的输出。我正在尝试获取一些tweets
head(tweets,10)[1]“@amitkumarpatil2@bdutt yes\nhttp://t.co/6v2n4EHeoc“@mihirssharmahttp://t.co/WHnaJmUNNG“[7]”RT@QLDMackay:廉价电力还是清洁能源?莫迪2750亿美元的印度困境http://t.co/YEaaHodO6p ... https://t.co/zfV2XRKwfl“
所以,它们也包含了指向新闻页面的URL,etcI也尝试了gsub(),但它只删除了”http:“rest URL//xyz.com仍然存在。您可以只使用
gsub
来处理原始数据。请发布一小段数据、要删除的文本和所需的输出。我正试图获取一些推文
标题(推文,10)[1]”@amitkumarpatil2@bdutt是的\nhttp://t.co/6v2n4EHeoc“@mihirssharmahttp://t.co/WHnaJmUNNG“[7]”RT@QLDMackay:廉价能源还是清洁能源?莫迪2750亿美元的印度困境http://t.co/YEaaHodO6p ... https://t.co/zfV2XRKwfl
因此,它们也包括指向新闻页的URL,但它只删除了“http:rest-URL//xyz.com仍然很好,
clean(X,removeURL=TRUE)
工作正常(y)很好,
clean(X,removeURL=TRUE)
工作正常(y)