使用R中的tm软件包进行文本挖掘,删除以[http]或任何其他指定单词开头的单词
我不熟悉R和文本挖掘。我用推特上与某个术语相关的feed制作了一个单词cloud。我面临的问题是,在wordcloud中,它显示http:。。。或htt。。。 我如何处理这个问题 我试过使用元字符,但我仍然怀疑我是否正确地应用了它 tw.text=removeWords(tw.text,c(stopwords(“en”),“rt”,“http\\\*”)使用R中的tm软件包进行文本挖掘,删除以[http]或任何其他指定单词开头的单词,r,text-mining,tm,word-cloud,metacharacters,R,Text Mining,Tm,Word Cloud,Metacharacters,我不熟悉R和文本挖掘。我用推特上与某个术语相关的feed制作了一个单词cloud。我面临的问题是,在wordcloud中,它显示http:。。。或htt。。。 我如何处理这个问题 我试过使用元字符,但我仍然怀疑我是否正确地应用了它 tw.text=removeWords(tw.text,c(stopwords(“en”),“rt”,“http\\\*”) 有人喜欢文本搜索,请帮我解决这个问题。如果您想从字符串中删除URL,您可以使用: gsub("(f|ht)tp(s?)://(.*)[.][a
有人喜欢文本搜索,请帮我解决这个问题。如果您想从字符串中删除URL,您可以使用:
gsub("(f|ht)tp(s?)://(.*)[.][a-z]+", "", x)
其中x
为:
x <- c("some text http://idontwantthis.com",
"same problem again http://pleaseremoveme.com")
x clean_xclean_x
[1] “某些文本”“再次出现相同问题”
作为补充,我建议在挖掘之前搜索现有的文本清理方法是值得的。例如,讨论的
clean
功能将使您能够自动执行此操作。在类似的行中,有清除推文(#
,@
)、标点和其他不需要的条目中的文本的功能。如果您希望从字符串中删除URL,您可以使用:
gsub("(f|ht)tp(s?)://(.*)[.][a-z]+", "", x)
其中x
为:
x <- c("some text http://idontwantthis.com",
"same problem again http://pleaseremoveme.com")
x clean_xclean_x
[1] “某些文本”“再次出现相同问题”
作为补充,我建议在挖掘之前搜索现有的文本清理方法是值得的。例如,讨论的
clean
功能将使您能够自动执行此操作。在类似的行中,有清除推文(#
,@
)、标点和其他不需要的条目中的文本的功能。将下面的代码应用到语料库中,以空格替换字符串模式。
字符串模式可以是要从wordcloud中删除的URL或术语。
例如,要删除以https开头的术语:
替换为空格
toSpace=content_transformer(函数(x,模式)gsub(模式,“,x))
tweet_corpus_clean=tm_地图(tweet_corpus,toSpace,“https*”)
或者传递如下模式以删除URL
tweet_corpus_clean=tm_map(tweet_corpus,toSpace,“(f|ht)tp(s?)/(.*)[.][a-z]+”)
将下面的代码应用于语料库,用空格替换字符串模式。 字符串模式可以是要从wordcloud中删除的URL或术语。 例如,要删除以https开头的术语: 替换为空格 toSpace=content_transformer(函数(x,模式)gsub(模式,“,x)) tweet_corpus_clean=tm_地图(tweet_corpus,toSpace,“https*”) 或者传递如下模式以删除URL tweet_corpus_clean=tm_map(tweet_corpus,toSpace,“(f|ht)tp(s?)/(.*)[.][a-z]+”)
您可以只使用
gsub
来修改原始数据。请发布一小段您的数据、要删除的文本和所需的输出。我正在尝试获取一些tweetshead(tweets,10)[1]“@amitkumarpatil2@bdutt yes\nhttp://t.co/6v2n4EHeoc“@mihirssharmahttp://t.co/WHnaJmUNNG“[7]”RT@QLDMackay:廉价电力还是清洁能源?莫迪2750亿美元的印度困境http://t.co/YEaaHodO6p ... https://t.co/zfV2XRKwfl“
所以,它们也包含了指向新闻页面的URL,etcI也尝试了gsub(),但它只删除了”http:“rest URL//xyz.com仍然存在。您可以只使用gsub
来处理原始数据。请发布一小段数据、要删除的文本和所需的输出。我正试图获取一些推文标题(推文,10)[1]”@amitkumarpatil2@bdutt是的\nhttp://t.co/6v2n4EHeoc“@mihirssharmahttp://t.co/WHnaJmUNNG“[7]”RT@QLDMackay:廉价能源还是清洁能源?莫迪2750亿美元的印度困境http://t.co/YEaaHodO6p ... https://t.co/zfV2XRKwfl
因此,它们也包括指向新闻页的URL,但它只删除了“http:rest-URL//xyz.com仍然很好,clean(X,removeURL=TRUE)
工作正常(y)很好,clean(X,removeURL=TRUE)
工作正常(y)