使用R中的tm软件包进行文本挖掘，删除以[http]或任何其他指定单词开头的单词_R_Text Mining_Tm_Word Cloud_Metacharacters

使用R中的tm软件包进行文本挖掘，删除以[http]或任何其他指定单词开头的单词

使用R中的tm软件包进行文本挖掘，删除以[http]或任何其他指定单词开头的单词,r,text-mining,tm,word-cloud,metacharacters,R,Text Mining,Tm,Word Cloud,Metacharacters,我不熟悉R和文本挖掘。我用推特上与某个术语相关的feed制作了一个单词cloud。我面临的问题是，在wordcloud中，它显示http:。。。或htt。。。我如何处理这个问题我试过使用元字符，但我仍然怀疑我是否正确地应用了它 tw.text=removeWords（tw.text，c（stopwords（“en”），“rt”，“http\\\*”）有人喜欢文本搜索，请帮我解决这个问题。如果您想从字符串中删除URL，您可以使用： gsub("(f|ht)tp(s?)://(.*)[.][a

我不熟悉R和文本挖掘。我用推特上与某个术语相关的feed制作了一个单词cloud。我面临的问题是，在wordcloud中，它显示http:。。。或htt。。。我如何处理这个问题我试过使用元字符，但我仍然怀疑我是否正确地应用了它

tw.text=removeWords（tw.text，c（stopwords（“en”），“rt”，“http\\\*”）

有人喜欢文本搜索，请帮我解决这个问题。

如果您想从字符串中删除URL，您可以使用：

gsub("(f|ht)tp(s?)://(.*)[.][a-z]+", "", x)

其中

为：

x <- c("some text http://idontwantthis.com", 
         "same problem again http://pleaseremoveme.com")

x clean_xclean_x
[1] “某些文本”“再次出现相同问题”

作为补充，我建议在挖掘之前搜索现有的文本清理方法是值得的。例如，讨论的

clean

功能将使您能够自动执行此操作。在类似的行中，有清除推文（

，

）、标点和其他不需要的条目中的文本的功能。

如果您希望从字符串中删除URL，您可以使用：

gsub("(f|ht)tp(s?)://(.*)[.][a-z]+", "", x)

其中

为：

x <- c("some text http://idontwantthis.com", 
         "same problem again http://pleaseremoveme.com")

x clean_xclean_x
[1] “某些文本”“再次出现相同问题”

作为补充，我建议在挖掘之前搜索现有的文本清理方法是值得的。例如，讨论的

clean

功能将使您能够自动执行此操作。在类似的行中，有清除推文（

，

）、标点和其他不需要的条目中的文本的功能。

将下面的代码应用到语料库中，以空格替换字符串模式。字符串模式可以是要从wordcloud中删除的URL或术语。例如，要删除以https开头的术语：

替换为空格 toSpace=content_transformer（函数（x，模式）gsub（模式，“，x））

tweet_corpus_clean=tm_地图（tweet_corpus，toSpace，“https*”）

或者传递如下模式以删除URL tweet_corpus_clean=tm_map（tweet_corpus，toSpace，“（f|ht）tp（s？）/（.*）[.][a-z]+”）

将下面的代码应用于语料库，用空格替换字符串模式。字符串模式可以是要从wordcloud中删除的URL或术语。例如，要删除以https开头的术语：

替换为空格 toSpace=content_transformer（函数（x，模式）gsub（模式，“，x））

tweet_corpus_clean=tm_地图（tweet_corpus，toSpace，“https*”）

或者传递如下模式以删除URL tweet_corpus_clean=tm_map（tweet_corpus，toSpace，“（f|ht）tp（s？）/（.*）[.][a-z]+”）

您可以只使用

gsub

来修改原始数据。请发布一小段您的数据、要删除的文本和所需的输出。我正在尝试获取一些tweets

head（tweets，10）[1]“@amitkumarpatil2@bdutt yes\nhttp://t.co/6v2n4EHeoc“@mihirssharmahttp://t.co/WHnaJmUNNG“[7]”RT@QLDMackay：廉价电力还是清洁能源？莫迪2750亿美元的印度困境http://t.co/YEaaHodO6p ... https://t.co/zfV2XRKwfl“

所以，它们也包含了指向新闻页面的URL，etcI也尝试了gsub（），但它只删除了”http:“rest URL//xyz.com仍然存在。您可以只使用

gsub

来处理原始数据。请发布一小段数据、要删除的文本和所需的输出。我正试图获取一些推文

标题（推文，10）[1]”@amitkumarpatil2@bdutt是的\nhttp://t.co/6v2n4EHeoc“@mihirssharmahttp://t.co/WHnaJmUNNG“[7]”RT@QLDMackay：廉价能源还是清洁能源？莫迪2750亿美元的印度困境http://t.co/YEaaHodO6p ... https://t.co/zfV2XRKwfl

因此，它们也包括指向新闻页的URL，但它只删除了“http:rest-URL//xyz.com仍然很好，

clean（X，removeURL=TRUE）

工作正常（y）很好，

clean（X，removeURL=TRUE）

工作正常（y）