R 如何从推文中删除/分离联合词

R 如何从推文中删除/分离联合词,r,twitter,text-mining,corpus,social-media,R,Twitter,Text Mining,Corpus,Social Media,我正在挖掘Twitter数据,清理文本时遇到的一个问题是,无法删除/分离通常是标签数据的组合词。在删除像“#”这样的特殊字符和符号后,我只剩下毫无意义的短语。例如: 1) 无意义的词:我有像‘spillwayjfleck’、‘bowhunterva’等没有意义的词,需要从我的语料库中删除。在R中有什么函数可以做到这一点吗 2) 联合词:我需要一种方法来分离联合词,如:“flashfloodwarn”,以便: “闪光”,“洪水”,“警告”,来自我的语料库 如果有任何帮助,我们将不胜感激。您可以使用

我正在挖掘Twitter数据,清理文本时遇到的一个问题是,无法删除/分离通常是标签数据的组合词。在删除像“#”这样的特殊字符和符号后,我只剩下毫无意义的短语。例如:

1) 无意义的词:我有像‘spillwayjfleck’、‘bowhunterva’等没有意义的词,需要从我的语料库中删除。在R中有什么函数可以做到这一点吗

2) 联合词:我需要一种方法来分离联合词,如:“flashfloodwarn”,以便: “闪光”,“洪水”,“警告”,来自我的语料库


如果有任何帮助,我们将不胜感激。

您可以使用tm地图(语料库训练,删除单词,c(“thewordsyouwannaremov”))删除单词。请参阅@Nicocalier,这非常麻烦。我的文本文件很大,我的语料库有一百万个没有意义的单词。我无法手动输入每个单词。有没有一种解决方案可以将我语料库中的单词与字典中的单词进行比较,并消除所有无意义的单词?@Nicocalier,谢谢。“我会查的。”尼科利耶,那篇文章给了我一个方向。但是,再一次,我必须插入单词并检查每个可能的拆分。难道没有别的选择吗?