R-openNLP和tm包中的文本挖掘

R-openNLP和tm包中的文本挖掘,r,text-mining,tm,opennlp,pos-tagger,R,Text Mining,Tm,Opennlp,Pos Tagger,我一直在尝试使用链接摘要作为数据集,提取“领导者用来描述自己的词语” 1) 我已使用R中的“tm”包清理了数据 2) 我使用“openNLP”软件包中的“词性标记”提取形容词 我的第一个问题是: 它提取了所有形容词,我只需要诸如忠诚、创新、热情(质量形容词)之类的形容词 我的第二个问题: 有没有办法让程序明白它在读什么。 “mobile”这个词被标记为形容词,而它是一个名词,通常与“mobileapplication”e.t.c.联系在一起 我正在使用R编码。请帮助 你可以在任何情况下频繁使用形

我一直在尝试使用链接摘要作为数据集,提取“领导者用来描述自己的词语”

1) 我已使用R中的“tm”包清理了数据

2) 我使用“openNLP”软件包中的“词性标记”提取形容词

我的第一个问题是:

它提取了所有形容词,我只需要诸如忠诚、创新、热情(质量形容词)之类的形容词

我的第二个问题:

有没有办法让程序明白它在读什么。 “mobile”这个词被标记为形容词,而它是一个名词,通常与“mobileapplication”e.t.c.联系在一起


我正在使用R编码。请帮助

你可以在任何情况下频繁使用形容词。不太可能有阴谋、专横、易怒或肆无忌惮的行为经常出现在互联网上。我并没有玩NLP太多,所以我不知道你们是否可以指定结对,这可能有助于复合名词。您还可以研究如何导入另一个POS标记器。或者和杂志上的文章。嗯,《华尔街日报》的文章是复合名词吗?形容词的频率是什么意思。?。我正在记录单词的频率。但有时像“第三个”或人名这样的词也会出现。频率基本上与意义无关,而标签通常可以告诉词性(POS)一个词是什么。人类读者通常可以查看列表并说出哪个词不属于上下文。这仍然是机器学习的一个难点。也许你可以将link的词频与美国英语语料库[link]()进行比较。我猜,从频率上看,前10000个单词的词汇量会相当匹配,这意味着Linked In大学二年级的词汇量水平。有没有一个例子可以使用,美国英语语料库?谷歌常用的领导力词汇在自我描述openNLP cran R中,幸运地返回了8项,第五个人,他在链接中,对他在R中的过程给出了一个很好的概述。第二项包含这个有趣的短语“R package tm.plugin.tags中的情感词列表”。对不起,我本身不是NLP从业者,我使用语料库之类的东西来预测英语第二语言使用者可能掌握的词汇量。搜索语料库和CranR的全名,2040个列表。在任何情况下,你都可以频繁使用形容词。不太可能有阴谋、专横、易怒或肆无忌惮的行为经常出现在互联网上。我并没有玩NLP太多,所以我不知道你们是否可以指定结对,这可能有助于复合名词。您还可以研究如何导入另一个POS标记器。或者和杂志上的文章。嗯,《华尔街日报》的文章是复合名词吗?形容词的频率是什么意思。?。我正在记录单词的频率。但有时像“第三个”或人名这样的词也会出现。频率基本上与意义无关,而标签通常可以告诉词性(POS)一个词是什么。人类读者通常可以查看列表并说出哪个词不属于上下文。这仍然是机器学习的一个难点。也许你可以将link的词频与美国英语语料库[link]()进行比较。我猜,从频率上看,前10000个单词的词汇量会相当匹配,这意味着Linked In大学二年级的词汇量水平。有没有一个例子可以使用,美国英语语料库?谷歌常用的领导力词汇在自我描述openNLP cran R中,幸运地返回了8项,第五个人,他在链接中,对他在R中的过程给出了一个很好的概述。第二项包含这个有趣的短语“R package tm.plugin.tags中的情感词列表”。对不起,我本身不是NLP从业者,我使用语料库之类的东西来预测英语第二语言使用者可能掌握的词汇量。搜索语料库和CranR的全名,2040个列表。嗯