Nlp 从一组文档中自动提取关键字(AKE)?

Nlp 从一组文档中自动提取关键字(AKE)?,nlp,keyword,extraction,Nlp,Keyword,Extraction,许多算法都是关于从单个文档中提取的。但是我想知道如何从一组文档中提取关键字或特征词,它们可以代表这组文档的特征?一次放入所有文档进行分析可能太昂贵了。是否有某种算法可以让我一次处理一个文档,然后合并/计算结果以生成这组文档的关键字?一种方法是提取几个商业API的关键字及其tf/idf分数,进行一些清理和规范化。你需要做一些测试,并为分数确定一个可接受的最小阈值,低于该阈值时,你会抛出“b/c”这两个词,因为它们不相关 如果您最终将结果合并在一起,为什么不提前处理所有文档?听起来你在寻找主题建模。

许多算法都是关于从单个文档中提取的。但是我想知道如何从一组文档中提取关键字或特征词,它们可以代表这组文档的特征?一次放入所有文档进行分析可能太昂贵了。是否有某种算法可以让我一次处理一个文档,然后合并/计算结果以生成这组文档的关键字?

一种方法是提取几个商业API的关键字及其tf/idf分数,进行一些清理和规范化。你需要做一些测试,并为分数确定一个可接受的最小阈值,低于该阈值时,你会抛出“b/c”这两个词,因为它们不相关

如果您最终将结果合并在一起,为什么不提前处理所有文档?听起来你在寻找主题建模。请更具体一些。你用什么工具等。。。