Algorithm 是否根据预先存在的主题自动生成摘要?

Algorithm 是否根据预先存在的主题自动生成摘要?,algorithm,machine-learning,nlp,artificial-intelligence,information-extraction,Algorithm,Machine Learning,Nlp,Artificial Intelligence,Information Extraction,在给定文档的情况下,我要执行以下操作: 使用预先存在的主题创建摘要 在第一个场景中,文档以统一的方式整齐地组织起来。 例如,大多数维基百科电影文章都有以下子主题(例如:) 密谋 铸造 接待 其他可选主题 在第二个场景中,文档包含与上述相同的信息;但是,文档没有干净的组织。文档可以使用相同或类似的语言,但组织方式不同 在这两种情况下,鉴于这些子主题,我想从文档中提取这些信息 有没有我可以使用的机器学习/自然语言处理策略/算法?算法的组合很好。大部分有效的算法也很好 更新:看起来我想要的是信

在给定文档的情况下,我要执行以下操作:

  • 使用预先存在的主题创建摘要
在第一个场景中,文档以统一的方式整齐地组织起来。 例如,大多数维基百科电影文章都有以下子主题(例如:)

  • 密谋
  • 铸造
  • 接待
  • 其他可选主题
在第二个场景中,文档包含与上述相同的信息;但是,文档没有干净的组织。文档可以使用相同或类似的语言,但组织方式不同

在这两种情况下,鉴于这些子主题,我想从文档中提取这些信息

有没有我可以使用的机器学习/自然语言处理策略/算法?算法的组合很好。大部分有效的算法也很好


更新:看起来我想要的是信息提取。

我能想到的最简单的方法是将其作为一个序列分类问题,其中类是子主题。给定一个句子(或者一个段落),分类器输出子主题概率。培训LSTM分类器应该是可能的,因为您有很多标记数据(句子、子主题)


这种方法的问题可能是最终输出不一致。使用段落可能会有所帮助,或者可以根据前面的分类概率进行调整。

一种可能的方法是将这些主题分配给每个部分的句子[1]。由于您似乎有带注释的数据,因此可以使用它来训练“句子主题/部分模型”。根据[1],即使是多项式的朴素贝叶斯分类器也能很好地完成这项工作

至于摘要方面,除非您有培训数据,否则我将研究提取摘要技术[2]——即从现有句子中选择最佳句子进行摘要。[2]LexRank的工作有一些您可以在野外使用的实现。如果你有要学习的摘要,你也可以研究从现有的摘要中生成新句子的抽象技术[3]。如果您选中[4],[3]中有一些示例实现

[1]

[2]

[3]


[4]

很有趣,值得研究。但这些ALG是否用于生产,即在野外?考虑到他们可能不够健壮,我们看了一下[1]。其中的一些问题:(a)手动句子注释,(b)不清楚它对其他领域的推广效果如何。我认为[1]是有效的,因为生物医学文章大多都是这样写的。其优点是它使用了一种相对简单的方法,应该很容易验证。不幸的是,“目标是生成关于同一主题的多个文档的摘要。”我试图生成单个文档的摘要。我不知道有一种技术可以跨域推广,因此构建域模型可能是您的最佳希望,您可能需要“咬紧牙关”,但我很高兴被证明是错的。至于提取摘要技术,它们可以应用于单个文档(假设文档足够长,可以首先确定最“突出”的句子…)。至于这些技术是如何在野外使用的:他们让他们的发明者受雇于谷歌和Facebook…:-)[3] 似乎是为了“标题生成”。这是相当先进的,但值得研究。