Nlp 文本摘要:如何选择正确的n克大小

Nlp 文本摘要:如何选择正确的n克大小,nlp,data-mining,information-retrieval,text-mining,summary,Nlp,Data Mining,Information Retrieval,Text Mining,Summary,我正致力于总结文本,使用nltk库,我能够提取出bigram、unigram和trigram,并按频率排序 由于我对这一领域(NLP)非常陌生,我想知道我是否可以使用一个统计模型来自动选择正确大小的NGRAM(我所指的大小是N-gram的长度,一个单词的单格图、两个单词的双格图或三个单词的三格图) 例如,假设我有这篇文章要总结,作为总结,我只保留5个最相关的N-gram: "A more principled way to estimate sentence importance is usin

我正致力于总结文本,使用nltk库,我能够提取出bigram、unigram和trigram,并按频率排序

由于我对这一领域(NLP)非常陌生,我想知道我是否可以使用一个统计模型来自动选择正确大小的NGRAM(我所指的大小是N-gram的长度,一个单词的单格图、两个单词的双格图或三个单词的三格图)

例如,假设我有这篇文章要总结,作为总结,我只保留5个最相关的N-gram:

"A more principled way to estimate sentence importance is using random walks 
and eigenvector centrality. LexRank[5] is an algorithm essentially identical 
to TextRank, and both use this approach for document summarization. The two 
methods were developed by different groups at the same time, and LexRank 
simply focused on summarization, but could just as easily be used for
keyphrase extraction or any other NLP ranking task." wikipedia
然后作为一个输出,我想有“随机游动”、“texRank”、“lexRanks”、“文档摘要”、“关键词提取”、“NLP排序任务”

换句话说,我的问题是:如何推断一个单字符比二元或三元字符更相关?(仅使用频率作为N-gram相关性的度量不会给出我想要的结果)

有人能给我指一篇研究论文、一个算法或一门已经使用或解释过这种方法的课程吗

先谢谢你

  • 我认为文档摘要依赖于域。因此,如果你有一个领域语料库,你可以使用tf-idf来了解你正在提取的n-gram的相关性。你可以在n-gram上应用一些柠檬化来获得更好的相关性分数

  • 使用谷歌N-gram也可以计算相关性得分


  • 考虑到您有一个语料库,您可以尝试使用主题建模技术(例如)来帮助您推断与给定主题最相关的术语,因为您的术语也可以是n-gram。这将是一个概率近似值,因为正如您所提到的,简单地计算频率并不能产生好的结果


    当然,这种方法考虑了柠檬化和停止词删除。

    正如Adrian指出的,一种简单但略显粗暴的方法是计算语料库中所有n-gram的TFIDF分数。另一种方法可能是使用这样的方法来确定多词短语的好候选词-查找短语-两种统计方法(无耻的插件-我是这篇文章的作者,尽管不是所描述的方法)。一旦你有了这些短语,你可以通过TFIDF分数对它们进行排序,得到描述文本的N个最佳短语。更简单的方法可能是只使用标准的关键字提取算法,如RAKE或Kea