Text 关于「;自动文本摘要器(基于语言的)";

Text 关于「;自动文本摘要器(基于语言的)";,text,nlp,linguistics,summarization,Text,Nlp,Linguistics,Summarization,我将“自动文本摘要(语言学方法)”作为我最后一年的项目。我收集了足够多的研究论文并仔细阅读了一遍。我仍然不太清楚“如何去做”这件事。基本上,我找到了“自动文本摘要(基于统计)”并发现它比我的项目容易得多。我的项目指导告诉我不要选择这个(基于统计的),而要选择基于语言的 任何曾经参与过或听说过此类项目的人都会知道,总结任何文档只意味着对每个句子进行评分(通过一些涉及特定算法的方法),然后选择得分高于阈值的句子。现在,这个项目最困难的部分是选择合适的评分算法,然后实现它 我有中等的编程技能,希望用J

我将“自动文本摘要(语言学方法)”作为我最后一年的项目。我收集了足够多的研究论文并仔细阅读了一遍。我仍然不太清楚“如何去做”这件事。基本上,我找到了“自动文本摘要(基于统计)”并发现它比我的项目容易得多。我的项目指导告诉我不要选择这个(基于统计的),而要选择基于语言的

任何曾经参与过或听说过此类项目的人都会知道,总结任何文档只意味着对每个句子进行评分(通过一些涉及特定算法的方法),然后选择得分高于阈值的句子。现在,这个项目最困难的部分是选择合适的评分算法,然后实现它


我有中等的编程技能,希望用JAVA编写代码(因为在那里我会得到很多API,从而减少开销)。现在我想知道,对于我的项目,应该使用什么样的方法和算法。还有如何实现它们。

如果你真的读过那些研究论文和研究书籍,你可能知道什么是已知的。现在由您在Java应用程序中实现这些研究论文和研究书籍的知识。或者你可以通过做一些创新/发明来扩展人类的知识。如果你真的扩展了人类的知识,你就成了一个真正的科学家

请在以下两个主要方面更具体地回答您的问题:

  • 项目定义:项目的目标是什么? 输入单元是单个文档吗?文件清单? 你打算让你的程序使用机器学习吗? 输出是什么? 你将如何衡量成功
  • 你的背景知识:你打算使用语言而不是统计方法。 你有分析自然语言的背景吗?在语义表示中? 我认为其中一些问题很难回答。我问他们是因为我在学习过程中花了太多时间试图回答类似的问题。一旦你解决了这些问题,我也许能给你一些建议。看起来是个好的开始,至少是导论章节

  • 谢菲尔德大学几年前做了一些工作,作为欧盟法西斯项目的一部分。

    < P> < 对不同算法的分析:

    文档中最重要的部分:

    •Nenkova(2005)分析说,没有系统 可以用统计数据超过基线 意义
    •惊人的结果

    注意,liguistic方法有两个不同的细微差别:

    • 语言评分系统(此处无误)
    • 语言生成(重写句子以构建摘要)

    自动摘要是一个相当复杂的领域-首先尝试掌握java技能,并了解使用机器学习的统计NLP。然后你可以通过构建一些实质性的东西来工作。评估你的解决方案,确保你已经具体定义了你的测量变量以及你是如何进行评估的。否则,您的项目注定要失败。这通常被认为是一个高风险的项目,对于应届本科生来说,因为他们往往无法正确地制定原则,然后以一种不正确的方式实施,然后他们的评估措施都定义不清,并且没有清晰地反映他们自己的工作。我的建议是集中在一个领域,而不是多个领域的总结,因为你可以有单文档和多文档的总结。你的项目越多样化,你获得好分数的可能性就越小。保持重点和深度。评估其他人的工作,然后评估你决定采取的过程和结果

    阅读资料: -Jurafsky关于NLP的书后面有一个关于总结和QA的部分。 -inderjeet mani在文本摘要方面的进展非常好

    了解术语权重、基于质心的摘要、对数似然比、连贯关系、句子简化、最大边际相关性、冗余以及重点摘要的实际含义

    您可以尝试使用有监督或无监督的方法以及混合方法。 语言是一个更安全的选择,这就是为什么你被建议采取这种方法。 试着从语言上尝试,然后在统计的基础上混合你的解决方案。
    将其作为练习,学习算法的理论和实际含义,并以您的知识为基础。毫无疑问,你必须向评委会解释并为你的项目辩护。

    这是无法回答的。你想根据什么样的标准给句子打分呢?既然这在谷歌上出现了,我将指出这个项目,它实现了各种文本摘要算法