Text 关于「；自动文本摘要器（基于语言的）"；_Text_Nlp_Linguistics_Summarization

Text 关于「；自动文本摘要器（基于语言的）"；

text nlp

Text 关于「；自动文本摘要器（基于语言的）"；,text,nlp,linguistics,summarization,Text,Nlp,Linguistics,Summarization,我将“自动文本摘要（语言学方法）”作为我最后一年的项目。我收集了足够多的研究论文并仔细阅读了一遍。我仍然不太清楚“如何去做”这件事。基本上，我找到了“自动文本摘要（基于统计）”并发现它比我的项目容易得多。我的项目指导告诉我不要选择这个（基于统计的），而要选择基于语言的任何曾经参与过或听说过此类项目的人都会知道，总结任何文档只意味着对每个句子进行评分（通过一些涉及特定算法的方法），然后选择得分高于阈值的句子。现在，这个项目最困难的部分是选择合适的评分算法，然后实现它我有中等的编程技能，希望用J

我将“自动文本摘要（语言学方法）”作为我最后一年的项目。我收集了足够多的研究论文并仔细阅读了一遍。我仍然不太清楚“如何去做”这件事。基本上，我找到了“自动文本摘要（基于统计）”并发现它比我的项目容易得多。我的项目指导告诉我不要选择这个（基于统计的），而要选择基于语言的

任何曾经参与过或听说过此类项目的人都会知道，总结任何文档只意味着对每个句子进行评分（通过一些涉及特定算法的方法），然后选择得分高于阈值的句子。现在，这个项目最困难的部分是选择合适的评分算法，然后实现它

我有中等的编程技能，希望用JAVA编写代码（因为在那里我会得到很多API，从而减少开销）。现在我想知道，对于我的项目，应该使用什么样的方法和算法。还有如何实现它们。

如果你真的读过那些研究论文和研究书籍，你可能知道什么是已知的。现在由您在Java应用程序中实现这些研究论文和研究书籍的知识。或者你可以通过做一些创新/发明来扩展人类的知识。如果你真的扩展了人类的知识，你就成了一个真正的科学家

请在以下两个主要方面更具体地回答您的问题：

项目定义：项目的目标是什么？输入单元是单个文档吗？文件清单？你打算让你的程序使用机器学习吗？输出是什么？你将如何衡量成功

你的背景知识：你打算使用语言而不是统计方法。你有分析自然语言的背景吗？在语义表示中？我认为其中一些问题很难回答。我问他们是因为我在学习过程中花了太多时间试图回答类似的问题。一旦你解决了这些问题，我也许能给你一些建议。看起来是个好的开始，至少是导论章节

谢菲尔德大学几年前做了一些工作，作为欧盟法西斯项目的一部分。

< P> < 对不同算法的分析：

文档中最重要的部分：

•Nenkova（2005）分析说，没有系统可以用统计数据超过基线意义
•惊人的结果

注意，liguistic方法有两个不同的细微差别：

语言评分系统（此处无误）
语言生成（重写句子以构建摘要）

自动摘要是一个相当复杂的领域-首先尝试掌握java技能，并了解使用机器学习的统计NLP。然后你可以通过构建一些实质性的东西来工作。评估你的解决方案，确保你已经具体定义了你的测量变量以及你是如何进行评估的。否则，您的项目注定要失败。这通常被认为是一个高风险的项目，对于应届本科生来说，因为他们往往无法正确地制定原则，然后以一种不正确的方式实施，然后他们的评估措施都定义不清，并且没有清晰地反映他们自己的工作。我的建议是集中在一个领域，而不是多个领域的总结，因为你可以有单文档和多文档的总结。你的项目越多样化，你获得好分数的可能性就越小。保持重点和深度。评估其他人的工作，然后评估你决定采取的过程和结果

阅读资料： -Jurafsky关于NLP的书后面有一个关于总结和QA的部分。 -inderjeet mani在文本摘要方面的进展非常好

了解术语权重、基于质心的摘要、对数似然比、连贯关系、句子简化、最大边际相关性、冗余以及重点摘要的实际含义

您可以尝试使用有监督或无监督的方法以及混合方法。语言是一个更安全的选择，这就是为什么你被建议采取这种方法。试着从语言上尝试，然后在统计的基础上混合你的解决方案。

将其作为练习，学习算法的理论和实际含义，并以您的知识为基础。毫无疑问，你必须向评委会解释并为你的项目辩护。

这是无法回答的。你想根据什么样的标准给句子打分呢？既然这在谷歌上出现了，我将指出这个项目，它实现了各种文本摘要算法