如何在Java中使用模糊逻辑验证文本的章节标题_Java_String_Match_Fuzzy Search_Phrase

如何在Java中使用模糊逻辑验证文本的章节标题

java string

如何在Java中使用模糊逻辑验证文本的章节标题,java,string,match,fuzzy-search,phrase,Java,String,Match,Fuzzy Search,Phrase,我需要一个解决方案来识别书中不正确的章节标题我们正在为书籍开发一个摄取系统，可以进行各种验证，比如拼写检查和攻击性语言过滤。现在，我们想标记章节标题，鉴于章节正文，这些标题似乎不准确。例如，如果标题是“脾脏的功能”，我不希望这一章是关于肝脏的我熟悉模糊字符串匹配算法，但这更像是NLP或分类问题。如果我能匹配（或接近匹配）“脾脏功能”这句话，那就太好了——高度自信。否则，文本中“功能”和“脾脏”的大量出现也会产生信心。当然，他们的关系越密切越好这需要在内存、动态和Java中完成我目前的天真

我需要一个解决方案来识别书中不正确的章节标题

我们正在为书籍开发一个摄取系统，可以进行各种验证，比如拼写检查和攻击性语言过滤。现在，我们想标记章节标题，鉴于章节正文，这些标题似乎不准确。例如，如果标题是“脾脏的功能”，我不希望这一章是关于肝脏的

我熟悉模糊字符串匹配算法，但这更像是NLP或分类问题。如果我能匹配（或接近匹配）“脾脏功能”这句话，那就太好了——高度自信。否则，文本中“功能”和“脾脏”的大量出现也会产生信心。当然，他们的关系越密切越好

这需要在内存、动态和Java中完成

我目前的天真方法是简单地标记所有单词，删除干扰词（如介词），去掉剩下的单词，然后计算匹配数。至少我希望标题中的每个单词在文本中至少出现一次

是否有一种不同的方法，理想的方法是考虑到邻近性和顺序等因素

我认为这是一个分类问题，因此请看一下

WEKA很棒，谢谢！我也一直在研究其他类似的解决方案，问题是：它们都需要一个培训集。但在这种情况下，我没有。只有一章正文和一个标题。那么，如何仅从一个样本创建分类器呢？我找不到这方面的任何信息。我在考虑：假设这一章是一致的，并且是关于一个有重点的主题，简单地把它切碎成小文档，然后进行培训？但我看不到这在任何地方都能实现，所以也许有一个原因说明它本质上是徒劳的？我假设你将分析大量的书籍，因此我认为你可能会有更多的一个标题处理类似的主题。如果是这样的话，你可以从这些书中选择一部分作为训练集（显然你需要一个人来对它们进行分类）。您还可以使用人工重新评估分类算法来添加到训练集中。我会天真地使用KNN算法。。。我在过去遇到过一个像你一样的问题，我曾与一个团队并行工作，通过分类算法解决了这个问题。我不记得如果我能够解析大量的书籍（而不是一次一本），如何将标记作为最佳答案，因为Yaneeve提供了一个完美的解决方案。