Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/327.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何在Java中使用模糊逻辑验证文本的章节标题_Java_String_Match_Fuzzy Search_Phrase - Fatal编程技术网

如何在Java中使用模糊逻辑验证文本的章节标题

如何在Java中使用模糊逻辑验证文本的章节标题,java,string,match,fuzzy-search,phrase,Java,String,Match,Fuzzy Search,Phrase,我需要一个解决方案来识别书中不正确的章节标题 我们正在为书籍开发一个摄取系统,可以进行各种验证,比如拼写检查和攻击性语言过滤。现在,我们想标记章节标题,鉴于章节正文,这些标题似乎不准确。例如,如果标题是“脾脏的功能”,我不希望这一章是关于肝脏的 我熟悉模糊字符串匹配算法,但这更像是NLP或分类问题。如果我能匹配(或接近匹配)“脾脏功能”这句话,那就太好了——高度自信。否则,文本中“功能”和“脾脏”的大量出现也会产生信心。当然,他们的关系越密切越好 这需要在内存、动态和Java中完成 我目前的天真

我需要一个解决方案来识别书中不正确的章节标题

我们正在为书籍开发一个摄取系统,可以进行各种验证,比如拼写检查和攻击性语言过滤。现在,我们想标记章节标题,鉴于章节正文,这些标题似乎不准确。例如,如果标题是“脾脏的功能”,我不希望这一章是关于肝脏的

我熟悉模糊字符串匹配算法,但这更像是NLP或分类问题。如果我能匹配(或接近匹配)“脾脏功能”这句话,那就太好了——高度自信。否则,文本中“功能”和“脾脏”的大量出现也会产生信心。当然,他们的关系越密切越好

这需要在内存、动态和Java中完成

我目前的天真方法是简单地标记所有单词,删除干扰词(如介词),去掉剩下的单词,然后计算匹配数。至少我希望标题中的每个单词在文本中至少出现一次


是否有一种不同的方法,理想的方法是考虑到邻近性和顺序等因素

我认为这是一个分类问题,因此请看一下

WEKA很棒,谢谢!我也一直在研究其他类似的解决方案,问题是:它们都需要一个培训集。但在这种情况下,我没有。只有一章正文和一个标题。那么,如何仅从一个样本创建分类器呢?我找不到这方面的任何信息。我在考虑:假设这一章是一致的,并且是关于一个有重点的主题,简单地把它切碎成小文档,然后进行培训?但我看不到这在任何地方都能实现,所以也许有一个原因说明它本质上是徒劳的?我假设你将分析大量的书籍,因此我认为你可能会有更多的一个标题处理类似的主题。如果是这样的话,你可以从这些书中选择一部分作为训练集(显然你需要一个人来对它们进行分类)。您还可以使用人工重新评估分类算法来添加到训练集中。我会天真地使用KNN算法。。。我在过去遇到过一个像你一样的问题,我曾与一个团队并行工作,通过分类算法解决了这个问题。我不记得如果我能够解析大量的书籍(而不是一次一本),如何将标记作为最佳答案,因为Yaneeve提供了一个完美的解决方案。