Algorithm 从大型单词词典中查找包含任何单词的文本所需的工具或API

Algorithm 从大型单词词典中查找包含任何单词的文本所需的工具或API,algorithm,search,full-text-search,Algorithm,Search,Full Text Search,我正在寻找一个工具(理想情况下)或是一个API,用于从大量文本文件中的大型单词词典中搜索任何单词的实例。在我的例子中,“单词”实际上是文件名,但不包含空格 一个快速算法可能通过读取字典来构建DFA(确定性有限自动机),然后能够使用单个过程在任意数量的文件上查找字典单词的实例 注意:我想要精确的文本匹配,而不是像这样的模糊匹配问题: -你看过lucene吗?有一个java和一个.net版本 你看过lucene吗?有一个java和一个.net版本 我将单词词典加载到HashMap或“dictiona

我正在寻找一个工具(理想情况下)或是一个API,用于从大量文本文件中的大型单词词典中搜索任何单词的实例。在我的例子中,“单词”实际上是文件名,但不包含空格

一个快速算法可能通过读取字典来构建DFA(确定性有限自动机),然后能够使用单个过程在任意数量的文件上查找字典单词的实例

注意:我想要精确的文本匹配,而不是像这样的模糊匹配问题:
-你看过lucene吗?有一个java和一个.net版本


你看过lucene吗?有一个java和一个.net版本


我将单词词典加载到HashMap或“dictionary”中,然后逐行或逐字读取文件,检查映射是否包含单词。

我将单词词典加载到HashMap或“dictionary”中,然后逐行或逐字读取文件,正在检查地图是否包含该单词。

抱歉,这将太慢。我正在寻找一种算法,它可以读取文本流,并且搜索成本是恒定的(不会随着字数的增加而增加)。我想我可能要找的是一个完美的散列函数。这仍然不如DFA方法好,DFA方法可以简单地将文本流读取为字节序列并发出匹配事件。很抱歉,这会太慢。我正在寻找一种算法,它可以读取文本流,并且搜索成本是恒定的(不会随着字数的增加而增加)。我想我可能要找的是一个完美的散列函数。这仍然不如DFA方法好,DFA方法可以简单地将文本流读取为字节序列并发出匹配事件。它实现了