Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/11.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 需要高效的算法来检查字符串是否包含英语语音_Algorithm - Fatal编程技术网

Algorithm 需要高效的算法来检查字符串是否包含英语语音

Algorithm 需要高效的算法来检查字符串是否包含英语语音,algorithm,Algorithm,我有很多线索。它们都只包含字符。字符和单词之间没有空格。一些字符组成英语单词,而另一些字符则只是字母。字符串不能包含整个句子 我需要找出其中哪些是用有效的英语口语写的。我的意思是,字符串可以通过连接书写良好的英语单词来构建。我知道我可以用词表做点什么。但是这两个词并没有分开。因此,测试每个可能的单词组合可能非常耗时 我正在寻找一种高性能的算法或方法,用于检查字符串是否由英语单词或英语语音构成。也许有什么东西让我觉得字符串中有英语语音 你知道有什么方法或算法可以帮助我吗? 像这样的东西能帮我吗?这

我有很多线索。它们都只包含字符。字符和单词之间没有空格。一些字符组成英语单词,而另一些字符则只是字母。字符串不能包含整个句子

我需要找出其中哪些是用有效的英语口语写的。我的意思是,字符串可以通过连接书写良好的英语单词来构建。我知道我可以用词表做点什么。但是这两个词并没有分开。因此,测试每个可能的单词组合可能非常耗时

我正在寻找一种高性能的算法或方法,用于检查字符串是否由英语单词或英语语音构成。也许有什么东西让我觉得字符串中有英语语音

你知道有什么方法或算法可以帮助我吗? 像这样的东西能帮我吗?

这就是所谓的问题

没有简单的方法可以解决这个问题。根据我对你的知识水平的猜测,我可以向你建议的是从你的字典中建立一个新的词汇,当你第一次发现一个可能的单词时,试着假设它就是这个单词


如果以后,你发现单词的最后一部分是胡言乱语,那么你就回到上一次确定字母序列是单词的时候,忽略这个单词。

斯芬克斯可能帮不了你。试试算法。这对于标准搜索来说是很糟糕的,但是对于这个特殊的问题应该可以很好地工作。基本上,你会想要一本英语单词词典,并希望用它来搜索。过大的词典仍然会很慢,但是如果你用一个小词典来查找常用词,并且只在遇到常用词时才切换到一个大词典,你可能仍然不会得到太多的误报。

为什么不将你的词表存储在一个小词典中呢。然后在Trie中迭代输入以查找匹配的单词-这可以非常有效地完成。如果找到一个,请前进到单词的末尾并继续。

检查N-gram语言模型


请参见如果您的字符串足够长或bufflegab足够奇怪,-也可能是二元频率、三元频率等-可能足够(而不是更一般的N-gram)。例如,一些浏览器使用它来猜测代码页。

这取决于您想要的准确性、您需要的效率以及您正在处理的文本类型。

谢谢大家的回答。我需要一些时间来看看我能用什么。再解释一下:这里的N-gram非常合适,因为你根本不需要担心分割。您的语言N-gram模型应该在非分段文本语料库上生成。这是我的建议。这可能有点幼稚,但我希望这种方法运行得相当快,相对容易实现,并且仍然提供有用的(如果不是最佳的)结果。