C++ 查找给定字符串中的所有重复子字符串
我最近遇到了一个面试问题: 查找给定字符串中最小大小为2的所有重复子字符串。 算法应该是有效的C++ 查找给定字符串中的所有重复子字符串,c++,string,algorithm,C++,String,Algorithm,我最近遇到了一个面试问题: 查找给定字符串中最小大小为2的所有重复子字符串。 算法应该是有效的 #include <iostream> #include <algorithm> #include <iterator> #include <set> #include <string> using namespace std; int main() { typedef string::const_iterator iterato
#include <iostream>
#include <algorithm>
#include <iterator>
#include <set>
#include <string>
using namespace std;
int main()
{
typedef string::const_iterator iterator;
string s("ABCFABHYIFAB");
set<string> found;
if (2 < s.size())
for (iterator i = s.begin() + 1, j = s.end(); i != j; ++i)
for (iterator x = s.begin(); x != i; ++x)
{
iterator tmp = mismatch(i, j, x).second;;
if (tmp - x > 1)
found.insert(string(x, tmp));
}
copy(found.begin(), found.end(),ostream_iterator<string>(cout, "\n"));
}
下面给出了上述问题的代码,但它不是有效的
#include <iostream>
#include <algorithm>
#include <iterator>
#include <set>
#include <string>
using namespace std;
int main()
{
typedef string::const_iterator iterator;
string s("ABCFABHYIFAB");
set<string> found;
if (2 < s.size())
for (iterator i = s.begin() + 1, j = s.end(); i != j; ++i)
for (iterator x = s.begin(); x != i; ++x)
{
iterator tmp = mismatch(i, j, x).second;;
if (tmp - x > 1)
found.insert(string(x, tmp));
}
copy(found.begin(), found.end(),ostream_iterator<string>(cout, "\n"));
}
#包括
#包括
#包括
#包括
#包括
使用名称空间std;
int main()
{
typedef字符串::常量迭代器迭代器;
字符串s(“ABCFABHYIFAB”);
集发现;
如果(21)
插入(字符串(x,tmp));
}
复制(found.begin(),found.end(),ostream_迭代器(cout,“\n”);
}
我的问题是,是否有任何数据结构可以及时实现上述问题
O(N)的复杂性
如果您的答案是后缀树或散列,请详细说明。这只是一个疯狂的想法,但值得一试(不过,它会消耗O(N)内存,其中N是主字符串的长度)。该算法不是O(N),但可能是可以优化的 这个想法是,您不想经常进行字符串比较。您可以收集读取数据的散列(例如,读取字符的ASCII代码的总和)并比较散列。如果散列相等,则字符串可能相等(稍后必须进行检查)。例如:
ABCAB
A -> (65)
B -> (131, 66)
C -> (198, 133, 67)
A -> (263, 198, 132, 65)
B -> (329, 264, 198, 131, 66)
因为您只对2+长度值感兴趣,所以必须忽略最后一个值(因为它始终对应于单个字符)
我们看到两个相等的值:131和198。131代表AB并显示该对,而198代表ABC和BCA,必须通过手动检查予以拒绝
这只是想法,而不是解决方案本身。可以扩展散列函数以说明字符在子字符串(或序列结构)中的位置。可以更改散列值的存储方法以提高性能(但会增加内存使用的成本)
希望我能帮上一点忙:)如果分析字符串“aaaaaaaaaaaaaaaa”的输出,那么其中有O(n²)个字符,因此算法至少是O(n²) 要实现O(n²),只需为s的每个后缀(索引[1..n]、[2..n]、[3..n]、…、[n..n])构建。不管其中一个字符串是否没有自己的结束节点,只要计算每个节点的使用频率即可
最后,用count>1迭代每个节点并打印其路径。我不知道后缀树如何获得所有重复的子字符串,字符串“mississippi”构建后缀树,如下所示: 对不起,我明白了。最后,在count>1的情况下迭代每个节点并打印其路径。“count”是这个子节点的数量
tree-->|---mississippi m..mississippi
|
|---i-->|---ssi-->|---ssippi i .. ississippi
| | |
| | |---ppi issip,issipp,issippi
| |
| |---ppi ip, ipp, ippi
|
|---s-->|---si-->|---ssippi s .. ssissippi
| | |
| | |---ppi ssip, ssipp, ssippi
| |
| |---i-->|---ssippi si .. sissippi
| |
| |---ppi sip, sipp, sippi
|
|---p-->|---pi p, pp, ppi
|
|---i p, pi
--- Suffix Tree for "mississippi" ---
如果我理解正确,你认为两个(相等大小)子串在输出中不同,如果它们的起始索引不同,而不是它们的内容不同,对后缀树进行读取,在我看来,Wiki是一个很好的开始:@重复子字符串是CS中非常常见的问题。你能把这个作为解决方案吗?这将是非常有帮助的网站访问者。干杯@正如我看到的,接受的答案在我的评论后包含相同的内容,所以我不想重复它作为答案。也许应该在接受的答案中添加一些链接。你是如何建立这棵树的?