Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/11.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 从片段集推断适配器序列_Algorithm_Bioinformatics_Suffix Tree - Fatal编程技术网

Algorithm 从片段集推断适配器序列

Algorithm 从片段集推断适配器序列,algorithm,bioinformatics,suffix-tree,Algorithm,Bioinformatics,Suffix Tree,我有一组由DNA测序生成的字符串,使用特定的适配器片段。这意味着S中的所有字符串都包含一个后缀,该后缀与适配器序列的前缀近似匹配(由于排序错误)。仅给定集合S,如何推断用于生成S的最可能的适配器序列 集合S非常大,大约有100万个片段,每个片段的长度为50个字符。我知道在集合S上构建一个通用后缀树将大大有助于解决此问题,但我不确定使用什么方法来查找最可能的适配器序列。也许这将满足您的需要: 字符串可以包含哪些类型的排序错误?特别是,是否只有(或大部分)替换错误,是否也有插入和/或删除?错误仅限于

我有一组由DNA测序生成的字符串,使用特定的适配器片段。这意味着S中的所有字符串都包含一个后缀,该后缀与适配器序列的前缀近似匹配(由于排序错误)。仅给定集合S,如何推断用于生成S的最可能的适配器序列


集合S非常大,大约有100万个片段,每个片段的长度为50个字符。我知道在集合S上构建一个通用后缀树将大大有助于解决此问题,但我不确定使用什么方法来查找最可能的适配器序列。

也许这将满足您的需要:


字符串可以包含哪些类型的排序错误?特别是,是否只有(或大部分)替换错误,是否也有插入和/或删除?错误仅限于替换错误。关键字是
blast de novo assembly
giy是适配器长度为50的字符串的子序列,即适配器可以位于每个字符串的不同位置。或者,它比这个简单吗?适配器是50的整个序列,你想在100万个序列中推断出一致的50nt序列吗?另外,如果适配器是子序列,那么长度是已知的吗?感谢blast de novo组装技巧,我将对此进行研究。我想推断几个不同长度的可能适配器序列。在一百万个序列中找到一个一致的序列将是一个很好的方法,因为在序列中会有一些错误的读取。这正是我需要的,非常感谢!算法中的逻辑也非常简单:识别集合中的频繁k-mer,按频率排序,并将它们对齐到输出序列中。