Algorithm Needleman-Wunsch算法(perl)
因此,我的问题是试图实现Needleman-Wunsch算法以及垂直和水平内存耗尽的Gapscore,但没有正确实现。这可能是记忆中一个简单的循环计算错误,但就我的一生而言,我无法看到它。代码如下:Algorithm Needleman-Wunsch算法(perl),algorithm,perl,matrix,Algorithm,Perl,Matrix,因此,我的问题是试图实现Needleman-Wunsch算法以及垂直和水平内存耗尽的Gapscore,但没有正确实现。这可能是记忆中一个简单的循环计算错误,但就我的一生而言,我无法看到它。代码如下: $seq1 = "ACTTCAATCGGT"; $seq2 = "ACTGGTCAATCGGT"; $len1 = length($seq1); $len2 = length($seq2); 上面的顺序 @matrix = (); my $gapscore = -1; my $matchscor
$seq1 = "ACTTCAATCGGT";
$seq2 = "ACTGGTCAATCGGT";
$len1 = length($seq1);
$len2 = length($seq2);
上面的顺序
@matrix = ();
my $gapscore = -1;
my $matchscore = 1;
my $mismatchscore = 0;
$matrix[0][0] = 0;
# initialize 1st row and 1st column of matrix decreasing by $gapscore
for ($i = 1; $i < $len1; $i++) {
$matrix[$i][0] = $gapscore;
$gapscore--;
}
$gapscore = -1;
for ($j = 1; $j < $len2; $j++) {
$matrix[0][$j] = $gapscore;
$gapscore--;
}
$gapscore = -1;
@matrix=();
我的$gapscore=-1;
我的$matchscore=1;
我的$mistchscore=0;
$matrix[0][0]=0;
#初始化减少$gapscore的矩阵的第一行和第一列
对于($i=1;$i<$len1;$i++){
$matrix[$i][0]=$gapscore;
$gapscore--;
}
$gapscore=-1;
对于($j=1;$j<$len2;$j++){
$matrix[0][$j]=$gapscore;
$gapscore--;
}
$gapscore=-1;
因此,上面的代码正确地实现了0…n和0…n水平和垂直方向的矩阵点。下一段代码尝试通过填充矩阵中的其余值来实现矩阵
for($x = 1; $x < $len2; $x++) { # going through sequence1
for($y = 1; $y < $len1; $y++) { # going through sequence2
my ($diagonal, $horizontal, $vertical);
my $Firstletter = substr($seq1,$x-1,1);
my $Secondletter = substr($seq2,$y-1,1);
# gap scores:
$vertical = $matrix[$x-1][$y] + $gapscore;
$horizontal = $matrix[$x][$y-1] + $gapscore;
# matching scores on diagonal:
if($Firstletter eq $Secondletter) {
$diagonal = $matrix[$x-1][$y-1] + $matchscore;
}
else {
$diagonal = $matrix[$x-1][$y-1] + $mismatchscore;
}
}
}
for($x=1;$x<$len2;$x++){#正在执行序列1
对于($y=1;$y<$len1;$y++){#正在执行序列2
我的($对角,$水平,$垂直);
我的$Firstletter=substr($seq1,$x-1,1);
我的$Secondletter=substr($seq2,$y-1,1);
#差距分数:
$vertical=$matrix[$x-1][$y]+$gapscore;
$horizontal=$matrix[$x][$y-1]+$gapscore;
#对角线上的匹配分数:
如果($Firstletter eq$Secondletter){
$diagonal=$matrix[$x-1][$y-1]+$matchscore;
}
否则{
$diagonal=$matrix[$x-1][$y-1]+$mistchscore;
}
}
}
垂直和水平变量导致内存问题。我不知道为什么。如果有人能提供一些见解,我将不胜感激 for($x=1;$x<$len2;$x++){#正在执行序列1
for($x = 1; $x < $len2; $x++) { # going through sequence1
for($y = 1; $y < $len1; $y++) { # going through sequence2
对于($y=1;$y<$len1;$y++){#正在执行序列2
错误,如所写,第一个循环通过sequence2
,第二个循环通过sequence1
因此,看起来您已经反转了索引。这可能会导致索引超出范围错误,在某些情况下还会减慢执行时间
可能的修复方法:在上面的代码中交换
len2
和len1
。我看不出内存不足的原因,但是您有一些错误。矩阵的列数比序列1中的基数多一列,行数比序列2中的基数多一行。这意味着您的索引应该从0运行到$len1代码>和0到$len2
,但您正在短停一次
这应该对你有帮助。它正确地构建了数组,但我还没有写下下下一步,那就是通过对角线跟踪最佳路径
use strict;
use warnings;
use List::Util 'max';
STDOUT->autoflush;
my ($seq1, $seq2) = qw/ ACTTCAATCGGT ACTGGTCAATCGGT /;
my ($len1, $len2) = map length, $seq1, $seq2;
my @seq1 = $seq1 =~ /./g;
my @seq2 = $seq2 =~ /./g;
my @matrix;
$matrix[$_][0] = -$_ for 0 .. $len2;
$matrix[0][$_] = -$_ for 0 .. $len1;
for my $x ( 1 .. $len2 ) { # Rows (bases of sequence 2)
for my $y ( 1 .. $len1 ) { # Columns (bases of sequence 1)
my $match = $seq1[$y-1] eq $seq2[$x-1];
my @scores = (
$matrix[$x-1][$y] - 1, # Up
$matrix[$x][$y-1] - 1, # Left
$match ? $matrix[$x-1][$y-1] + 1 : $matrix[$x-1][$y-1] - 1, # Diagonal
);
$matrix[$x][$y] = max @scores;
}
}
for my $i ( 0 .. $len2 ) {
my $row = $matrix[$i];
print join(' ', map { sprintf '%3d', $_ } @$row), "\n";
}
输出
0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10 -11 -12
-1 1 0 -1 -2 -3 -4 -5 -6 -7 -8 -9 -10
-2 0 2 1 0 -1 -2 -3 -4 -5 -6 -7 -8
-3 -1 1 3 2 1 0 -1 -2 -3 -4 -5 -6
-4 -2 0 2 2 1 0 -1 -2 -3 -2 -3 -4
-5 -3 -1 1 1 1 0 -1 -2 -3 -2 -1 -2
-6 -4 -2 0 2 1 0 -1 0 -1 -2 -2 0
-7 -5 -3 -1 1 3 2 1 0 1 0 -1 -1
-8 -6 -4 -2 0 2 4 3 2 1 0 -1 -2
-9 -7 -5 -3 -1 1 3 5 4 3 2 1 0
-10 -8 -6 -4 -2 0 2 4 6 5 4 3 2
-11 -9 -7 -5 -3 -1 1 3 5 7 6 5 4
-12 -10 -8 -6 -4 -2 0 2 4 6 8 7 6
-13 -11 -9 -7 -5 -3 -1 1 3 5 7 9 8
-14 -12 -10 -8 -6 -4 -2 0 2 4 6 8 10
到底是什么不起作用?内存问题是什么?索引超出范围,内存不足,占用时间太长-所有这些都可以被视为“内存问题”。。。