Algorithm Needleman-Wunsch算法(perl)

Algorithm Needleman-Wunsch算法(perl),algorithm,perl,matrix,Algorithm,Perl,Matrix,因此,我的问题是试图实现Needleman-Wunsch算法以及垂直和水平内存耗尽的Gapscore,但没有正确实现。这可能是记忆中一个简单的循环计算错误,但就我的一生而言,我无法看到它。代码如下: $seq1 = "ACTTCAATCGGT"; $seq2 = "ACTGGTCAATCGGT"; $len1 = length($seq1); $len2 = length($seq2); 上面的顺序 @matrix = (); my $gapscore = -1; my $matchscor

因此,我的问题是试图实现Needleman-Wunsch算法以及垂直和水平内存耗尽的Gapscore,但没有正确实现。这可能是记忆中一个简单的循环计算错误,但就我的一生而言,我无法看到它。代码如下:

$seq1 = "ACTTCAATCGGT";
$seq2 = "ACTGGTCAATCGGT";
$len1 = length($seq1);
$len2 = length($seq2);
上面的顺序

@matrix = ();
my $gapscore = -1;

my $matchscore = 1;
my $mismatchscore = 0;
$matrix[0][0] = 0;

# initialize 1st row and 1st column of matrix decreasing by $gapscore
for ($i = 1; $i < $len1; $i++) {
    $matrix[$i][0] = $gapscore;
    $gapscore--;
}

$gapscore = -1; 

for ($j = 1; $j < $len2; $j++) {
     $matrix[0][$j] = $gapscore;         
     $gapscore--;

}

$gapscore = -1; 
@matrix=();
我的$gapscore=-1;
我的$matchscore=1;
我的$mistchscore=0;
$matrix[0][0]=0;
#初始化减少$gapscore的矩阵的第一行和第一列
对于($i=1;$i<$len1;$i++){
$matrix[$i][0]=$gapscore;
$gapscore--;
}
$gapscore=-1;
对于($j=1;$j<$len2;$j++){
$matrix[0][$j]=$gapscore;
$gapscore--;
}
$gapscore=-1;
因此,上面的代码正确地实现了0…n和0…n水平和垂直方向的矩阵点。下一段代码尝试通过填充矩阵中的其余值来实现矩阵

for($x = 1; $x < $len2; $x++) { # going through sequence1
   for($y = 1; $y < $len1; $y++) { # going through sequence2

        my ($diagonal, $horizontal, $vertical); 

        my $Firstletter = substr($seq1,$x-1,1);
        my $Secondletter = substr($seq2,$y-1,1); 


        # gap scores:
        $vertical = $matrix[$x-1][$y] + $gapscore;
        $horizontal = $matrix[$x][$y-1] + $gapscore;

        # matching scores on diagonal:
        if($Firstletter eq $Secondletter) {
             $diagonal = $matrix[$x-1][$y-1] + $matchscore;
        }
        else {
             $diagonal = $matrix[$x-1][$y-1] + $mismatchscore;
        } 
    }
}
for($x=1;$x<$len2;$x++){#正在执行序列1
对于($y=1;$y<$len1;$y++){#正在执行序列2
我的($对角,$水平,$垂直);
我的$Firstletter=substr($seq1,$x-1,1);
我的$Secondletter=substr($seq2,$y-1,1);
#差距分数:
$vertical=$matrix[$x-1][$y]+$gapscore;
$horizontal=$matrix[$x][$y-1]+$gapscore;
#对角线上的匹配分数:
如果($Firstletter eq$Secondletter){
$diagonal=$matrix[$x-1][$y-1]+$matchscore;
}
否则{
$diagonal=$matrix[$x-1][$y-1]+$mistchscore;
} 
}
}
垂直和水平变量导致内存问题。我不知道为什么。如果有人能提供一些见解,我将不胜感激

for($x=1;$x<$len2;$x++){#正在执行序列1
for($x = 1; $x < $len2; $x++) { # going through sequence1
   for($y = 1; $y < $len1; $y++) { # going through sequence2
对于($y=1;$y<$len1;$y++){#正在执行序列2
错误,如所写,第一个循环通过
sequence2
,第二个循环通过
sequence1

因此,看起来您已经反转了索引。这可能会导致索引超出范围错误,在某些情况下还会减慢执行时间


可能的修复方法:在上面的代码中交换
len2
len1

我看不出内存不足的原因,但是您有一些错误。矩阵的列数比序列1中的基数多一列,行数比序列2中的基数多一行。这意味着您的索引应该从0运行到
$len1和0到
$len2
,但您正在短停一次

这应该对你有帮助。它正确地构建了数组,但我还没有写下下下一步,那就是通过对角线跟踪最佳路径

use strict;
use warnings;

use List::Util 'max';

STDOUT->autoflush;

my ($seq1, $seq2) = qw/ ACTTCAATCGGT ACTGGTCAATCGGT /;
my ($len1, $len2) = map length, $seq1, $seq2;
my @seq1 = $seq1 =~ /./g;
my @seq2 = $seq2 =~ /./g;

my @matrix;
$matrix[$_][0] = -$_ for 0 .. $len2;
$matrix[0][$_] = -$_ for 0 .. $len1;

for my $x ( 1 .. $len2 ) {     # Rows (bases of sequence 2)
    for my $y ( 1 .. $len1 ) { # Columns (bases of sequence 1)

        my $match = $seq1[$y-1] eq $seq2[$x-1];

        my @scores = (
          $matrix[$x-1][$y] - 1,  # Up
          $matrix[$x][$y-1] - 1,  # Left
          $match ? $matrix[$x-1][$y-1] + 1 : $matrix[$x-1][$y-1] - 1, # Diagonal
        );

        $matrix[$x][$y] = max @scores;
    }        
}

for my $i ( 0 .. $len2 ) {
    my $row = $matrix[$i];
    print join(' ', map { sprintf '%3d', $_ } @$row), "\n";
}
输出

  0  -1  -2  -3  -4  -5  -6  -7  -8  -9 -10 -11 -12
 -1   1   0  -1  -2  -3  -4  -5  -6  -7  -8  -9 -10
 -2   0   2   1   0  -1  -2  -3  -4  -5  -6  -7  -8
 -3  -1   1   3   2   1   0  -1  -2  -3  -4  -5  -6
 -4  -2   0   2   2   1   0  -1  -2  -3  -2  -3  -4
 -5  -3  -1   1   1   1   0  -1  -2  -3  -2  -1  -2
 -6  -4  -2   0   2   1   0  -1   0  -1  -2  -2   0
 -7  -5  -3  -1   1   3   2   1   0   1   0  -1  -1
 -8  -6  -4  -2   0   2   4   3   2   1   0  -1  -2
 -9  -7  -5  -3  -1   1   3   5   4   3   2   1   0
-10  -8  -6  -4  -2   0   2   4   6   5   4   3   2
-11  -9  -7  -5  -3  -1   1   3   5   7   6   5   4
-12 -10  -8  -6  -4  -2   0   2   4   6   8   7   6
-13 -11  -9  -7  -5  -3  -1   1   3   5   7   9   8
-14 -12 -10  -8  -6  -4  -2   0   2   4   6   8  10

到底是什么不起作用?内存问题是什么?索引超出范围,内存不足,占用时间太长-所有这些都可以被视为“内存问题”。。。