Statistics 二级结构预测的前向后算法

Statistics 二级结构预测的前向后算法,statistics,bioinformatics,hidden-markov-models,markov-chains,Statistics,Bioinformatics,Hidden Markov Models,Markov Chains,我想使用HMM(前向-后向模型)进行蛋白质二级结构预测 基本上,使用了三态模型:态={H=α螺旋,B=β片,C=线圈} 每个状态的发射概率pmf为1乘以20(对于20种氨基酸) 在前向-后向模型上使用序列的“训练集”后,期望最大化收敛于最优转移矩阵(三个状态之间的3×3)和每个状态的发射概率pmf 是否有人知道一个序列数据集(最好是非常小的),其中确定了转移矩阵和发射概率的“正确”值。我想使用Excel中的数据集应用向前向后算法,并建立信心,以确定是否可以得到相同的结果 然后再看一些没有Exce

我想使用HMM(前向-后向模型)进行蛋白质二级结构预测

基本上,使用了三态模型:态={H=α螺旋,B=β片,C=线圈}

每个状态的发射概率pmf为1乘以20(对于20种氨基酸)

在前向-后向模型上使用序列的“训练集”后,期望最大化收敛于最优转移矩阵(三个状态之间的3×3)和每个状态的发射概率pmf

是否有人知道一个序列数据集(最好是非常小的),其中确定了转移矩阵和发射概率的“正确”值。我想使用Excel中的数据集应用向前向后算法,并建立信心,以确定是否可以得到相同的结果


然后再看一些没有Excel:o那么原始的东西。

最好的方法可能是根据您决定的分布生成您自己的模拟数据。然后运行程序,查看参数估计是否收敛到已知参数

在您的例子中,这将涉及到编写一个马尔可夫链,该链以某种已知和任意的概率(例如,p(螺旋到链)=0.001)从一个状态到另一个状态变化,然后以概率(例如,p(蛋氨酸)=0.11)发射氨基酸。对于每个步骤,打印出状态和排放。然后,您可以观察后验概率接近每个站点的状态

你可以随意设置,因为当你运行你的HMM时,你应该收敛到合适的分布


祝你好运

你也可以问biostars:Pierre,谢谢你的建议。同时我也会这么做。