Statistics 二级结构预测的前向后算法_Statistics_Bioinformatics_Hidden Markov Models_Markov Chains

Statistics 二级结构预测的前向后算法

statistics

Statistics 二级结构预测的前向后算法,statistics,bioinformatics,hidden-markov-models,markov-chains,Statistics,Bioinformatics,Hidden Markov Models,Markov Chains,我想使用HMM（前向-后向模型）进行蛋白质二级结构预测基本上，使用了三态模型：态={H=α螺旋，B=β片，C=线圈} 每个状态的发射概率pmf为1乘以20（对于20种氨基酸）在前向-后向模型上使用序列的“训练集”后，期望最大化收敛于最优转移矩阵（三个状态之间的3×3）和每个状态的发射概率pmf 是否有人知道一个序列数据集（最好是非常小的），其中确定了转移矩阵和发射概率的“正确”值。我想使用Excel中的数据集应用向前向后算法，并建立信心，以确定是否可以得到相同的结果然后再看一些没有Exce

我想使用HMM（前向-后向模型）进行蛋白质二级结构预测

基本上，使用了三态模型：态={H=α螺旋，B=β片，C=线圈}

每个状态的发射概率pmf为1乘以20（对于20种氨基酸）

在前向-后向模型上使用序列的“训练集”后，期望最大化收敛于最优转移矩阵（三个状态之间的3×3）和每个状态的发射概率pmf

是否有人知道一个序列数据集（最好是非常小的），其中确定了转移矩阵和发射概率的“正确”值。我想使用Excel中的数据集应用向前向后算法，并建立信心，以确定是否可以得到相同的结果

然后再看一些没有Excel:o那么原始的东西。

最好的方法可能是根据您决定的分布生成您自己的模拟数据。然后运行程序，查看参数估计是否收敛到已知参数

在您的例子中，这将涉及到编写一个马尔可夫链，该链以某种已知和任意的概率（例如，p（螺旋到链）=0.001）从一个状态到另一个状态变化，然后以概率（例如，p（蛋氨酸）=0.11）发射氨基酸。对于每个步骤，打印出状态和排放。然后，您可以观察后验概率接近每个站点的状态

你可以随意设置，因为当你运行你的HMM时，你应该收敛到合适的分布

祝你好运

你也可以问biostars：Pierre，谢谢你的建议。同时我也会这么做。