String 比较和可视化序列组

String 比较和可视化序列组,string,matlab,sequence,markov-chains,edit-distance,String,Matlab,Sequence,Markov Chains,Edit Distance,我有两组字母“AGTE”的字符串A和B,我想找到一些方法来比较它们,看看它们在统计上是否相似。第一组A是真实世界的观测,B是预测。每组大约有400人 **A** GTAATEGTTTEAAA TTEAGE ... **B** AGTEAAAAGT TAT GGATEAATGGGTEAATG .... 我也希望能够以某种方式将其可视化,真正用于演示目的。你知道我怎么做吗?我建议你计算字符串之间的距离,然后你可以绘制这些字符串之间的距离。值越大表示字符串越不相似 如果您不想自己实现Levensh

我有两组字母“AGTE”的字符串AB,我想找到一些方法来比较它们,看看它们在统计上是否相似。第一组A是真实世界的观测,B是预测。每组大约有400人

**A**
GTAATEGTTTEAAA
TTEAGE
...

**B**
AGTEAAAAGT
TAT
GGATEAATGGGTEAATG
....

我也希望能够以某种方式将其可视化,真正用于演示目的。你知道我怎么做吗?

我建议你计算字符串之间的距离,然后你可以绘制这些字符串之间的距离。值越大表示字符串越不相似


如果您不想自己实现Levenshtein距离计算,请查看文件交换。

'diff'?你能详细说明一下吗?我知道你在mathematica工作,但是diff工具()似乎很合适。有趣的建议。不过我正在使用Matlab。。。是什么让你对mathematica印象深刻?呃,是的,数学方面的事情之一。不过,您可以将数据导出到一组常规的文本文件中,并对其运行diff。我一定会检查一下。有没有关于视觉化的想法?我想以某种方式用图形表示序列组。。。你知道如何快速了解它们的样子。我相信一定有办法显示那样的DNA序列……谢谢你的建议。我的序列在文件中是随机排列的,因此在单独的行之外不存在任何结构。所以类似的Levenstein.m文件可能会有用。基本上我观察了一系列的序列并记录下来。然后通过一个模型复制这些序列,并想比较序列组,看看它们是否相似。我还在
R
中发现了
coda
,这似乎是一种可能性。你怎么认为?