R 将肽序列与蛋白质匹配

R 将肽序列与蛋白质匹配,r,R,我想把肽序列和给定的蛋白质序列匹配起来。每种蛋白质都有很多肽,其中一些也有重叠。对于输出,我希望有一个新的文件,它还告诉我序列在蛋白质中的位置。 蛋白质示例: sp | O00170 | AIP | U人类AH受体相互作用蛋白OS=智人GN=AIP PE=1 SV=2 Madiiarredgiqkrviqegrgelpdfqdgtkatfhyrtlhsddegtvlddsragkpm ELIIGKKKFKLPVETIVCTMREGEIAQFLCDIKHVVLYPLVAKSLRNIAVGKDPLE

我想把肽序列和给定的蛋白质序列匹配起来。每种蛋白质都有很多肽,其中一些也有重叠。对于输出,我希望有一个新的文件,它还告诉我序列在蛋白质中的位置。 蛋白质示例:

sp | O00170 | AIP | U人类AH受体相互作用蛋白OS=智人GN=AIP PE=1 SV=2 Madiiarredgiqkrviqegrgelpdfqdgtkatfhyrtlhsddegtvlddsragkpm ELIIGKKKFKLPVETIVCTMREGEIAQFLCDIKHVVLYPLVAKSLRNIAVGKDPLEGQRH CCGVAQMREHSSLGHALDALQNPQPLIFHMELKVESPGTYQDPWMTDEEKAKAVP lihqeggnrleghvkeaakakyydaiaclknlqmkeqpgspewiqqqqitplllnycqc Klvveeyevldhcsilnkyddnvkayfkrgkaaavwnaqeaqadfakvledpalap VVSRELQALEARIRQKDEEDKARFRGIFSH 该蛋白质的肽: Ahavwnaqeaqadfak

AVPLIHQEGNR

ehsslghadldalqnpqplifhmemlk

GELPDFQDGTK

NIAVGKDPLEGQR

RVIQEGRGELPDFQDGTK

TLHSDDEGTLDDSR

Vespgtyqdpwamtdeek

VLELDPLAPVSR

我想对很多蛋白质都这么做,有简单的解决方案吗


多谢各位

不确定您使用的是哪种语言,但在循环中进行简单的字符串搜索有什么问题


这是一个显而易见的解决方案,除非你必须在短时间内计算出一个淫秽的数字。(我猜想,如果你需要每秒超过200秒,那么你可能需要考虑一个更优化的算法。)

我忘了提一下,我想在RTET中这样做,然后运行它们。