PEAKS SPIDER算法在同源突变分析的应用
浏览次数:965 发布日期:2023-8-4
来源:本站 仅供参考,谢绝转载,否则责任自负
生物样品中的蛋白质序列通常和数据库中相应的蛋白序列有略微差异,这些差异很多是由蛋白多态性、抗体多样性、数据库误差、跨物种数据库搜索等造成的。序列突变信息的缺失则很可能漏掉潜在的biomarker、抗体确认时引入错误、甚至蛋白质会有较低的覆盖率。对于这些问题,PEAKS SPIDER模块设计用于检测序列的突变信息并进行跨物种的同源搜索。
概览// Overview
PEAKS SPIDER算法将de novo sequence tag和database protein进行匹配,发现序列之间存在显著性的相似,算法则通过从头测序错误和同源肽段序列突变来解释这个差异(Figure1)。更具体说是重建一个”real sequence”,使得正确序列和de novo结果之间的从头测序错误、正确序列和数据库蛋白序列的同源多肽突变,这二者的总和最小化。
Q:为什么不用BLAST?
A:常规的同源搜索工具比如BLAST并不是搜索de novo sequence tags的好的选择。由于肽段的MS/MS谱中缺失一些片段离子导致可能发生从头测序错误的现象是很常见的。因此,对于合适的de novo tag的同源搜索,要有如(AT/TA)和 (N/GG) 这样的测序容错。BLAST出于不同的考虑,会拒绝掉错误太多的情况,可能显著降低了搜索灵敏度。另外,BLAST也不会进行真实肽段序列的重建。
除了明显的突变检测和跨物种搜索功能外,SPIDER另外一个非常有用的应用是可以迭代地使用它来进行一个完整蛋白质的测序(如抗体测序),通过以下步骤实现:
- 使用PEAKS标准workflow (de novo + PEAKS DB + PEAKS PTM + SPIDER)进行同源数据库搜索,可以鉴定同源蛋白质。
- 然后再覆盖窗口中选择工具“copy mutated protein sequence”,这样可以把突变的蛋白质序列(after applying the confident mutations)复制到Windows剪贴板上。
- 通过粘贴复制的序列作为蛋白质数据库调用另一个标准搜索。
- 多次重复以上步骤,逐步提高序列质量。
References
1.Han, Y., Ma, B., Zhang, K. SPIDER: Software for Protein Identification from Sequence Tags Containing De Novo Sequencing Error. Journal of Bioinformatics and Computational Biology. 3(3):697-716. 1/6/2005.
2.Ma, B. & Johnson, R. De novo Sequencing and Homology Searching. Molecular & Cellular Proteomics. 11(2). 1/2/2012.
(点击图片即可查看活动详情)
如果您想深入了解更多关于PEAKS 软件更多内容,欢迎扫描下方二维码关注我们!