English | 中文版 | 手机版 企业登录 | 个人登录 | 邮件订阅
当前位置 > 首页 > 技术文章 > 多肽从头测序的深度学习方法概述

多肽从头测序的深度学习方法概述

浏览次数:1318 发布日期:2024-6-11  来源:本站 仅供参考,谢绝转载,否则责任自负

在自下而上的质谱蛋白质组学研究中,来自复杂生物样品的蛋白质被酶解成多肽,然后经过多轮质谱分析生成谱图数据,解析每张MSn谱中的离子信息,从而得到准确的产生该谱的多肽氨基酸序列,便是质谱数据分析算法研究人员的使命。最初,我们通过手动注释单个MS2谱图来解析数据,费时费力,对解谱人员的要求也比较高。后来,Sakulai[1]Bartels[2]开发了早期的从头测序算法。在过去的几十年里,多肽从头测序算法已经有了很大的发展。如今,与许多其他领域一样,由于引入了深度学习方法,多肽从头测序方法也取得了跨越式进展。“深度学习”是指任何使用多层神经网络的机器学习算法[3]。这些方法通常具有大量的可训练参数,并且需要相应的大量训练数据。深度学习已成功应用于质谱蛋白质组学的各个领域,包括预测碎片离子强度[4-6],识别MS1数据中的多肽特征峰[7,8],对MS2谱图进行大规模嵌入和聚类[9],以及预测多肽理化性质[5,10-12]。2017年,滑铁卢大学的李明院士团队和BSI推出首个用于从头测序的深度学习方法DeepNovo[13],此后至少有22种其他深度学习方法衍生出来 (表1)。除了其优越的性能外,深度学习方法在质谱分析中得到迅速广泛应用可归因于三个因素:神经网络架构的出现非常适合质谱和多肽,硬件的发展(包括GPU)加速了神经网络的并行计算,以及训练这些模型所需的大规模公共数据的公开[14-17]

近日,来自华盛顿大学计算机科学与工程系的William Stafford Noble
教授团队发表了关于多肽从头测序的深度学习方法的综述,讨论了这些方法的特点,并概述该领域的一些主要应用与挑战。

表1 深度学习从头测序算法列表

(注:表1中引用编号为文献原文顺序)


不同的深度学习方法模型

随着深度学习的广泛应用,各种神经网络架构也已用于多肽从头测序。文中作者主要将其分为两大类进行讨论:卷积神经网络和Transformer模型。此外,文中还描述了两种使用深度学习对现有从头测序方法结果进行后处理的方法。

卷积神经网络模型

卷积神经网络(CNN)使用滑动窗口处理矢量输入,其中每个滑动窗口(即“filter”)学习识别数据中的独有特征 (图2a)。CNN在深度学习方法的出现中发挥了重要作用,部分原因是它提供了强大而通用的模式识别能力,部分原因是它的计算可以通过GPU实现高效运行。首个用于多肽从头测序的深度学习模型DeepNovo[13]采用了两个并行模型的迭代解码过程。根据训练数据的分辨率,使用大小为0.1或0.01 m/z的bin,将训练集中的每张谱图从m/z轴上分割,转换为向量。这些向量与预测的prefix整合,产生一个维度为128×26×8×10的张量,其中128是batch size,26是氨基酸种类数(包括翻译后修饰[PTMs]), 8是离子类型种类数(包括b/y离子以及各种中性损失),10是每个目标离子周围提取的m/z bin的数量。然后,这个张量经过第一个模型ion-CNN处理,谱图和预测的peptide prefix作为输入数据,用来预测下一个氨基酸。第二个模型是一种被称为“长短期记忆”(LSTM)网络的递归神经网络(RNN)模型[18],以类似于ion-CNN的方法迭代地预测谱图中可能存在的氨基酸。

在解码过程中,ion-CNN和LSTM通过一个单一的、全连接的神经网络层进行连接,该神经网络层输出一个26维对数概率向量(logits)。DeepNovo还采用了动态规划后处理器,该后处理器使用预测logits和knapsack算法来确保预测多肽的质量数落在实际检测的母离子容许误差范围内。作为该领域的首个深度学习方法,DeepNovo论文被随后其他多肽从头测序的论文广泛引用(图1)

图1 de novo测序方法引用网络图

DeepNovo-DIA[2]DeepNovo模型推广到DIA数据的从头测序分析。该模型的核心类似于DeepNovo,包括ion-CNN、spectrum-CNNLSTM。主要区别在于,由于DIA数据可以沿着时间轴组织,并且包含有关给定分析物的多个相邻扫描信息,因此DeepNovo-DIA的预处理步骤涉及检测3D碎片离子特征和2D母离子特征。在实际应用时,需要首先使用外部工具处理DIA MS1数据以提取母离子特征,然后通过DeepNovo-DIA模型对每个特征进行预测。

此外,诸如SMSNet、RANovo、PepNet和BiATNovo等算法模型也是借鉴了与DeepNovo类似的思路。

Transformer模型
另一种多肽从头测序的模型是Transformer架构(图2b)。Transformer最初是为自然语言处理而开发的,例如语言翻译 [19]。Transformer可以处理不固定长度的输入,且模型体系结构与输入信息的顺序无关。因此,通常需要对每个输入对象的位置进行编码,并将这些编码的位置与标记本身一起提供。这样就可以消除离散质谱m/z轴的相应问题。此外transformer的另一个关键特征是能够自动学习输入特征对之间的重要语义关系。因此,transformer模型已经在DNA和蛋白质序列的建模领域获得了成功应用

Casanovo[20]使用transformer架构将从头测序视为序列到序列的翻译任务,将MS2谱图中的一系列峰翻译为一系列氨基酸。该模型包括一个编码器和一个解码器。编码器学习输入MS2谱图的上下文表示,而解码器根据谱图信息和先前预测的氨基酸预测多肽序列中的下一个氨基酸。与其他深度学习模型一样,Casanovo每次预测多肽序列的一个氨基酸,最终寻找得分最高的预测序列[21]。ContraNovo[22]、π-HelixNovo[23]、NovoB[24]、AdaNovo[25]、InstaNovo[26]、Cascadia[27]均采用了类似Casanovo的架构,各自加入了不同的特征。

DPST[28]引入了一组归纳偏差来限制search space。首先,它在贝叶斯环境中重构了从头测序任务,其中氨基酸后验概率是根据谱图信息和先验氨基酸预测的。将较高的先验概率给予氨基酸,使母离子质量与动态规划计算的预期多肽质量之间的差异最小。其次,DPST编码器根据其与相邻峰的一致性为每个峰分配置信值,优先考虑编码谱中氨基酸质量分开的峰。

GraphNovo[29]包括三个阶段的处理。首先,将观测到的谱图转换成图,其中节点对应峰,边表示峰与峰之间的质量关系。该图随后由两个网络依次处理:GraphNovo-PathSearcher和GraphNovo-SeqFiller。前者根据边缘编码的质量差产生与部分肽预测和未解析质量标签对应的最优节点序列,后者输出完整氨基酸序列。两种网络都采用了六层Graphormer[30]编码器架构,该架构将tranformer和图形神经网络结合在一起。

Transformer-DIA[31]是在DeepNovo-DIA上进行扩展的,用transformer自关注计算层取代了谱图编码器中的卷积层。在提取与DeepNovo-DIA相同的MS1 profile和理论碎片离子阵列后,该模型使用位置嵌入对连续MS2扫描的时间信息进行编码,从而允许LSTM解码被标准transformer解码层所取代。此外,Transformer-DIA还包括一个类似于Casanovo所采用的beam search解码程序。

图2 Transformer模型示意图
 

其他模型

PointNovo[32]是DeepNovo同一团队在其基础上衍生的新架构。PointNovo的主要创新在于消除了离散谱图m/z轴的依赖,从而使模型能够利用高质量精度的数据,而无需占用大量内存。DeepNovo使用长度为150,000的输入向量来表示谱图,而PointNovo则将每张谱图表示为一组(m/z,intensity)对。该模型采用了一种新颖的体系结构,该结构使用了PointNet体系结构[56]的思想,旨在以一种顺序不可知的方式处理一组这样的元组。与DeepNovo不同,PointNovo的LSTM成分是可选的,尽管经验结果表明,包括LSTM往往会提供更高质量的预测结果。PGPointNovo[33]是PointNovo的改进版,支持在多个GPU上并行处理。

还有一些其他模型,如DEPS[34]使用类似于PointNovo的架构,做了一些性能提升。Denovo-GCN[35]是类似于DeepNovo的模型架构。SeqNovo[36]使用由编码器和解码器组成的RNN架构[37]



数据后处理方法
文章中讨论了两种对现有从头测序方法的输出结果进行后处理的深度学习方法。
pNovo 3算法[38]通过使用深度学习模型对给定的de novo预测数据集进行重新排序。该方法建立在pNovo+[39]的基础上,pNovo+使用基于谱图的算法进行从头测序。在pNovo 3中,前10个预测的候选肽被保留并作为输入数据提供给pDeep深度学习模型,该模型预测碎片离子强度[40]。基于pDeep输出一组特征向量,并使用其来训练支持向量机(SVM)用作排序[41]。训练模型的最终输出结果是得分最高的候选肽。

Spectralis[42]模型旨在通过“bin分类”的辅助任务来对给定的从头测序预测结果进行优化。Spectralis模型利用现有的从头预测方法(Casanovo和Novor)做出的预测,将其转化为更准确的预测。其中作者还提出了一种方法,Spectralis-score,用于使用机器学习后处理器重新校准Novor和Casanovo的分数。

算法性能评估标准
许多从头测序方法借用了precision(精度)recall(召回率)的概念,但附加了一些特殊的定义。尤其是由于de novo测序不是一个二元分类任务,因此传统的真阳性(TP)、假阳性(FP)、真阴性(TN)和假阴性(FN)分类并不适用。对于de novo,只有三种分类:高于阈值的预测为“正确”或“不正确”,低于阈值的预测为“不可预测”(图3a)。使用这些分类方法,我们可以做出如下新的定义:

(C 是正确预测的谱图数量,I是不正确预测的谱图数量,U是不可预测的谱图数量)

这种precision(精度)的替代定义与来自二进制分类设置的传统定义一致,后者是分数大于指定分数阈值的预测的正确比例。然而,recall(召回率)的定义则不同。在二元分类设置中,“召回率”是带有正确标签的样本被正确预测为正的比例,新的定义是被正确预测的全部样本的比例。因此,使用替代定义的precision-recall曲线与传统precision-recall曲线有质的不同。特别是,当阈值移动到排名列表的最末尾时,U的值变为零,此时精度和召回率相等。因此,采用上述替代定义的precision-recall曲线终止于x = y线,而传统的precision-recall曲线终止于x = 1, y等于数据集中阳性预测的比例(图3b)。

为了避免这种术语混淆,一些从头测序的研究采用了precision-coverage曲线,其中precision的定义如上所述,但coverage的定义是分数大于某个阈值的预测的比例,而不管预测是否正确, 这样生成的曲线总是终止于x = 1(图3C)。

图3 肽段召回率和覆盖度曲线
 

DeepNovo原始论文中使用的九种基准数据集,采用的是统计在特定精度阈值(95%或99%)下正确预测的谱图数量的方法[13]。该基准在随后的研究中被广泛使用[43-46,23-25,47-48]。然而存在的问题是,这种简单的谱图水平分类方法并不能确保训练集中的多肽序列不会出现在测试集中。因此,如果机器学习算法“记忆”了训练集中序列的特征,那么在处理测试集中相同肽段产生的谱图时,就会带来不公平的优势。为了避免这个问题,一些研究选择了多肽水平的分类,从而防止序列信息从训练集泄漏到测试集。但是这种情况不考虑PTMs,因为同一条肽段的修饰谱与非修饰谱极为相似。
然而,即使在多肽水平考虑,如果训练集和测试集都包含由同一多肽产生的谱图,也难以避免会产生算法“记忆”导致的偏好。因此,适当的训练/测试设置应确保训练集和测试集在任何一种意义上都不重叠。


不同算法性能比较
表1列举了23种深度学习多肽从头测序的方法,那问题是“哪种方法效果最好?”然而,由于不同的算法使用的评估指标、训练数据集、测试数据集等都不尽相同,没办法绝对的说哪个好,哪个不好,只能说在不同的场景下,哪种方法更适合。例如,具有数百万个参数的模型在数百万个PSMs规模上训练时可能表现最佳,而在相对较小的数据集上训练时就不如人意了。此外,如AdaNovo[25],其重点是改进PTM预测,可能只有在相应的数据集中才能得到较好的预测效果。

在实践中,每项研究通常都会与少数其他方法进行比较,从图1中的引用图便可看出。显然系统的基准研究才更有意义,其中所有模型都在相同的数据上进行训练,并在具有明确定义的度量的独立测试数据上进行评估。下面列举两项外部数据上评估从头测序方法的研究。

首先,Beslic等[49]比较了Novor、pNovo3、DeepNovo、SMSNet、PointNovo和Casanovo在抗体发现从头测序分析上的表现。为了避免使用不同的训练数据集造成的偏差,他们首先在MassIVE-KB人类谱图库上重新训练了上述6种模型 [50]。通过对人类和小鼠抗体数据的评估,结果显示,Casanovo和PointNovo在不同酶和数据集上显示出更高的肽段召回率

第二项研究中,Tran等人[51]在人类酶切、人非酶切、拟南芥,HLA-I型和Prosit生成的模拟数据的5个数据集上评估了PEAKS、PointNovo、Casanovo和GraphNovo。与之前的基准测试工作相反,不对模型进行重新训练,而是直接使用。因为所有工具最初都是在人类数据上进行训练的,所以它们在人类测试数据上也取得了最好的预测结果。然而,当对拟南芥数据进行评估时,性能有所下降,表明测试集与训练集完全不同时,算法上还是存在一些不通用性的。总的来说,Casanovo和GraphNovo在所有评估数据集中都取得了最佳的预测效果

深度学习从头测序方法的应用
由于许多从头测序方法都是近几年发表的,所以应用范围并不是很广,然而,表1列举的方法中,也有几种相对来说具有比较明确的应用方向。其中,DeepNovo应用最为广泛。DeepNovo方法及其后续方法PointNovo已被纳入商业软件PEAKS中,表2列举的应用案例中的大多数都使用了PEAKS。在表2所有27项应用案例中,最常见的应用是检测新生抗原和非典型抗原,其次是抗体测序,毒液蛋白组和宏蛋白质组。其次,还有些研究通过从头测序研究短肽。随着该领域软件工具质量的不断提升,未来,de novo测序的应用可能会扩展到其他领域。

表2 深度学习从头测序方法的主要应用

(注:表2中引用编号为文献原文顺序)


挑战
如上所述,从头测序领域的一个关键挑战是对现有方法结果的合理评估。理想的性能评估方案应该包括将从头测序算法的预测与实际生成谱图的多肽序列进行比较。但在实践中,不可能对所有谱图都一一进行评价。以下是几种可供参考的评价方法。
第一种是使用ProteomeTools等数据库中的合成多肽谱图进行比较[52]。这种方法可以很明确的鉴定采集到的谱图,但是由于数据本身不是来自复杂样本,因此会比自然生物样本的噪音低很多。尽管如此,合成肽的数据也已被多种从头测序方法采用进行模型训练[53]

第二种方法是应用最广泛的,即使用搜库的方式将多肽与采集到的谱图进行匹配,然后将这些匹配结果作为基础事实。该方法成功的关键在于,采用严格的统计方法来控制搜库结果的错误发现率(FDR)[54-55]。通常,用于从头测序方法训练和验证的数据集在PSM水平设定1% FDR阈值。然而,数据库搜索仍然可能会导致错误的肽段标签。例如,九种基准数据最初没有考虑到错误分配的同位素峰[13],导致从谱图中错误地识别了脱酰胺肽,因为采用了第一个同位素峰而不是使用单同位素峰作为母离子的m/z(图4),这个错误已经得到了修正。因此,使用最新的谱图注释方法产生尽可能高质量的训练数据尤为重要。

图4 错误的肽段标签

此外,作者在一系列不同质量的数据集上评估了预训练的Casanovo模型,每个数据集包含20,000张谱图。结果如图5,模型的表观性能如何取决于用于评估的数据的质量:随着总离子强度的降低,肽段平均精度变化从0.99也随之降到0.84,再到0.37。如果采用不同质量的数据集进行训练,这种现象应该会更加明显。

图5 高质量PSMs预测更准确

第三种方法是使用FDR的统计方法,这也是评估数据库搜索算法的标准方法。比如,如果在固定的FDR阈值(例如1%)下,A从同一组谱图中检测到比B更多的肽,则认为方法A比方法B更好。但目前,还没有成熟的用于从头测序结果的FDR评估方法,开发新的FDR方法是该领域最关键的挑战之一。不久前,Tran等[50]提出来一种解决方案。

评估从头测序方法的另一个挑战是嵌合谱的存在,以一种全新的方式预测嵌合谱是具有挑战性的,而评估这种预测则更加复杂。另一个重要的复杂因素是PTMs。为了包括新的PTMs和扩展氨基酸字母表,大多数从头测序工具必须完全重新训练,纳入包括这些新的PTMs的额外数据。然而许多与生物学相关的PTMs含量低且为可变的,就导致很难收集到足够的训练数据。识别包含多种PTMs的多肽仍然是深度学习从头测序工具的一个巨大挑战。

目前,深度学习从头测序的方法通常以自回归的方式生成肽,按顺序预测每个氨基酸。这种方法存在的问题是如果前序氨基酸发生了预测错误,无法进行纠正,或者长肽中存在不连续碎片峰时无法进行预测,并且由于自回归解码不能并行化,因此计算效率很低。

最后,在对新工具进行评价时,一个经常被忽视的方面是基准测试的实际实施,特别是涉及到对相同数据的再训练时。为了确保每个模型的最佳训练条件,训练过程可能需要针对这个特定的数据集进行调整。另外,原始方法提出的默认超参数可能不是最优的,导致性能降低并影响基准测试结果。

尽管这个领域面临着许多挑战,但都是可以通过算法的进步逐一克服的。自DeepNovo引领性论文发表以来,这一领域的发展相当迅速。随着新的机器学习策略、越来越多的公开可用数据和质谱仪器的性能提升,从头测序工具的使用将变得更加普遍,使许多具有挑战性或不可能进行的分析成为可能。

彩蛋
如上所述,多肽从头测序的各种方法通常是用一些简单的指标来评估测序结果,但这些指标并不能完全反映它们的总体性能。而迄今为止,还没有一种方法可以用来评估de novo PSM的错误发现率(FDR)和显著性。针对这一局限,BSI开发了全面的NovoBoard模型框架,来评估de novo sequencing方法的性能。该框架涵盖了不同的基准数据集(包括酶切、非酶切、免疫肽组学和不同物种数据),以及一套用于de novo结果碎片离子、氨基酸和肽段准确度的评估标准。更重要的是,NovoBoard创新性地基于target-decoyde novo peptide sequencing方法进行评估,并计算其FDR。我们综合评估了PEAKS de novo、PointNovo、CasanovoGraphNovo方法在特定应用场景和数据类型下的性能,结果表明,GraphNovo总体表现优于其他方法。Novoboard方法文章已上线Biorxiv。

什么,算法太复杂了看不懂?不用担心,我们已将相关算法应用到最新的PEAKS 12系列软件中,只需将待分析的数据提交给PEAKS,分析完直接看结果就好啦,并且可以借助PEAKS优秀的可视化界面对谱图进行手动校验。欲了解软件详情或者申请软件试用,可通过如下联系方式咨询我们~。

参考文献

1. Sakurai, T., Matsuo, T., Matsuda, H., Katakuse, I. Paas 3: A computer program to determine probable sequence of peptides from mass spectrometric data. Biomedical mass spectrometry 1984, 11, 396–399.
2. Bartels, C. Fast algorithm for peptide sequencing by mass spectroscopy. Biomed. Environmental Mass Spectrometry 1990, 19, 363–368.
3. Y, L., Bengio, Y., nature, H. .-. G. Deep learning. nature 2015, DOI: 10.1038/nature14539
4. Zhou, X., Zeng, W., Chi, H., Luo, C., et al. pDeep: predicting MS/MS spectra of peptides with deep learning. Analytical Chemistry 2017, 89, 12690–12697.
5. Gessulat, S., Schmidt, T., Zolg, D. P., Samaras, P., et al. Prosit: proteome-wide prediction of peptide tandem mass spectra by deep learning. Nature Methods 2019, 16, 509.
6. Tiwary, S., Levy, R., Gutenbrunner, P., Soto, F. S., et al. High-quality MS/MS spectrum prediction for data-dependent and data-independent acquisition data analysis. Nature Methods 2019, 16, 519–525.
7. Zohora, F. T., Rahman, M. Z., Tran, N. H., Xin, L., et al. DeepIso: a deep learning model for peptide feature detection from LC-MS map. Scientific Reports 2019, 9, 17168.
8. Zohora, F. T., Rahman, M. Z., Tran, N. H., Xin, L., et al. Deep neural network for detecting arbitrary precision peptide features through attention based segmentation. Scientific Reports 2021, 11, 18249.
9. Bittremieux, W., May, D. H., Bilmes, J., Noble, W. S. A learned embedding for efficient joint analysis of millions of mass spectra. Nature Methods 2022, 19, 675–678.
10. Bouwmeester, R., Gabriels, R., Hulstaert, N., Martens, L., et al. DeepLC Can Predict Retention Times for Peptides That Carry As-yet Unseen Modifications. Nature Methods 2021, 18, 1363–1369.
11. Plante, P.-L., Francovic-Fontaine, ´E., May, J. C., McLean, J. A., et al. Predicting Ion Mobility Collision Cross-Sections Using a Deep Neural Network: DeepCCS. Analytical Chemistry 2019, 91,5191–5199.
12. Meier, F., K¨ohler, N. D., Brunner, A.-D., Wanka, J.-M. H., et al. Deep Learning the Collisional Cross Sections of the Peptide Universe from a Million Experimental Values. Nature Communications 2021,12, 1185.
13. Tran, N. H., Zhang, X., Xin, L., Shan, B., et al. De novo peptide sequencing by deep learning. Proceedings of the National Academy of Sciences of the United States of America 2017, 31, 8247–8252.
14. Perez-Riverol, Y., Csordas, A., Bai, J., Bernal-Llinares, M., et al. The PRIDE database and related tools and resources in 2019: improving support for quantification data. Nucleic Acids Res 2019, 47, D442–D450.
15. Wang, M., Wang, J., Carver, J., Pullman, B. S., et al. Assembling the Community-Scale Discoverable Human Proteome. Cell Systems 2018, 7, 412–421.e5.
16. Deutsch, E. W., Bandeira, N., Sharma, V., Perez-Riverol, Y., et al. The ProteomeXchange Consortium in 2020: Enabling ’Big Data’ Approaches in Proteomics. Nucleic Acids Research 2019, 48,D1145–D1152.
17. Zolg, D. P., Wilhelm, M., Schnatbaum, K., Zerweck, J., et al. Building ProteomeTools Based on a Complete Synthetic Human Proteome. Nature Methods 2017, 14, 259–262.
18. Hochreiter, S., Schmidhuber, J. Long short-term memory. Neural computation 1997, DOI: 10.1162/neco.1997.9.8.1735.
19. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., et al. Attention Is All You Need. Advances in Neural Information Processing Systems 2017, 30.
20. Yilmaz, M., Fondrie, W. E., Bittremieux, W., Oh, S., et al. Proceedings of the International Conference on Machine Learning, 2022, pp 25514–25522.
21. Yilmaz, M., Fondrie, W. E., Bittremieux, W., Nelson, R., et al. Sequence-to-sequence translation from mass spectra to peptides with a transformer model. bioRxiv 2023, DOI: 10.1101/2023.01.03.522621.
22. Jin, Z., Xu, S., Zhang, X., Ling, T., et al. ContraNovo: A Contrastive Learning Approach to Enhance De Novo Peptide Sequencing. arXiv preprint arXiv:2312.11584 2023.
23. Yang, T., Ling, T., Sun, B., Liang, Z., et al. Introducing π-HelixNovo for practical large-scale de novo peptide sequencing. Briefings in Bioinformatics 2024, 25, bbae021.
24. Lee, S., Kim, H. Bidirectional de novo peptide sequencing using a transformer model. PLOS Computational Biology 2024, 20, e1011892.
25. Xia, J., Chen, S., Zhou, J., Lin, T., et al. AdaNovo: Adaptive De Novo Peptide Sequencing with Conditional Mutual Information, arXiv:2043.07013v1, 2024.
26. Eloff, K., Kalogeropoulos, K., Morell, O., Mabona, A., et al. De novo peptide sequencing with InstaNovo: Accurate, database-free peptide identification for large scale proteomics experiments. bioRxiv 2023, 2023–08.
27. Sanders, J., Oh, S., Noble, W. S. A transformer model for de novo sequencing of data-independent acquisition mass spectrometry data, Manuscript in preparation.
28. Yang, Y., Hossain, Z., Asif, K., Pan, L., et al. DPST: de novo peptide sequencing with amino-acidaware transformers. arXiv preprint arXiv:2203.13132 2022.
29. Mao, Z., Zhang, R., Xin, L., Li, M. Mitigating the missing fragmentation problem in de novo peptide sequencing with a two stage graph-based deep learning model. Nature Machine Intelligence 2023, 5.
30. Ying, C., Cai, T., Luo, S., Zheng, S., et al. Advances in Neural Information Processing Systems,Curran Associates, Inc.: 2021; Vol. 34, pp 28877–28888.
31. Ebrahimi, S., Guo, X. Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry. arXiv preprint arXiv:2402.11363 2024.
32. Qiao, R., Tran, N. H., Xin, L., Chen, X., et al. Computationally instrument-resolution-independent de novo peptide sequencing for high-resolution devices. Nature Machine Intelligence 2021, 3, 420–425.
33. Xu, X., Yang, C., He, Q., Shu, K., et al. PGPointNovo: an efficient neural network-based tool for parallel de novo peptide sequencing. Bioinformatics Advances 2023, 3.
34. Ge, C., Lu, Y., Qu, J., Xie, L., et al. DePS: an improved deep learning model for de novo peptide sequencing. arXiv preprint arXiv:2203.08820 2022.
35. Wu, R., Zhang, X., Wang, R., Wang, H. Denovo-GCN: De Novo Peptide Sequencing by GraphConvolutional Neural Networks. Applied Sciences 2023, 13.
36. Wang, K., Zhu, M., Boulila, W., Driss, M., et al. SeqNovo: De Novo Peptide Sequencing Prediction in IoMT via Seq2Seq. IEEE Journal of Biomedical and Health Informatics 2023.
37. Cho, K., Van Merri¨enboer, B., Gulcehre, C., Bahdanau, D., et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078 2014.
38. Yang, H., Chi, H., Zeng, W., Zhou, W., et al. pNovo 3: precise de novo peptide sequencing using a learning-to-rank framework. Bioinformatics 2019, 35, i83–i90.
39. Chi, H., Chen, H., He, K., Wu, L., et al. pNovo+: de novo peptide sequencing using complementary HCD and ETD tandem mass spectra. Journal of Proteome Research 2013, 12, 615–625.
40. Zhou, X., Zeng, W., Chi, H., Luo, C., et al. pDeep: predicting MS/MS spectra of peptides with deep learning. Analytical Chemistry 2017, 89, 12690–12697.
41. Joachims, T., Finley, T., Yu, C.-N. J. Cutting-plane training of structural SVMs. Machine learning 2009, 77, 27–59.
42. Klaproth-Andrade, D., Hingerl, J., Bruns, Y., Smith, N. H., et al. Deep learning-driven fragment ion series classification enables highly precise and sensitive de novo peptide sequencing. Nature Communications 2024, 15, 151.
43. Liu, Z., Zhao, C. 2020 16th International Conference on Control, Automation, Robotics and Vision (ICARCV), 2020, pp 1165–1170.
44. Wu, S., Luan, Z., Fu, Z., Wang, Q., et al. BiATNovo: A Self-Attention based Bidirectional Peptide Sequencing Method. bioRxiv 2023, 2023–05.
45. Yilmaz, M., Fondrie, W. E., Bittremieux, W., Oh, S., et al. Proceedings of the International Conference on Machine Learning, 2022, pp 25514–25522.
46. Yang, Y., Hossain, Z., Asif, K., Pan, L., et al. DPST: de novo peptide sequencing with amino-acidaware transformers. arXiv preprint arXiv:2203.13132 2022.
47. Ebrahimi, S., Guo, X. Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry. arXiv preprint arXiv:2402.11363 2024.
48. Qiao, R., Tran, N. H., Xin, L., Chen, X., et al. Computationally instrument-resolution-independent de novo peptide sequencing for high-resolution devices. Nature Machine Intelligence 2021, 3, 420–425.
49. Beslic, D., Tscheuschner, G., Renard, B. Y., Weller, M. G., et al. Comprehensive evaluation of peptide de novo sequencing tools for monoclonal antibody assembly. Briefings in Bioinoformatics 2022, Advance online access.
50. Wang, M., Wang, J., Carver, J., Pullman, B. S., et al. Assembling the Community-Scale Discoverable Human Proteome. Cell Systems 2018, 7, 412–421.e5.
51. Tran, N. H., Qiao, R., Mao, Z., Pan, S., et al. NovoBoard: a comprehensive framework for evaluating the false discovery rate and accuracy of de novo peptide sequencing. bioRxiv 2024, 2024–04.
52. Zolg, D. P., Wilhelm, M., Schnatbaum, K., Zerweck, J., et al. Building ProteomeTools Based on a Complete Synthetic Human Proteome. Nature Methods 2017, 14, 259–262.
53. Karunratanakul, K., Tang, H.-Y., Speicher, D. W., Chuangsuwanich, E., et al. Uncovering Thousands of New Peptides with Sequence-Mask-Search Hybrid De Novo Peptide Sequencing Framework. Molecular and Cellular Proteomics 2019, 18, 2478–2491.
54. Elias, J. E., Gygi, S. P. Target-decoy search strategy for increased confidence in large-scale protein identifications by mass spectrometry. Nature Methods 2007, 4, 207–214.
55. Lin, A., See, D., Fondrie, W. E., Keich, U., et al. Target-decoy false discovery rate estimation using Crema. Proteomics 2023, 2300084.
56. Qi, C. R., Su, H., Mo, K., Guibas, L. J. Proceedings of the IEEE Conference On Computer Vision and Pattern Recognition, 2016, pp 652–660.
 


-扫码关注-

www.bioinfor.com (EN)
www.deepproteomics.cn(CN)

作为生物信息学的领军企业,BSI专注于蛋白质组学和生物药领域,通过机器学习和先进算法提供世界领先的质谱数据分析软件和蛋白质组学服务解决方案,以推进生物学研究和药物发现。我们通过基于AI的计算方案,为您提供对蛋白质组学、基因组学和医学的卓越洞见。旗下著名的PEAKS®️系列软件在全世界拥有数千家学术和工业用户,包括:PEAKS®️ Studio,PEAKS®️ Online,PEAKS®️ GlycanFinder, PEAKS®️ AB,DeepImmu®️免疫肽组发现服务和抗体综合表征服务等。
联系方式:021-60919891;sales-china@bioinfor.com

 

来源:百蓁生物科技(上海)有限公司
联系电话:021-60919881
E-mail:sales-china@bioinfor.com

用户名: 密码: 匿名 快速注册 忘记密码
评论只代表网友观点,不代表本站观点。 请输入验证码: 8795
Copyright(C) 1998-2025 生物器材网 电话:021-64166852;13621656896 E-mail:info@bio-equip.com