English | 中文版 | 手机版 企业登录 | 个人登录 | 邮件订阅
当前位置 > 首页 > 技术文章 > 生物学家的机器学习基本术语和基本流程介绍

生物学家的机器学习基本术语和基本流程介绍

浏览次数:382 发布日期:2024-12-12  来源:本站 仅供参考,谢绝转载,否则责任自负

在生命科学领域,生物学研究与机器学习的融合正成为推动科学拓展的关键力量。面对海量的生物数据,传统方法往往显得力不从心。而机器学习技术,以其卓越的数据分析能力和模式识别优势,极大地提高了数据处理的效率,为生物学研究带来革命性的变化。本系列将分期介绍机器学习的定义、执行流程、关键概念术语和各种学习模型,包括传统模型与神经网络模型,帮助各位老师使用这种工具来挖掘生物学新发现。

01 什么是机器学习?

机器学习和人类认识事物的学习过程有相似之处。人类通过观察周围的世界并学会预测接下来可能发生的事情来理解这个世界。比如,一个孩子学习接球时,通常不了解支配球运动的物理定律。但是,通过观察和尝试,孩子逐渐调整对球运动的理解和身体的动作,最终能够可靠地接住球。换句话说,孩子通过构建一个足够准确的“模型”来学习接球,这个模型是通过对数据的反复测试和修正而建立的。

img1

图1.人类学习vs机器学习

机器学习是一种通过拟合预测模型或识别数据中的模式来处理数据的技术。它试图模仿人类认识新事物的能力,但以一种客观的方式,利用计算实现。当数据集太大或太复杂,无法通过人工分析时,或者当需要自动化数据分析过程以提高效率时,机器学习特别有用。生物实验数据通常具有这些特点,因此机器学习在生物学研究中变得越来越重要。

在生物学研究中使用机器学习,一般有两个主要目标:
1)准确预测:在缺乏实验数据时,通过机器学习做出准确预测,指导未来的科研工作;
2)理解生物过程:利用机器学习深入理解生物现象。


02 机器学习的基本术语

我们首先介绍机器学习中的基本术语,并通过生物学中的例子来说明这些概念。


1.数据集
由多个数据点或实例组成,每个数据点可以看作是一个实验的单次观测。


2.特征
每个数据点由固定数量的特征描述,例如长度、时间、浓度和基因表达水平。


3.机器学习任务
是对我们希望机器学习模型完成的目标的明确定义。例如,在研究基因随时间变化的实验中,我们希望预测特定代谢物转化为另一种物质的速率。在这种情况下,“基因表达水平”和“时间”可以称为输入特征,而“转化率”则是模型的输出,即我们感兴趣的预测值。模型可以有任意数量的输入和输出特征。特征可以是连续的(连续数值)或分类的(离散值),分类特征通常是二元的,要么为真(1),要么为假(0)。


03 机器学习的基本流程

训练机器学习模型时一般应采取以下步骤。首先,在接触任何机器学习模型和代码之前,研究者应该是完全理解手头的数据(输入)和预测任务(输出)。这意味着研究者对研究问题有深入的生物学理解,比如了解数据的来源和噪声源,并对如何根据生物学原理从输入理论上预测输出有一个概念。举例说明,如果任务是推断不同的氨基酸可能对特定的蛋白质二级结构有偏好,那么从蛋白质序列中每个位置的氨基酸频率来预测二级结构是有道理的。此外,研究者还需要知道输入和输出是如何在计算机存储的。它们是否被归一化以防止某一特征对预测产生过大的影响?它们是被编码为二进制变量还是连续变量?是否存在重复条目?是否有缺失的数据元素?

接下来,数据应该被分割以允许训练、验证和测试。训练集用于直接更新正在训练的模型参数。验证集通常占可用数据的约10%,用于监控训练、选择超参数并防止模型过度拟合训练数据。验证时通常使用k倍交叉验证方法:训练集被分成k个大小相等的部分(例如,5或10个部分),形成k个不同的训练和验证集,然后在每个部分之间比较性能以选择最佳超参数。测试集,有时称为“保留集”,通常也占可用数据的约10%,用于评估模型在未用于训练或验证的数据上的表现(即估计其预期的实际表现)。测试集应在研究的最后阶段或尽可能少地使用,以避免将模型调优到适应测试集。

下一步是模型选择,这取决于数据的性质和预测任务。研究者按照所用软件框架的最佳实践,使用训练集来训练模型。大多数方法都有几个需要调优的超参数以达到最佳性能。这可以通过随机搜索或网格搜索完成,并可以与上述的k倍交叉验证结合使用。此外,研究者应考虑模型集成,即将多个相似模型的输出简单平均,以提供一种相对可靠的方式来提高建模任务的整体准确性。最后,在测试集上评估模型的准确性。

img2

图2.选择并训练机器学习方法的总体流程

本文详细介绍了什么是机器学习,机器学习的基本术语和基本流程。在后续的文章中,小编将详细介绍机器学习领域的重要概念术语和各种模型算法,敬请期待。

来源:上海生物芯片有限公司
联系电话:400-100-2131
E-mail:marketing@shbiochip.com

用户名: 密码: 匿名 快速注册 忘记密码
评论只代表网友观点,不代表本站观点。 请输入验证码: 8795
Copyright(C) 1998-2025 生物器材网 电话:021-64166852;13621656896 E-mail:info@bio-equip.com