厂商 仪器 试剂 服务 新闻 文章 视频 高级搜索
当前位置 > 首页 > 技术文章 > 使用SoftMax Pro 7软件选择最佳的曲线拟合方式
选型 | 市场 | 应用 | 使用 | 法规 | 技术 | 其他
使用SoftMax Pro 7软件选择最佳的曲线拟合方式
点击次数:486 发布日期:2018-6-12  来源:本站 仅供参考,谢绝转载,否则责任自负

引言

当需要定义一个数据的特征时,如变化的比例、曲线上下边的渐近线或者 EC50/IC50值时,选择正确的曲线拟合方式是十分关键的。选择的曲线拟合方式应该是能够最准确的反映两个已知变量 (x,y) 的关系。因此,曲线拟合的目的就是为了寻找最佳的公式和参数来匹配数据。

SoftMax Pro 7软件能够提供 21 种曲线拟合方式,包括四参数 (4P) 和五参数 (5P) 非线性回归分析。多种的拟合方式选择,是为了确保能够找到适合数据的最佳拟合方式,并且能够通过调整所选拟合方式的参数来得到最能反映浓度响应变化关系的曲线图。

本文将介绍在 SoftMaxPro7 软件中能够运用的线性和非线性回归分析方法。另外,本文还给出了如何利用标准方差和阿凯克信息论准则来评估选择的拟合方式是否最合适。

优势

- 利用一种高效免洗实验方法来测定细胞活性
- 准确定量活细胞或死细胞
- 通过预设分析模块快速获得相关统计学结果

线性回归

线性回归拟合是最常见的数据拟合方式。它可以用下面的公式表示出来,y = A + Bx。其中x代表自变量 ( 一般是浓度等变量 ) ,y 代表因变量;B 值代表的是该公式对应直线的斜率,而 A 值则为 x = 0 时的 y 轴截距。SoftMax Pro提供三种线性拟合方式:y = A + Bx, semi-log y = A + B* log10 (x), log-log log10 (y) = A +B* log10 (x)。软件可以通过数据分析中找到最佳的直线公式 ( 图表1 )。

在计算线性范围时,最小的标准品数据取点为 3 个,但是更多标准品数据能够提高拟合的准确性。这种拟合方式最大的优点就是计算简单。但是,大多数情况下,数据间的关系都是非线性的。

非线性回归

在测量值和变量为非线性关系时,通常使用logistic 回归分析。这种拟合方式的目的是为了找到最佳的公式参数来使公式计算的理论值和测量值之间的背离最小。为了能够正确地选择最佳的拟合方式,需要理解标准的曲线形状,并将他们与实际数据点的形状进行比较。

SoftMax Pro 软件提供了 17 种非线性曲线拟合方式。它包括:二次方拟合,三次方拟合,四次方拟合,log-logit,cubicspline,指数函数,直角双曲线,两参数指数函数,双指数函数,双直角双曲线,两点竞争,高斯拟合,Brain-Cousens,四参数拟合,五参数拟合和五参数交替拟合。SoftMax Pro 软件使用最广泛使用的迭代过程,Levenberg Marquardt 算法,来获得最佳的非线性拟合方式。四参数和五参数拟合是最常见的两种非线性曲线拟合方式,均适用于 S 形曲线的回归分析 ( 图2 )。

这类曲线拟合方式需求至少 4 个或 5 个数据点,使用 6 个以上的数据点能够获得更加准确的拟合公式。四参拟合表示为下列公式,y = ((A-D) / (1 + ((x/C)^B))) + D。其中 y 是相应值,D 值是无限分析物浓度下的响应值,A 是零分析物浓度下的响应值,x 是分析物浓度,C 是拐点值 (EC50/IC50),B 是斜率参数。而响应的变化规律是:当A < D 时,y 值是正比于 x 值变化的;当 A> D 时,y 值是反比于 x 值变化的。四参数曲线是一个对称的曲线,曲线的一侧和另一侧以 EC50/IC50 中心点完全点对称。而对于一些免疫实验或生物测试的数据,其数据图形并不对称,因此需要而外的变量来衡量该数据的复杂性。在这种情况下,五参数拟合方式能够通过引入一个新的参数 G ( 表二 ) 很好的反映出这类数据的特征。五参数拟合的通用公式为:y =((A-D) / (1 + ((x/C)^B)) ^G) + D。不对称参数 G 可以使曲线的两部分不一致。但是需要说明的是,当 G 值很小或者需要平行线(PLA) 分析时,建议使用四参数拟合方式来获得更好的拟合效果。

选择最佳的曲线拟合方式

曲线拟合后的好坏,尤其是标准曲线的建立,需要使用精准的数据来对其进行评估。重复实验设置对于获取好的曲线拟合是十分重要的,而单次实验随机性会使曲线拟合的效果很差。R2 值是用来评估曲线拟合好坏的一个很好的指标。通常来说,当 R2 值大于 0.99 时,曲线拟合效果被认为是很好的。但是当标准偏差随着样品的浓度变化而变化时,R2 值出现偏差而不准确。理想的情况是标准偏差在所有浓度样品下都应该一致,适用于方差一致性的数据;但是不是所有的情况都是标准偏差随着样品的浓度增加而增加,这时 R2 的就不适用了,需要新的方法衡量。

使用赤池信息量准则 (AIC) 和 F 分布下的统计量方法进行的误差平方和 (SSE) 被用来标准化这些异方差数据。这两种方法在衡量测定值和选择的拟合曲线的理论值之间的误差时是十分相似的方法。由于 SSE方法需要使用残差和残差图,因此该方法又称为残差平方和法。残差的定义是指在每个选定浓度下,实际的响应值y和所选拟合曲线所得的理论响应值 y′ 的差异性,即残差 = 测定数据-拟合数据 = y - y′。残差代表的是随机偏差。因此,当曲线拟合方式符合数据时,残差图中点的分布应该是围绕 y = 0 轴的随机点 ( 图表 3A )。如果残差图中点的分布情况是有规律的 ( 图表3B ), 那么很明显该数据的曲线拟合方式是很差的。

SSE 方法使用下面的公式进行分析:SSE= Σ wi (yi - yi)2。假设数据误差是不相关的且符合正态分布,使 SSE 尽可能的最小能够最大近似的估算数据模型的曲线公式参数。换句话说,最佳的曲线拟合方式是其参数能够得到最小的 SSE。如果两种拟合方式都能符合数据,那么哪个残差图给出了最小的 SSE,就使用那个拟合。

当两种拟合方式是嵌套关系及一种是另一种的特殊情况时,例如四参数拟合就是五参数拟合当 G = 1 时的特殊情况,具有更多参数的拟合方式要比另一个更能得到最小的 SSE。这是因为更多的参数能够使曲线拥有更多的拐点来匹配数据。因此,需要引入一些额外的统计计算来决定哪种拟合方式是最匹配数据的,这个统计计算有F-test 和 F-probability。F probability是使用 F-test 和拟合曲线模型的自由度来评估 SSE 的减小是否是偶然发生的。一般的,当 probability 值小于 0.05 时,说明该拟合曲线的公式最匹配数据。

AIC 方法是用类似的统计计算来比较两个具有嵌套关系的曲线拟合方式那个更匹配所给的数据。AIC 值能够通过下面的公式来计算,适用具有正态分布误差的数据:AIC = n* log (SSE/n) + 2K。这里 n 代表样本量,K 是描述曲线的参数数量。当样本量小时 (n /K < ~40),则使用二阶的AIC 值 (AICc),公式为 AICc = AIC + 2K*(K + 1) / (n - K - 1),这里 n 代表样本量,K是描述曲线的参数数量。当样本量增加时,AICc = AIC + 2K* (K + 1) / (n - K - 1) 公式末项值趋近于零,这时 AICc = AIC。AICc和 AIC 都用来评估最佳的拟合方式和公式拟合公式具有多少参数能够达到特定的匹配程度。AIC 方法限制了公式参数的数量,因此得到最佳的拟合方式却使参数最小化了。较低 AIC 值的曲线拟合通常是首选的拟合方式,即一个最少参数的曲线拟合公式依然能够是最佳的拟合方式。

上述两种方法都可以用来决定哪种曲线拟合方式最匹配数据,但是这两种方法均不能作为零假设检测的测试模型。如果很难找到最佳匹配的拟合方式,逻辑上选择最接近的拟合拟合。例如一个无限宇宙的模型,曲线拟合仅能够找到最佳参数的已知模型或者比较两个拟合方式哪个更好,但是适合无限宇宙模型的候选公式需要基于调查和科学的验证。在指定了一组合理的模型来解释数据之后,在分析之前需要评估全局模型的拟合应为最复杂的模型设置。假设全局模型匹配的话,那么认为简单模型也同样是匹配的,因为简单模型包含在全局模型中。

最佳拟合程度的衡量

SoftMax Pro7 能够使用一个新的独立的参数来衡量给的曲线是否匹配数据。参数依赖性是测量当一个参数到达最佳时另一个参数的最佳的限度和范围。一个具有 2 个或更多参数的拟合方式,描述曲线的参数即可能是关联性很强的,又可能是赘余的。如果在曲线拟合完成后改变曲线的一个参数,那么新的曲线应该是远离数据点的。在此时,如果改变另一个参数的值能够补偿固定参数并使曲线向数据点靠近,但是和原始曲线设置不同,那么这些参数是关联性。相反地,如果曲线回到了原始的位置,那么这些参数是赘余的。参数的独立性用 0~1 的数值进行衡量,当数值为1 时参数完全独立。要在图形中显示该独立性质时,请点击如图四的曲线拟合设置图标图四。将会弹出曲线拟合设置窗口,只要选择Statistics栏并勾选“Calculateparameter dependencies”即可。

在图形表格中将会显示出每一个参数的独立性质 ( 图五 )。在图五中,参数的独立程度使用对数标度的 bar 显示出来。十格bar 表明参数的独立程度很高。由于只有很小的值才会影响拟合结果,因此这种标度采用非线性的标度方式。如果多个参数bar 很小或没有的话,表明该拟合方式对数据是不匹配的。例如,如果数据是具有很明显上限和下限渐近线的 S 型曲线,那么一个四参数拟合将适用于该数据,所有参数应该都具有很高的 bar 值。但是如果一条或两条渐近线都没有的话,则参数 A和 D 的 bar 值将会很小,表明不能从数据中推导出可靠的参数值。

新的标准:曲线拟合评估

在 Softmax Pro 软件中设置了标准模板,曲线拟合评估,用来在分析数据时自动的计算SSE,F probability 和 AIC 值。在结果显示窗口中展示出使用 SSE 和 AIC 方法进行的曲线拟合分析相关的所有计算 ( 图七 )。标准模板均可以在 www.softmaxpro.com 网站中下载。在下面这个例子中,所要分析的数据使用四参数 ( 图 6A ) 和五参数 ( 图 6B ) 分别进行拟合,两种拟合方式均得到 R2 = 1。

所有的计算结果均在图七中罗列出来。SSE 方法显示五参数拟合比四参数拟合方式更匹配这些数据,因为五参数的 SSE =0.027 而四参数的 SSE = 0.058。问题是四参数拟合是五参数拟合的当 G = 1 时的特殊情况,四参数应该和五参数一样的适合于这类数据。因此需要使用额外的数据来进一步分析。F test (61.538) 和 F probability (0.000) 进一步确认了五参数拟合方式更匹配所分析的数据。AIC 方法也表明五参数拟合更适合所分析的数据,其中四参数 AIC = -405.365 而五参数 AIC =-447.945。最终残差图显示两种拟合方式都是数据点随机分布在 X 轴附近,说明两种拟合方式均适合于该数据 ( 图八 )。综合评估,所分析的数据最佳的拟合方式应选择五参数拟合。

总结

在 SoftMax Pro7 中含有多种数学模型可供使用,包括常用的四参数和五参数拟合方式。R2 值可以粗略的衡量曲线拟合是否匹配所要分析的数据,特别是异方差类的数据。SSE 和 AIC 方法被用来评估曲线拟合的匹配程度已选择可能最好的曲线拟合方式。然而在此之前,首先要明确的是两种拟合数据的方式都必须是合理的和符合科学理性的。SoftMax Pro7 还包含一种方法,用来计算参数的独立性,以此评估曲线拟合方式对数据的匹配程度。参数独立性的结果能够直观的展示到图标中帮助你解读您的数据。

来源:美谷分子仪器(上海)有限公司
联系电话:400 820 3586
E-mail:info.china@moldev.com

网友评论 已有[0]人评论
用户名: 密码: 匿名 快速注册 忘记密码
评论只代表网友观点,不代表本站观点。 请输入验证码: 8795
Copyright(C) 1998-2018 中国生物器材网 电话:021-64166852;13621656896 E-mail:info@bio-equip.com