常见文献中写到“连续性每增加10个单位或每增加一个标准差，...”，这该怎么实现呢？

2022-01-31 00:09:53 来源:

作为连续型表达式，本身就自带七十二变的属性，因此本期内容我们继续来向大家简介一下，在重构复出建模时，连续型表达式还有哪些其他奇妙的变动基本上。

1、正态叠加

首先要提到的就是较为类似于的正态叠加基本上。我们都只想到，在重构时域复出时，能够满足一定的正因如此，其里面有一项即立即表达式需服从方差或者类似于方差，如果不满足方差的条件，有时候则会造成了重构的复出建模转化成一定的偏倚，因此对于连续型表达式在事前展开正态性检测是十分必要的。

那么，当我们的数据资料资料产自呈现非正态时，能够怎么办呢？此时，我们可以将愈来愈早的连续型表达式作某种表达式的叠加，使偏态资料正态化，从而满足复出建模重构的能够。

根据数据资料本身产自形态的各不相同，我们可以选用各不相同的正态叠加表达式，例如对愈来愈早连续型表达式开平方合根号系数（Square Root）、合自然比值（Ln X）、合以10为底的比值（Log10 X）、合倒数（1 / X）等等。

当然，能够肯定的是，如果对表达式展开了正态叠加，在结果里面对复出建模值展开解读时，应按照叠加后的表达式给与解读，或者可以根据叠加时常用的表达式关系，倒推愈来愈早自表达式对愈来愈早因表达式的不稳定性大小。

例如JACC医学期刊2016年发表格的一篇评论[1]，译者在统计数据资料分析时首先比值据资料展开了正态性检测（书名表格述：Normality of continuous variables was assessed by the Kolmogorov-Smirnov test）。

结果显示troponin I、NT-proBNP、corin等因素所呈现偏态产自的形态，因此在揭示数据资料分析对象水平线数据时译者也选用了里面以此类推（上四分以此类推，下四分以此类推）的表格达基本上，例如Troponin I的里面位总体为4.5（1.8，12.6）ng/ml。

随后译者选用多重时域复出的方式，来数据资料分析严重影响corin总体的因素所（书名揭示：Multiple linear regression ysis was applied to determine factors influencing corin levels. Levels of troponin I, NT-proBNP, and corin were normalized by log10 transformation）

即数据资料分析人员首先对troponin I、NT-proBNP、corin等因素所合log10生成为方差，然后如此一来便是到多重时域复出里面展开数据资料分析。（结果译者从未在文里面呈现）

随后译者又展开了Cox复出建模数据资料分析，虽然Cox复出对自表达式的类型没有人特殊的立即，但是为了与多重时域复出里面表达式引入的基本上保持一致，故译者对于troponin I、NT-proBNP、corin等因素所依然选用log10生成后的基本上不属于建模，结果唯下表格下图。

2、每变动一般来说增量的叠加基本上

在末期内容《只想将连续表达式生成为弄表达式不属于复出建模，咋分小组？》里面，我们简介到若这样一来将愈来愈早的连续型表达式引入建模，复出值被解读为每变动一个基本单位总体所引起的因表达式的变动不稳定性，但有时这种变动不稳定性也许是很即便如此的。

因此，我们可以将连续型自表达式以一个主角好的一般来说间隔，选用菱形分小组的手段，将其叠加为弄表达式，然后如此一来引入到建模里面展开数据资料分析。这样分小组的效用在于，数据资料分析结果在理论上的针灸应用里面易于症状理解和应用。

例如我们不属于的数据资料分析成年人岁数为31-80岁，我们可以按照岁数每10岁一个大展开分为，分为31-40、41-50、51-60、61-70、71-80共五5个亚小组，主角4个弄表达式不属于建模展开数据资料分析。

但是如果某一因素所的基因突变区域很大，此时按照上述方式展开分小组时，就也许则会被分为很多亚小组，能够主角很多个弄表达式不属于建模，从而使得建模显得“臃肿”；又或者数据资料的基因突变区域不大，难以如此一来展开愈来愈小基本单位的分小组，此时就不如此一来适合将其生成为弄表达式的基本上。

那么，如果遇见这种具体情况，不该对连续型表达式展开怎样的妥善处理呢？我们如此一来来看一篇JACC医学期刊2016年发表格的一篇评论[2]。

该数据资料分析Cox复出结果如下表格下图，我们找到建模里面的多数表达式，译者都常用到了“per”这样一个词，例如per 5% change、per 0.1 U、per 100 ml/min，等等，这里的“per + 变动间隔 + 基本单位”的基本上，表格示的即为我们要简介的，将连续型表达式按照每变动一般来说增量的基本上展开叠加。

具体举其里面2个因素所为例来展开说明。例如Oxygen uptake efficiency slope，在数据资料分析成年人里面的平仅总体为1655 U，5%-95%成年人的变动区域为846-2800 U，由此可唯数据资料的变动区域是愈来愈加大的。此时如果便是愈来愈早连续型表达式，每减低1U，复出建模的HR系数也许就则会不大，难以揭示理论上的针灸涵义；如果叠加为弄表达式，又也许则会被分为成很多小组。

因此，译者将该表达式以每减低100 U的基本上便是到建模里面，评价的是Oxygen uptake efficiency slope每减低100 U时，数据资料分析成年人的死亡不确定性则会下降9%（HR=0.91，95% CI：0.89-0.93）。

如此一来例如Peak RER这个因素所，数据资料分析成年人的平仅总体为1.08 U，5%-95%成年人的变动区域为0.91-1.27 U，数据资料波动又愈来愈加小。此时如果便是愈来愈早连续型表达式，每减低1U，复出建模的HR系数也许就则会很大，而且在针灸涵义的解读上，由于成年人里面的数系数区域不大，这样一来变动1U的个体具体情况并不类似于，难以在针灸极少病患里面给与飞速发展。如果叠加为弄表达式，也许也难以如此一来展开拆分。

因此，译者将该表达式以每减低0.1 U的基本上便是到建模里面，考察的是Peak RER每减低0.1U时，数据资料分析成年人的死亡不确定性则会下降6%（HR=0.94，95% CI：0.86-1.04），但无人口学不确定性。

理解了这种变动基本上的涵义，那么在理论上的统计数据资料分析里面，如何实现这种基本上的叠加呢？其实很简单，假如，如果我们不只想把该因素所由每减低1个基本单位变为每减低100个基本单位（变动小幅度加大100倍），只能够将该愈来愈早表达式除以100代入建模方能；除此以外，如果我们不只想把该因素所由每减低1个基本单位变为每减低0.1个基本单位（变动小幅度较小10倍），只能够将该愈来愈早表达式乘以10方能。

3、每变动一个平仅值的叠加基本上

上面我们简介了每变动一般来说增量的叠加基本上，例如每变动0.1、10或100个基本单位，但是我们常常在写作文献时，还则会唯到另外一种变动基本上，即自表达式每变动一个平仅值（per SD increase）的基本上。那么这种变动基本上又是什么从哪里冒出来的呢？

我们如此一来来看一篇JACC医学期刊2016年发表格的一篇评论[3]（好吧，原谅小咖独宠JACC，明年努力争合做到雨露仅洒），Cox复出结果如下表格下图。

我们找到，对于岁数和收缩压，译者都选用了每减低1个平仅值的基本上不属于到复出建模里面，即岁数每减低1个平仅值，动脉粥样硬化性肺炎（ASCVD）的里面风不确定性减低70%（HR=1.70，95% CI：1.32-2.19）；收缩压每减低1个平仅值，ASCVD的里面风不确定性减低25%（HR=1.25，95% CI：1.05-1.49）。

这里将连续型表达式叠加为per SD increase的基本上便是建模里面，又有什么特殊的涵义么？

我们都只想到，平仅值是揭示一个表达式的所有观察系数与仅数的平仅自变量层面的基准，对于计量基本单位相同的表达式，平仅值越大，数据资料的自变量层面就越大。在针灸实践里面，我们特指平仅值来计算医学参考系数的区域。

举例来说精确测量的基准服从方差，根据方差曲线下占地面积相符合，仅系数 ± SD该线内的占地面积为68.27%，仅系数 ± 1.96 SD该线内的占地面积为95%，仅系数 ± 2.58 SD该线内的占地面积为99%，也就是说在有约4个平仅值的区域内，数据资料已经基本遮盖了95% 的抽样。

因此，除此以外是对于罕唯的愈来愈加规新基准，每减低1个基本单位时的针灸涵义并不是很明确的意味着，可以将其叠加为每减低1个SD的基本上不属于复出建模里面，由此可以指导症状根据自身理论上的测结果，看看自己是处于成年人产自总体的几个平仅值区域内，进而来评核其相同的不确定性则会改变多少。

除此以外，实现这种基本上的叠加也愈来愈加简单，可以通过表格列出两种手段：

1、在重构复出建模此前，将愈来愈早的连续型表达式展开基本妥善处理，如此一来将基本后的自表达式便是到复出建模里面，所给与的复出系数即为自表达式每减低1个SD时对因表达式的严重影响（肯定这里只对自表达式展开基本妥善处理）。

2、如果从未对愈来愈早表达式展开基本妥善处理，也可以这样一来把愈来愈早表达式便是到建模里面，推断从未标化的复出系数（Unstandardized Coefficients），然后如此一来乘以该自表达式的平仅值，此时即为自表达式每减低1个SD时对因表达式的严重影响。

不过慎重的同学则会找到，SPSS在输出从未标化的复出系数（Unstandardized Coefficients）的同时也则会输出基本复出系数（Standardized Coefficients），那么这个基本复出系数又是什么凶，它与上述从未标化的复出系数，以及每减低1个SD的复出系数又有什么区别呢，原先的评论里面则会有简介。

参考资料：

[1] J Am Coll Cardiol. 2016 May 3;67(17):2008-14

[2] J Am Coll Cardiol. 2016 Feb 23;67(7):780-9

[3] J Am Coll Cardiol. 2016 May 31;67(21):2480-7