病例对照研究方法篇(8):观察性研究统计策略

在医学科学研究中,尤其是观察性研究领域,无论是横断面调查、病例对照研究还是队列研究,我们经常会遇到对健康结果进行分类,包括二元分类(如:生存与死亡、阳性与死亡)阴性、发作和未发作)。 发病率)或多类别变量(如疾病结局、治愈、无效、死亡;根据损伤程度分级的结局指标,如结核性胸腔积液、胸膜粘连、视网膜出血、脑室缺血程度等)早产儿)以及一些可分类的生理生化和免疫指标(如血压值、血镁值、血脂和胆固醇等)。 当研究的健康终点为二元变量时,往往无法进行线性回归分析(线性回归分析要求残差服从线性、正态性、独立性和方差齐性)。 在这种情况下,可以考虑回归模型

尤其是病例对照研究,其结果都是分类结果,非常令人胃口大开。 同时,病例对照研究往往需要计算OR值(优势比)来评估##因素的影响,这个指标也是可以计算的。 因此,病例对照研究设计和回归分析是水到渠成的。 因此,本系列继病例对照研究方法一章之后,引入回归分析。

案例分析

例1:某医生以某医院为对象进行病例对照研究,探讨冠心病发病的相关影响因素。 收集新冠心病患者作为病例组,收集同期在院的非循环系统疾病患者作为对照组。 研究的##因素是患者的年龄、性别、心电图检查是否存在异常心电图、高血压或糖尿病。 请参阅 .sav 获取数据。

1.统计分析策略

讨论影响​​因素的研究,有基本统计方法和高级分析方法(病例对照研究的基本统计分析策略); 一般来说,基础的统计方法无法满足影响因素的研究,一般需要回归分析,并且需要多因素分析。 回归分析。

线性回归通常包括线性回归、回归和Cox比例风险模型,分别用于定量数据、分类数据和带有结果的生存时间数据。

本病例为病例对照研究,研究结果为分类变量数据。 使用的方法是回归(病例对照研究的基本统计分析策略)。

2.回归分析的基本原理

回归分析的主要作用是研究影响因素并做出预测。 线性回归分析通过构建线性函数来探索影响和预测定量数据结果的因素。

如果结果是分类变量,回归分析主要分析影响正向事件发生的因素,预测正向事件的发生。 在这种情况下,冠心病的发生就是需要探讨的积极事件。

积极事件的影响和预测可以用概率P来表示。P值越大,积极事件发生的可能性越大。 如果某个因素能够导致概率P增大,则说明该因素是重要的影响因素或预测因素。

借鉴线性回归的原理,我们希望建立一个关于P的线性函数:

不幸的是,P和x之间的关系不满足线性回归分析所需的线性关系先决条件(它们的关系是S形曲线关系),因此方程无法成立。

正如之前推文中提到的,如果线性回归不满足线性条件,可以通过Y或X进行转换来满足线性回归的要求。 因此,统计研究者对P进行变换,称为logit变换,或logit(P):

因此,我们建立了P与结果之间的变换线性关系。 这种回归模型称为广义线性模型,logit(P)的变换模型称为回归。

如果只考虑数据本身,回归模型包括一个分类因变量和若干个自变量(可以是分类变量,也可以是连续变量),反映m个自变量对因变量的线性影响。 无论是病例对照研究还是队列研究,这种形式都保持不变。

根据上述公式,我们可以根据多个自变量预测结果 Y。 上面的公式可以转化为下面更直接的P公式:

例如,有一位患者,女性,57岁,心电图ST段严重异常,同时患有高血压和糖尿病,则可以计算出她患有冠心病的概率为0.961 。 相反,如果另一位患者是女性,49岁,心电图ST段轻度异常,有糖尿病但无高血压,则她患冠心病的概率为0.262。

这个概率就是回归分析的预测值。 预测值与实际值明显不同(具体可以阅读文章《当线性回归时,你还不知道如何做残差分析?我们来看看基础教程吧!》)。 例如第一个病人的实际值为1(冠心病),与实际值相差0.039。 这个差值就是前面介绍的残差。 同样,第二名患者的实际值为 0(未发生),残差为 -0.262。

对于一个好的模型来说,残差越小越好,残差的均方越小越好。 因此,残差也是回归模型中非常重要的评价指标。

3. OR值计算

回归的核心功能之一是研究影响因素。 用于评价##因素影响的指标是OR值。

关于OR值,我在之前的文章(病例对照研究的基本统计分析策略)中已经详细介绍过。 观察性研究,无论是横断面调查、病例对照研究还是队列研究,通常依赖于##因子效应大小的 OR 值。 事实上,实验研究经常使用这个指标来评估干预措施的效果。 OR值是指优势比/优势比(,OR)。 优势(优势)是指两类事件中一类事件相对于其相反事件的优势。 病例组的优势在于##人数/非##人数,以及对照组的##人数/非##人数。

回归分析实际上是关于优势的回归模型。 稍微思考一下,可以发现a/(a+c)、b/(b+d)是P,c/(a+c)、d/(b+d)是1-P。 a/(a+c)除以c/(a+c)就是P/1-P,这是正事件的优势。 因此,可以得到以下公式:

现在如果我们要探讨性别的影响以及男女之间的差异,我们可以从两个角度来分析和讨论:第一,计算回归系数β1来说明性别变量X对Y的影响;第二,计算回归系数β1,以说明性别变量X对Y的影响; 第二,计算OR值,两者等价,男性相对于女性的回归系数b值等于ln(OR)值。

简而言之:

OR值大于1,说明##因素是积极事件发生的促成因素;

OR值小于1,表明##因素是正向事件发生的障碍;

OR值等于1,表明##因素对正向事件的发生没有影响。

相对而言,OR值比b值在解释对结果的影响方面更有意义。 它可以说明结果Y的风险增加的程度。例如OR=2,它可以粗略地表明当##因子增加时,积极结果的概率增加了一倍(注意,我们只能粗略地或大约地说,原因将在后面讨论)

在医学研究中,风险评估是一个重要方面。 由于能够巧妙地计算 OR 值,回归在医学领域非常流行,尤其是病例对照研究。

4.回归分析类型

根据研究设计的不同,可分为无条件回归模型和条件回归模型。 无条件回归用于分组设计的观察性研究,而条件回归通常用于匹配设计研究。

根据因变量类型(级别数),可分为二元回归模型和多分类回归模型; 二元回归又称二元回归(SPSS软件的名称)

另外,根据多类因变量是否有序,可分为多类有序回归模型和多类无序回归模型。

回归模型分类(此图来自《医学统计分析学习》)

本研究是一个基础教程。 多分类和配对回归不再属于学习范围。 我将介绍最基本的二分类非回归分析。 本例采用的方法是多因素无条件回归分析。

SPSS操作1、返回分录

分析--回归--二元回归

2.回归分析界面

① 因变量:填入“是否患有冠心病(ca)”

②协变量:自变量,包括年龄、性别、心电图表现、糖尿病、高血压。

③保存:可以分别计算预测值(即P值)和残差。 残差包括原始残差和标准化残差。

④选项:计算-拟合优度(-,HL检验)(①),OR值的95%CI置信区间(②)

3 回归分析结果及其解释

回归会产生许多结果。 初学者只需关注下表即可。

首先提供的是模型的测试:指的是模型的整体全局测试,即似然比测试。

结果中的三行分别指:步骤统计量是每一步与上一步相比的似然比检验结果,块(block)是指块n与块n-1比较的似然比检验结果。 由此,模型线输出回归模型中所有参数是否为0的似然比检验结果,这是整体评价的关键检验。 磷

其次,回归提供了对模型拟合优度的评估。 所谓拟合优度是指模型构建的效果与真实情况或理想情况相比差距有多大。 线性回归分析一般用R^2来反映拟合优度的效果。回归拟合优度包括两类:定量评价拟合优度和定性提供拟合优度效果。

定量评估拟合效果的优度。 回归分析提供了类似的 R^2、Cox & Snell R^2 和 R^2。 不过,这两个R^2有时被称为伪R^2,在回归中意义不大(与线性回归不同),可以忽略不计。 -2对似然值(-2 log,-2LL))是模型评估的重要指标。 值越小越好,可用于不同的模型评估效果。

定性评估拟合优度效果。 -拟合优度检验(-,HL检验)可用于评估模型是否充分利用现有信息来最大化模型的拟合度并解释模型的变异性。 如果本研究中P>0.05,则可以表明模型的拟合优度较好。 如果P

本例中,P=0.485,表明模型拟合优度良好。

最后,核心分析结果:回归分析分别为回归系数b值、b值标准误、Wald卡方值(Wald)、自由度、P值(显着性)、OR值(Exp B)及其置信区间。

其中,瓦尔德卡方值(Wald)和P值是回归系数b值的假设检验。 磷

Exp B是OR值,与回归系数的关系就是e^b值。 OR值置信区间与P值的关系为:当P0.05时,置信区间包含1。

特别提醒大家的是:如果OR值大于1,是不是风险因素? OR 值小于 1 是保护因素吗? 这种说法是非常武断的。

首先,OR值不能再用危险或保护来表达。 危险和保护方法往往针对不利的积极事件结果,措辞往往过于严重。 在临床或者更多领域,用促进或者阻碍这样的词来体现是比较中性的,也更容易理解。

OR值大于1,说明##因素是积极事件发生的促成因素;

OR值小于1,表明##因素是正向事件发生的障碍;

OR值等于1,表明##因素对正向事件的发生没有影响。

其次,要理解OR值,必须非常清楚。 谁是##因素的对照组? 积极事件是谁?

SPSS统计结果表并没有给出太多信息。 比如性别,它只是告诉我们性别对积极事件的发生有影响。 但男性的风险更大还是女性的风险更大? OR=6.24的目标人群是谁?

要了解统计结果表和OR值,您必须了解:

(1)什么是积极事件? 我们可能想当然地认为,冠心病的发生一定是积极的事件;但事实上,冠心病的发生一定是积极的事件。 然而,在 SPSS 分析中,积极事件是指数据库中分配给结果变量的值较大的结果。 本例中有一个变量为冠心病(ca),如果(冠心病为0,如果没有发生冠心病则为1),那么如果没有发生冠心病则为积极的事件。

是不是听起来特别别扭? 我要研究的是冠心病的风险! 我应该怎么办? 然后在构建数据库时,请为您识别的积极事件分配比消极事件更高的值。 对于二类结果,最好用0或1来表示(0代表负面事件,1代表正面事件),以确保你概念中正面事件的定义与概念中正面事件的定义一致。 SPSS,而且不容易出错。

(2) 明确自变量,谁是控制者?

对于定量数据,如年龄,b值代表OR-1)次每增加一个单位,结果变化量; 以年龄为例,如果年龄增加一岁,平均风险就会增加0.091倍,这意味着年龄越大,患冠心病的风险就越高。

对于二元定性数据,OR 值还表示 x 增加 1 个单位时结果的变化量。 例如,对于性别,如果 x 增加 1 个单位,则风险增加约 5.24 倍。 那么,这里的“增加一个单位”的含义如何理解呢? 它实际上是否意味着如果数据库中的性别变量赋值增加一个单位(性别变量从0增加到1),风险增加大约5.24倍(但与年龄不同的是,性别变量x只能增加一次)。

很多时候,这种解释是很尴尬的。 我们更喜欢寻找比较作为比较分析的支点。 性别从0到1,即当性别变量赋值为1时,与值为0相比,风险增加了5.24。 0是什么? 0为女性,1为男性,这意味着男性的风险大约是女性的5.24倍。

SPSS统计分析二元自变量的影响时,默认是使用自变量较低的指定值作为对照,探讨较高的指定值是否可以增加正事件的概率。

对于级别数据,解释与定量数据相同,即每增加一个级别,平均心电图每出现一个级别的异常,患冠心病的风险就会增加约2.406倍。

另外,高血压变量在数据库中被赋值为0=无高血压,1=高血压,这意味着对照组没有高血压,高血压患者的风险增加了约9.814倍。 糖尿病没有统计学意义。

简而言之,OR值就是探讨SPSS数据库中较大的自变量赋值对SPSS数据库中正事件的影响。 如果不关注这一点,只看OR值来判断是否存在风险因素,可能会得到相反的结论。

最后,由于在本文的SPSS操作中,检查了预测值和残差的计算,因此数据库给出了两个新变量,即PRE_1(预测值)和RES_1(残差)。 两组相加,正好就是“冠心病”。

写入统计结果

标准文本1:结合年龄、心电图和性别构建多因素回归方程。 结果显示,心电图异常对冠心病的影响有统计学意义(OR=3.40,95%CI 1.81~6.37,P

标准文本2:结合年龄、心电图和性别构建多因素回归方程。 结果显示,异常心电图水平增加会增加患冠心病的风险,且具有统计学意义(OR=3.40,95%CI 1.81-6.37,P

特别提醒:回归OR值不能代表风险增加的准确倍数。 因此,在文字描述中,不要说男性患冠心病的风险比女性增加5.24倍。

规格表:

注意

1.回归应用的前提条件是什么?

线性回归分析需要很多条件,主要是LINE(线性、独立性、方差齐性、正态性); 回归也有应用条件,主要是线性和独立性(初学者可以跳过这个)。

需要建立自变量和logit(P)之间的线性关系。 线性条件可以从下面的公式看出: 由于要构造多项式方程,因此要求logit(P)与每个x之间存在线性关系。

但线性条件主要针对定量自变量或层次自变量,对二元或无序多类别数据没有要求。

如果线性条件不成立怎么办? 您可以对x进行变换,例如指数变换、对数变换或对x进行分组,然后设置虚拟变量进行分析。

以下线性条件的例子来自《中国流行病学杂志》2019年第8期的文章:冯国双。 观察性研究中的回归分析思路[J]. 中国流行病学杂志, 2019, 40(8):1006-1009

示例:一项研究分析了老年人高血压的危险因素(二元变量,是或否)。 研究因素包括年龄、ox-LDL、ox-LDL IgG、ox-LDL IgM 6个指标。 其中为二分变量,其余变量为连续变量。 若将这6个自变量直接纳入统计软件分析,结果如表1所示。

表1 统计软件直接给出的高血压影响因素分析结果

可以看出,6个变量之间的差异并不具有统计学意义。 然而,重新分析数据后发现,并不是这些变量对结果没有影响,而是无法找到它们之间真正的关系。 经过仔细观察发现,年龄和ox-LDL IgM对结局的影响具有统计学意义,但不是线性影响,而是二次关系(表2)。

表2 高血压影响因素重新分析结果

如何使用SPSS诊断线性条件?一般分为两步:第一步计算残差; 第二步是绘制残差和目标自变量的散点图。

首先计算残差; 由于在SPSS分析中,检查了预测值和残差的计算,因此数据库给出了两个新变量,即PRE_1(预测值)和RES_1(残差)。 两组相加,就是“冠心病”。

然后制作散点图(X轴是年龄,Y轴是残差)。

结果解释:如果线性条件成立,残差应该分布在0值附近,并且不会随着年龄的增长而有规律地变化。 该案例分析表明,结果变量和年龄的线性前提成立。

回归分析需要独立性。 所谓独立性,是指正事件的发生随机分布在其他空间、时间、人群中(模型包含的自变量除外); 相反,非独立数据意味着积极事件的发生。 存在无法用统计模型解释的聚合。

例如,传染病的发病可能集中在同一地区或家庭成员内。 传染病的聚集性无法用回归分析来解释; 家庭成员中遗传病的聚集可能无法通过回归分析来解释。 这个时候回归结果就比较不靠谱了!

如何解决数据不独立的问题? 一种常见的方法是将导致聚合的变量包含到回归模型中。 例如,触发家庭聚合的指标有两类:一是家庭变量;二是家庭变量。 家庭是原因变量,它影响研究对象中发生积极事件的概率。 如果同一家庭内出现聚集(正面事件发生在同一个家庭成员中,是因为他们有相同的原因:家庭); 第二类,遗传指标。 例如,基因突变变量; 家庭成员都拥有相同的基因,从而为同一家庭的所有成员带来积极的结果。 在统计分析中,只要将家族变量或基因突变变量同时作为自变量纳入模型中,就可以消除聚集问题。

如果不收集引起聚合的变量,还可以构造吗? 一般情况下影响不大,但总会造成一定的偏差,结论也不可靠。

例如,一所学校爆发了 COVID-19,想要研究 COVID-19 的影响因素。 潜在影响因素包括性别、年龄、年级、是否患有慢性病、佩戴口罩、勤洗手等因素。 此时进行回归分析,结果为:不可靠。 由于COVID-19患者可能聚集在宿舍,回归分析模型应包含宿舍变量来构建回归模型; 但由于宿舍数量较多,宿舍变量是无序的多类别变量(十几、几十个类别),传统的回归分析无法应对,一般采用随机效应模型,如多类别变量。水平回归分析、广义线性混合模型等

例如2016年《中国疾病控制杂志》发表的一篇文章。

文章的背景解释了为什么使用随机效应回归分析,并说:

随机效应模型的具体建模如下。 有兴趣的可以看一下。

那么如何识别是否存在正向事件聚集呢? 目前好像还没有什么好的软件分析方法,也没有相应的文献(如果有请告知)。 一般主要从理论来判断,所研究的数据不存在时间、空间、人员聚集的问题。 如果存在,则找到一种方法将导致聚合的变量包含到回归模型中。

相关屏幕录像在此帐户中

-本次讲座结束-

这个账号在传播统计知识的同时,也放置了一些常用资源,方便科学研究。 所有资源都是免费的,感兴趣的朋友可以关注。

1.全套医学统计学学习视频,趣味+进阶+SPSS+试题,带你从入门到精通!

2、如何让Excel画出漂亮的统计图表? EXCEL 插件来帮忙!

3.【免费】赠送100本《临床试验与统计方法》英文书籍!

4、如何让Excel画出漂亮的统计图表? EXCEL 插件来帮忙!

5.最新! 2019年卫生统计年鉴来了! 2006-2019年中国卫生统计年鉴汇编

6.如何在不进行实验的情况下利用临床数据库发表论文?精选临床预测模型视频合集

7.强烈推荐:网上最全的医疗统计相关软件,免费,而且全部已破解。

8. 如何创建和分析量表? 权威的中英文书籍可以为您提供帮助。

9、流行病学与统计学的完美结合:公共卫生数据分析

10、扔掉复杂的统计分析软件,用EXCEL一步完成统计分析

© 版权声明
评论 抢沙发
加载中~
每日一言
不怕万人阻挡,只怕自己投降
Not afraid of people blocking, I'm afraid their surrender