肾炎的诊断 数学建模 - 图文 

导读:肾炎的诊断,来诊断就诊人员是否患有肾炎,(logistic模型被广泛应用于病理学中,被作为病理学研究的常用模型)发现各元,是否患有肾炎为因变量,表示患有肾炎,将待诊断的30个病例中各元素的含量代入模型一中,通过对数据分析处理:检验出61、62、64、65、66、68、69、71、72、,所以,我们认为回归系数显著性较小的几种元素对是否患肾炎的影响有限,即是影响人们患肾炎的关键因素,将待诊断的3

肾炎的诊断 数学建模 - 图文 

肾炎的诊断

摘要

本文研究的问题是通过检测人体内各种元素的含量,来诊断就诊人员是否患有肾炎。我们首先将健康的和患病的人群的体内的相关元素的平均值用

130?iy??xij(i?1,2,...,7;y?1,0)计算出来,发现体内的元素含量的确和患病有必

30i?1然的联系。我们再利用Excel软件中的logistic模型对样本做了具体的分析。( logistic模型被广泛应用于病理学中,被作为病理学研究的常用模型) 发现各元素的含量与是否患有肾炎之间的确有一定关联,属于线性回归问题。接着,计算出该线性方程的常量和系数从而完成模型的初步建立。

对于问题一,我们取1-60号为样本,建立线性回归模型,

ep?b0?b1x1?b2x2?...?bixi1?eb0?b1x1?b2x2?...?bixi

以各元素的含量xi(i?1,2,3,4,5,6,7)为自变量,是否患有肾炎为因变量,用y表示,当y?1时,表示患有肾炎;当y?0时,表示健康。然后利用回归统计表、方差分析表、回归参数表中的数据进行分析,来衡量线性回归的拟合度,以及线性方程中各参数的显著性,发现其回归程度较好。对60例受检者的数据进行判别,若p大于0.5则判定为患病,若小于0.5则判定为健康。结果正确率为93.33%。

对于问题二,我们利用问题一中建立的优化模型进行检验,将待诊断的30个病例中各元素的含量代入模型一中,计算出对应的p值,然后和0.5进行比较,通过对数据分析处理:检验出61、62、64、65、66、68、69、71、72、73、75、76、79、83、85 号就诊人员患有肾炎;63、67、70、74、77、78、80、81、82、84、86、87、88、89、90 号就诊人员是健康的。

对于问题三,由问题一知,这七种元素的回归系数显著性由高到低顺序依次为Ca,Cu,Fe,Mg,Na,Zn,K。所以,我们认为回归系数显著性较小的几种元素对是否患肾炎的影响有限,可以忽略不计,并加以检验,以期能够得到一个更为简化的判定方法。Mg、Na、Zn、K这4种元素所对应的回归系数显著性是最低的四个,分别为:-1.60239、1.380585、-0.3334、-0.21503。我们将这几种元素进行组合剔除,共有15种组合方式,比较去掉后该回归的各个参量的值,以标准误差和正确率作为评判假设是否合理的依据。从中找出在尽量减少元素检验的前提下相对来说较优的模型。而保留下来的那些自变量对应的指标,即是影响人们患肾炎的关键因素,通过剔除法,得出Fe元素,Ca元素,Cu元素,Mg元素为影响人体患病的主要因素。结果正确率为93.33%,可见模型较优。

对于问题四,我们通过问题三得到的最优回归模型进行检验,将待诊断的30个病例中各元素的含量代入模型三中,计算出对应的p的值,然后和0.5进行比较,通过对数据分析处理:检验出61、62、64、65、66、69、72、73、75、76、77、79、83、85号就诊人员患有肾炎;63、67、68、70、71、74、78、80、81、82、84、86、87、88、89、90号就诊人员是健康的。

对于问题五,我们通过对问题二中所判定的结果与问题四中所判定的结果,进一步对比分析,问题二中所判定的结果与问题四中的判定结果对病例号为 68、71、77的3名就诊人员所判定的结果有所不同。之所以会出现这种结果,我们认为由于每个人的体重不同,或者是因为样本的选取的分布不均匀和样本的容量较小问题等。

关键词:多元线性回归 最优化 主要因子 显著性检验

1 问题重述

人们到医院就诊时,通常要化验一些指标来协助医生的诊断。诊断就诊人员是否患肾炎时通常要化验人体内各种元素含量。表B.1是确诊病例的化验结果,其中1-30号病例是已经确诊为肾炎病人的化验结果;31-60号病例是已经确诊为健康人的结果。表B.2是就诊人员的化验结果。我们的问题是:

1. 根据表B.1(见附录)中的数据,提出一种或多种简便的判别方法,判别

属于患者或健康人的方法,并检验你提出方法的正确性。

2. 按照1提出的方法,判断表B.2(见附录)中的30名就诊人员的化验结

果进行判别,判定他(她)们是肾炎病人还是健康人。

3. 能否根据表B.1的数据特征,确定哪些指标是影响人们患肾炎的关键或

主要因素,以便减少化验的指标。 4. 根据3的结果,重复2的工作。 5. 对2和4的结果作进一步的分析。

2 问题分析

2.1问题一的分析

问题一要求我们提出简便的方法,判别就诊人员是患者还是健康人。我们首先将健康的和患病的人群的体内的相关元素的平均值用

130?iy?xij(i?1,2,...,7;y?1,0)计算出来,见表一, ?30i?1

表1 体内元素均值 Zn Cu 患病人体内每项元素平均值 正常人体内每项元素平均值 143.1033 12.3343 Fe Ca Mg K Na 23.0667 698.1667 113.3933 201.1333 526.8333 186.6 21.92366 62.0116 2511.1333 295.1366 90.37 367.21 发现患病和健康人群体内的元素含量的均值相差很大。所以体内元素的确和患病有必然的联系。又因logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等。

我们根据

ep?1?eb0?b1x1?b2x2?...?bixib0?b1x1?b2x2?...?bixi

建立的logistic回归模型来判断得病与健康的情况,由已确诊的病例中分析得知,人体是否患病与人体内某些元素的含量呈相应的回归关系,由模型来判别病例。对于这种方法的正确性,我们利用回归统计表、方差分析表,回归参数表中的数据进行分析,来衡量线性回归的拟合度,以及线性方程中各参数的显著性,发现其回归程度较好。 2.2 问题二的分析

问题二要求我们利用问题一中提出的方法,对表B.2中的30个病例进行判别。我们分别将各元素的含量输入到在问题一建立的模型中,求出对应的p的值,然后和0.5进行比较,判别出那些是患者,哪些是健康人。 2.3问题三的分析

问题三要求我们根据表B.1的数据特征,确定影响人们患病的主要因素,以便减少化验因素。由问题一的结果得知,回归系数显著性由高到低顺序依次为Ca,Cu,Fe,Mg,Na,Zn,K。我们通过剔除模型中那些对因变量作用不显著的自变量,得到最优化模型,那些保留下来的自变量,即是影响人体患病的关键因素。 2.4 问题四的分析

问题四要求我们利用问题三中得到的优化模型,即剔除掉那些非关键因素后的模型,再次,对表B.2中的30个病例进行判别。 我们分别将各元素的含量输入到问题一建立的模型中,求出对应的p的值,然后和0.5进行比较,判别出那些是患者,哪些是健康人。 2.5 问题五的分析

问题五要求对问题二、问题四得出的结果,进行比较分析。我们通过问题二、问题四得出的结果对比后发现,只有3个样本有差异,之所以会出现这种结果,我们认为由于每个人的体重不同,或者是因为样本的选取的分布不均匀和样本的容量较小问题等。因此,这3个样本的需要进一步的检验,才能确定是否患病。

3 模型假设

1. 假设问题所提供的60组数据是从大量的数据中随机抽取的,相互间没有任何必要的联系.

2. 假设是否患有肾炎只与题目中给出的那几种元素的含量有关,与其他因素无关.

3. 假设题目中所给的数据是真实可信的,且化验过程中没有出现错误。 4. 假设题目中所给的样本只患肾炎或者是健康体,没有患其他的疾病。 5. 假设人体内的各个元素是相互独立的,没有相互间的影响.

6. 假设人的体重是近似相等的,这样就不存在了元素的含量与体重的关系.

4 符号说明

x: (i=1,2,…7)分别表示人体内各元素的含量;

iy: y?1表示患肾炎;y?0表示健康;

b: (i=1,2,…7)表示线性方程中xi的系数;

iBiy

(i=1,2,…7,表示对应的元素;y?1表示患肾炎,y?0表示健康)表

示患病与健康人群的体内对应的各种元素的均值.

Logit(p): p 的Logistic 变换

: 方程的拟合优度。 SST:表示总离差的平方和; SSR:表示回归平方和: SSE:表示残差平方和; P: 表示误判率;

n: 表示从总体中抽取的一个样本;

F?: 显著性水平为?和分子自由度i、分母自由度n?i?1的临界值;

Ruj: 为在x1,x2,....,xp中xj的偏回归平方和

5 模型的建立与求解

5.1 问题一的建模与求解 5.1.1 建立模型

logistic模型被广泛应用于病理学中,被作为病理学研究的常用模型 ,比较

常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率,等等由于模

型只有两个变量,分别为患病和健康,由此可以考虑应用多元Logistic(Binary Logistic) 模型。我们把y=1定义为该受检者患病,y=0定义为该受检者健康,为此,我们建立了如下模型:

ep?b0?b1x1?b2x2?...?bixi1?eb0?b1x1?b2x2?...?bixi

注意, p=0或1时,此式失效 ,因为当p接近于0或1时,自变量即使有很大变化,p的值也不可能变化很大,且非线性程度较高。于是, 我们引入p 的Logistic 变换,即

plogit(p)?log() ,

1?p

所以,原模型可以表示为:logit(p)?b0?b1x1?b2x2?????b7x7 ,

拟合Logistic回归模型采用最大似然估计法。将数据导入EXCEL软件中,利用回归函数,选取的置信度为95%。得到了回归统计表、方差分析表、回归参数表 。 回归统计 Multiple R 0.823779 R Square 0.678612 Adjusted R 0.635348 Square 标准误差 0.30448 观测值 60 MultiPle R (复相关系数R ) :是R2的平方根,又称为相关系数,用来衡量x 和y 之间相关程度的大小。本例中R 为0.823779,表示二者之间的关系是高度正相关。说明七种元素的含量与人的患病成高度相关性。

方差分析 回归分析 残差 总计 Significance F 是在显著性水平下的F的临界值,本题是7.37E-11远小于显著水平0.05。说明,回归效果显著。

Significance df SS MS F F 7 10.17918 1.454168 15.68543 7.37E-11 52 4.820825 0.092708 59 15

博泰典藏网btdcw.com包含总结汇报、自然科学、外语学习、表格模板、资格考试、行业论文、农林牧渔以及肾炎的诊断 数学建模 - 图文 等内容。

本文共5页12345