九、方差分析.ppt
第十章第十章 方差分析方差分析 (定类变量-定距变量)(定类变量-定距变量) 第一节第一节 什么是方差分析?什么是方差分析? 什么是方差分析? 定类-定距变量的研究,采用方差分析: n 从内容来说,方差分析是分析或检验多个总 体间的 均值 是否有所不同; n 从检验所用的方法来说,方差分析则是通过 方差 来进行检验的。 什么是方差分析 ? 1. 检验多个总体均值是否相等 § 通过对各观察数据误差来源的分析来判断多个 总体均值是否相等 2. 变量 n 自变量:一个定类变量 --一元方差分析 二个定类变量 –二元方差分析 多个定类变量 --多元方差分析 n 因变量:一个定距变量 什么是方差分析 ? (一个例子) 管理人 员 工人 技 术员 3, 5, 0, 5, 4, 4, 2, 3, 1, 3, 2, 3, 3, 2, 4, 2, 6, 1 1, 3, 4, 4, 6, 2, 3, 4, 3, 5, 2, 4 6, 4, 2, 2, 3, 0, 5, 3, 1, 2, 1 【【 例例 】】 以下是以下是 某企业职工家庭赡养人数的抽样调查数据。职工类型共分某企业职工家庭赡养人数的抽样调查数据。职工类型共分 为三种,分别为为三种,分别为 管理人员管理人员 、、 工人工人 、、 技术员技术员 。试分析职业是否对家庭赡养。试分析职业是否对家庭赡养 人数有影响。人数有影响。 什么是方差分析 ? (例子的分析) 1. 检验 职业是否对家庭赡养人数有影响职业是否对家庭赡养人数有影响 ,也就是检 验三类不同职业的平均家庭赡养人数是否相同 2. 设 1为管理人员的平均家庭赡养人数, 2为工人 的平均家庭赡养人数, 3为技术员的平均家庭赡 养人数,也就是检验下面的假设 § H0: 1 2 3 § H1: 1 , 2 , 3不全相等 3. 检验上述假设所采用的方法就是方差分析 方差分析的基本思想和原理 n 1. 比较两类误差,以检验均值是否相等 n 2. 比较的基础是方差比 n 3. 如果 系统误差 显著地不同于 随机误差 , 则均值就是不相等的;反之,均值就是相等 的 n 4. 误差是由各部分的误差占总误差的比例 来测度的 方差分析的基本思想和原理 方差分析的基本思想和原理 (两类误差) 1. 随机误差 § 在自变量的同一取值下,样本的各观察值之间的差异; § 比如,企业管理人员中,每个人的家庭赡养人数是不同的; § 可以将此看作是由于抽样的随机性所造成的,称为 随机误差 2. 系统误差 § 在自变量的不同取值下,样本的各观察值之间的差异; § 比如,管理人员、工人、技术员,他们的家庭赡养人数是不 同的; § 这种差异 可能 是由于抽样的随机性所造成的, 也可能 是由于 职业本身所造成的,后者所形成的误差是由系统性因素造成 的,称为 系统误差 方差分析的基本思想和原理 (两类方差) 1. 组内方差 RSS § 自变量的同一取值下样本数据的方差 § 比如,管理人员中家庭赡养人数的方差 § 组内方差只包含 随机误差 2. 组间方差 BSS § 自变量的不同取值下各样本之间的方差 § 比如,三种职业类型之间的方差 § 组间方差既包括 随机误差 ,也包括 系统误差 方差分析的基本思想和原理 (方差的比较) 1. 如果不同 职业 (原因)对 家庭赡养人数 (结果 ) 没有影响,那么在组间方差中只包含有随机误差 ,而没有系统误差。这时,组间方差与组内方差 就应该很接近,两个方差的比值就会接近 1 2. 如果不同职业对结果有影响,在组间方差中除 了包含随机误差外,还会包含有系统误差,这时 组间方差就会大于组内方差,组间方差与组内方 差的比值就会大于 1 3. 当这个比值大到某种程度时,就可以说自变量 的不同取值之间存在着显著差异 方差分析的基本假定 方差分析的基本假定 1. yi应服从正态分布 § 对于自变量的每一个取值,其观察值是来自服从正态 分布总体的简单随机样本 § 比如,每种职业的家庭赡养人数必需服从正态分布 2. 等方差性 (equal variance) § 对总体而言,自变量的每一个取值对应的因变量 yi的 分布都具有相同的方差 § 可以把自变量的每一个取值所对应的总体看作一个总 体,管理人员总体、工人总体、技术员总体 方差分析中的基本假定 1. 在上述假定条件下,判断职业对家庭赡养人是 否有显著影响,实际上也就是检验具有同方差 的三个正态总体的均值是否相等的问题 2. 如果三个总体的均值相等,可以期望三个样本 的均值也会很接近 § 三个样本的均值越接近,我们推断三个总体均值 相等的证据也就越充分 § 样本均值越不同,我们推断总体均值不同的证据 就越充分 方差分析中基本假定 如果原假设成立,即 H0: 1 = 2 = 3 n 三种职业的家庭赡养人数的均值都相等 n 没有系统误差 n 这意味着 每个样本都来自均值为 、方差为 2的 同一正态总体 X f(X) 1 2 3 方差分析中基本假定 如果备择假设成立,即 H1: i (i=1, 2, 3)不全相等 n 至少有一个总体的均值是不同的 n 有系统误差 n 这意味着三个样本分别来自均值不同的三个正态总体 X f(X) 1 2 3 方差分析的分类? 1. 一元 方差分析:指方差分析中的自变量只 有一个定类变量,因变量为定距变量。 2. 二元 方差分析:指方差分析中的自变量有 二个定类变量,因变量为定距变量 3. 多元 方差分析:指方差分析中的自变量有 多个定类变量,因变量为定距变量 第二节第二节 一元方差分析一元方差分析 一元方差分析的步骤 •提出假设提出假设 •构造检验统计量构造检验统计量 •统计决策:统计决策: 给出给出 ,查表得出拒,查表得出拒 绝域和临界值绝域和临界值 ;计算检验统计量;计算检验统计量 、作出判断、作出判断 提出假设 1. 一般提法 § H0: 1 = 2 =… = k (自变量有 k个水平) § H1: 1 , 2 , … , k不全相等 2. 对前面的例子 § H0: 1 = 2 = 3 • 职业对家庭赡养人数没有影响 § H0: 1 , 2 , 3不全相等 • 职业对家庭赡养人数有影响 构造检验的统计量 1. 为检验 H0是否成立,需确定检验的统计量 2. 构造统计量需要计算 § 组平均值 § 全部观察值的总平均值 § 离差平方和 TSS 构造检验的统计量 (计算组平均值 ) 1. 组内观察值的总和除以组内观察值的总个数 2. 计算公式为 式中:式中: ni为第为第 i 组的样本观察值个数组的样本观察值个数 yij 为第为第 i 组的第组的第 j 个观察值个观察值 构造检验的统计量 (计算全部观察值的总平均值 ) 1. 全部观察值的总和除以观察值的总个数 2. 计算公式为 构造检验的统计量 (前例计算结果 ) 构造检验的统计量 (计算总离差平方和 TSS-total sum of squares) 1. 全部观察值 与总平均值 的离差平方和 2. 反映全部观察值的离散状况 3. 其计算公式为 前例的计算前例的计算 结果 构造检验的统计量 (计算组内离差平方和 WSS-wintin-groups sum of squares) 1. 每个组的样本数据 与其组平均值 的离差 平方和 2. 反映每个样本各观察值的离散状况,又称 组内 平方和 3. 该平方和反映的是随机误差的大小 4. 计算公式为 § 前例的计算结果前例的计算结果 W 构造检验的统计量 (计算组间离差平方和 BSS-between- groups sum of squares) 1. 各组平均值 与总平均值 的离 差平方和 2. 反映各总体的样本均值之间的差异程度,又称 组间平方和 3. 该平方和既包括随机误差,也包括系统误差 4. 计算公式为 前例计算的结果 构造检验的统计量 (三个平方和 的关系 ) 总离差平方和 (TSS)、组内离差平方和 (WSS) 、组间离差平方和 (BSS) 之间的关系 TSS = WSS + BSS