haihongyuan.com
海量文库 文档专家
全站搜索:
您现在的位置:首页 > 小学教育 > 小学数学小学数学

等概率整群抽样和多阶段抽样

发布时间:2014-01-21 17:57:36  

第四章 等概率整群 抽样和多阶段抽样
1. 2. 3. 4. 整群抽样 等概率整群抽样 等概率两阶段抽样 等概论两阶段抽样设计

概念:组成总体的基本单元 抽样单元

群:由若干个有联系的基本单 元所组成的集合称为群
整群抽样:抽样时抽取群,并 对入选群的所有单元进行调查。

两阶段抽样:由于群内单元通 常具有相似性, 尤其当群的规 模较大时, 对群内单元进行再 抽样,这就是实际调查中所用 的两阶段抽样,其中的群也称 为初级抽样单元,群内再抽样 的单元称为二级抽样单元

欲估计某高校大学生拥有的手机数量. 假 定该大学共有40 000大学生,10 000个 学生宿舍(每个宿舍住4人),抽400人

方案: 1、根据学生名录按简单随机抽样抽400人
2、根据学生宿舍名录随机抽100个宿舍, 并调查抽中宿舍的每个学生 3、先根据学生宿舍名录随机抽取400个宿 舍,再在每个宿舍中随机抽取一位学生

? 群的规模相等时经常采用 等概率抽样 ? 群的规模不等时也可以使用 等概率抽样 但实际中常采用不等概率抽样。

整群抽样及特点
1.整群抽样:将总体划分为若干群, 以群为抽样单元,对群中的所有 单位进行调查。 2.特点
1)抽样框编制得以简化 2)实施调查便利,节省费用 3)估计效率较低,抽样误差较大 4)对某些特殊结构的总体却有好的

估计效果,如:家庭-男女性别比

群的划分-大致可分为两类
1. 根据行政或地域形成的群体(如 学校、企业或街道 -节省费用) 2. 调查人员人为确定的(如将一大 块面积划分为若干块小面积的群)
分群的原则:群内差异尽可能大,群间 差异尽可能小 与分层抽样情况相反,总体结构
对复杂结构的总体,可以把两种方式结合使用

群的规模-指组成群的单元的数量
? 在整群抽样中, 群的规模具有相当的灵 活性,可大可小。群的规模大,估计的 精度差但费用省;群的规模小,估计的 精度提高但费用增大
? 实践中,确定群的规模涉及多种因素, 如群的具体结构、精度费用、调查实施 的组织管理等

? 对于规模大的群,通常采用多阶段抽样。

群的规模有两种情况:
? 总体中的各群规模相等

采用等概率的方法抽取群 ? 总体中的各群规模不等
采用不等概率的方法抽取群

符号说明
? ? ? ? ? ? N: 总体群数 n: 样本群数 Yij: 总体第i群的第j单位数值 yij: 样本中第i群的第j单位数值 Mi: 第i群规模(单位个数) 本节,M1= M2 =……=MN =M

Mt: 总体单位总数

Mt ? ? Mi
i ?1

N

Yi: 总体中第i群的总量
yi: 样本中第i群的总量

Yi ? ? Yij
j ?1
Mi

Mi

yi ? ? yij
j ?1

总体中第i群个体均值 样本中第i群个体均值 总体的群均值

样本的群均值

Yi ?
yi ?

Yi
yi

Mi
Mi

Y ? ? Yi N

N

y ? ? yi n

n

? 总体中的个体均值
(各群 M i ? M )

Y ?Y

M

? 样本中的个体均值

y y?

M

? 总体方差

N M 1 2 S ? Yij ? Y ?? M t ?1 i j

?

?

2

? 总体群间方差
N M 2 2 Sb ? (Yi ? Y ) ? N ?1 i

? 总体群内方差
1 2 ?Yij ? Yi ? S ? ?? N ( M ? 1) i j
2 w N M

? 样本方差

1 2 ?yij ? y ? s ? ?? nM ? 1 i ?1 j ?1
2 n M

? 样本群间方差 ? 样本群内方差
2 w

M 2 s ? ( yi ? y ) ? n ?1 i
2 b
n M

n

1 2 ?yij ? yi ? s ? ?? n( M ? 1) i j

4.2 等概率整群抽样

1. 群规模相等时的估计
均值估计量
SRS,群规模相同,均为M,则 Y 的估 计为:

1 ? ? yi nM n n M Ny ij ? 比较SRS抽 Y ? NMy ? ?? 取nM个样本 n

? yij Y ? y ? ??
n M

n

定理1: y

是 Y 的无偏估计,即

E?y ? ? Y
因为是按简单随机方法抽取群,所 以样本群均值 y 是总体群均值的 无偏估计,因而

E? y ? ? Y

M

?Y

定理2

y

的方差为

1? f V ( y) ? n

? ?Y
N i ?1

i

?Y

?

2

N ?1

1? f 2 ? Sb nM

证明: 由于
2

M V ( y) ? V ( y) ?

y ? My ,又 ? Y ?Y ? ? 1? f
N i ?1 i

2

n
2

N ?1



1 ? f i ?1 V ( y) ? 2 nM N ?1 1? f 2 ? Sb nM
i

? ?Y ? Y ?
N

1 ? f i ?1 ? nM M ( N ? 1)
i

? ?Y ? Y ?
N

2

定理3 V ( y ) 的样本估计为

1? f 2 v( y ) ? sb nM
因为

s

2 b

是S

2 b

的无偏估计,

所以 v ( y ) 是 V ( y ) 的无偏估计

总体总值

方差

Y ? NMY N ? ? NMy ? Y n

的估计

?y
i ?1

n

i

2 2 ? V (Y ) ? V ( NMy ) ? N M V ( y ) 2 2 ? v (Y ) ? N M v( y )

例1:在一次对某中学在校生零花钱的 调查中,以宿舍作为群进行整裙抽样, 每个宿舍都有M=6名学生,用简单随机 抽样在全部N=315间宿舍中抽取n=8 间宿舍. 全部48个学生上周每人零 花钱 yij 及相关计算数据如表.试 估计该校学生平均每周的零花钱Y , 并给出其95%的置信区间.

8个宿舍48名学生每周零花钱支出额
i
1 2 3 4 5 6 7 8 58 91 123 99 110 111 120 96 83 83 89 105 99 100 115 80
yij

yi

si
125.60 233.60 299.07

74 79 94 98

82 111 109 107

66 101 79 129 99 107 106 105

87 69 80 90 124 105 120 86

75.00 89.00 95.67

104.67 177.87 108.50 287.50 106.33 42.27 112.83 72.57 93.33 527.87

132 87 116 99 117 99 63 130

解:已知N=315,n=8,M=6,
f=n/N=0.0254
n



1 75 ? 89 ? ? ? 99.33 y ? ? yi ? ? 98.17 (元) n i ?1 8
M 6 ?(75 ? 98.17 ) ? ? ? 2 s ? ( yi ? y ) ? ? 926 .63 ? ? 2? n ? 1 i ?1 8 ?1 ? ?? (93.33 ? 98.17 ) ? ?
2 b n 2

1 ? f 2 1 ? 0.0254 v( y ) ? sb ? ? 926 .63 ? 18 .81 nM 8? 6 s ( y ) ? v( y ) ? 18 .81 ? 4.34

于是 Y 的置信度为95%的置信 区间为 98.17 ? 1.96(4.34) 也即 ?89.66元, 106

.68元?

2. 整群抽样效率分析
群内相关系数

?

的表达式为:

??

E (Yij ? Y )(Yik ? Y ) E (Yij ? Y )
2

上式中的分子为:

?? (Y
i ?1 j ? k

N

ij

? Y )(Yik ? Y )

NM ( M ? 1) 2

上式中的分母为:

?? (Y
i ?1 j ?1

N

M

ij

?Y )

2

NM

NM ? 1 2 ? S MN

故 ? 又可写为:
2?? (Yij ? Y )(Yik ? Y )
i ?1 j ?1 N M

??

( NM ? 1)( M ? 1) S

2

y

的方差可用群内相关系数近似

1 1? f V ( y) ? 2 V ( y) ? 2 M nM

? ?Y ? Y ?
N i ?1 i

2

N ?1

1 ? f ( NM ? 1) 2 ? ? ? ? ? S 1 ? M ? 1 ? 2 n M ( N ? 1) 1? f 2 ? S ?1 ? ?M ? 1?? ? nM

M ? ? 2 (Yi ? Y ) ? ? ?? Yij ? Y ? ? i i ? j ? N N N

? ?

2

2 ?M ? ? ? ?? Yij ? Y ? 2? Yij ? Y Yik ? Y ? i ? j j?k ? 2 2 ? ( NM ? 1) S ? ( M ? 1)( NM ? 1) S ?

? ?
2

? ??

?

? ( NM ? 1) S (1 ? ( M ? 1) ? )

? 简单随机抽样的方差公式为

1? f 2 Vsrs ( y ) ? S nM
? 等群抽样的设计效应为

V ( y) deff ? ? 1 ? ( M ? 1) ? Vsrs ( y )

整群抽样的估计效率,与群内相关
系数 ? 的关系密切

当 当

? ? ?

=1时,deff=M
=0时,deff=1

群内方差为0 群内方差与总体 方差相等

为负时,deff<1,取值范围是

1 ? ? ? , 1 ? M ?1 ? ? ?

群间方差为0

群内相关系数也可由样本统计量 2 2 表示 sw , sb

s ?s ?? 2 ? 2 sb ? ( M ? 1) sw
2 b 2 w

较大,则分层抽样精度较高, 而整群抽样的精度较低。

s /s

2 b

2 w

例2 由例1数据,计算群内相关系 数与设计效应

s ? 926 .63 解:样本群间方差 而群内方差为 n M 1 2 2 sw ? ( yij ? yi ) ?? n( M ? 1) i ?1 j ?1
2 b

1 1 1 2 2 ? ? ( yij ? yi ) ? ? si ? n i ?1 M ? 1 j ?1 n i ?1 1 ? (125 .6 ? 233 .60 ? ? 527 .87 ) ? 220 .79 8

n

M

n

2 2 sb ? sw 926 .63 ? 220 .79 ?? 2 ? ? ? 0.348 2 sb ? ( M ? 1) sw 926 .63 ? (6 ? 1)220 .79

? deff ? 1 ? ( M ? 1) ? ? 1 ? (6 ? 1) ? 0.348 ? 2.74
表明为达到同样的估计精度,整群抽 样的样本量大约为简单随机抽样样本 量的2.74倍.

若 nsrs 令为简单随机抽样的样 本量则
nsrs Mn 8 ? 6 ? ? ? 18 deff 2.74

即用简单随机抽样18个学生,可达 到整群抽样48个学生相同的估计 精度

2 群Mi规模不等时的估计
? 如果各群规模不等,前面简单估计 量是有偏的
n

? 等概抽样,总体均值的无偏估计

M i yi 1 y?? ? nM nM
N i ?1

? y yN Y ? yi ? M ? M N ? M 0
n

其中 M ? (? M i ) / N

y

? ( ? yi ) / n
i ?1

n

??M y 总体总量Y的估计为 Y 0
其中, M 0 ? ? M i
i ?1 N

N ? Y ? 或用等价的公式 n

?y
i ?1

n

i

估计量的方差为
N ? V (Y ) ?
2

(Y ? Y ) ? (1 ? f )
i ?1 i

N

2

n
n

N

?1
i

它的无偏估计为
N ? v(Y ) ?
2

(y ? (1 ? f )
i ?1

? y)

2

n
N 2

n ?1
(Y ? Y ) ? (1 ? f )
i ?1 i 2

均值估计 Y 的方差为

1 N ? V (Y ) ? 2 V (Y ) ? M0 M 02 n

N ?1

群规模差 别大,会 造成Yi差 异大,导 致估计精 度低

? 等概抽样,比率估计
总体均值估计为

y ? y? ?M
n n

i i

这里辅助变量不是Xi而是群规模Mi

总体总量估计为

??M y?M Y 0 0

?y ?M
n n

i i

估计量的方差分别是
1? f V ( y) ? nM 2
2 ( Y ? Y M ) ? i i N

N ?1

1? f ? nM 2
2

2 2 M ( Y ? Y ) ? i i

N

N ?1
2 ( Y ? Y M ) ? i i N

N (1 ? f ) 2 2 2 ? V (Y ) ? M 0 V ( y ) ? N M V ( y ) ? n

N ?1

? ) 的样本估计分别是 V ( y ) 与 V (Y ( y ? yM ) ? 1? f
n 2 i i

v( y ) ?

nm 2

n ?1

n n n 1? f 1 2 2 2 ? (? yi ? y ? M i ? 2 y ? M i yi ) 2 nm n ? 1
2 ( y ? y M ) ? i i n

2 N (1 ? f ) ? v(Y ) ? n n ?1 n n n N 2 (1 ? f ) 1 2 2 2 ? ( ? yi ? y ? M i ? 2 y ? M i yi ) n n ?1

例3:某县有33个乡,726个村, 某一年度某农作物总种植面积 30525亩. 现采用等概抽样随机 抽出10个乡,要求利用无偏估计 量和比率估计量分别估计全县总 产量,并给出估计量的标准差。

样本乡
编号

村庄数
Mi

作物总产量(乡) 种植面积(乡)
yi(万公斤) xi(亩)

yi ? yi M i
1.4667

1

15

22.0

800

2
3 4

18
26 14

22.8
30.2 21.7

780
1000 700

1.2667
1.1615 1.55

5
6 7

20
28 21

25.3
31.2 26.0

880
1100 850

1.265
1.1143 1.2381

8
9 10 合计

19
31 17 209

20.5
33.8 23.6 257.1

800
1200 830 8940

1.079
1.0903 1.3882 ——

1. 无偏估计
N ?? Y n 33 ? yi ? 10 (22.0 ? ? 23.6) ? 848 .43
n

1 n y ? ? yi ? 25 .71 n

N ? v (Y ) ?

2

(y ? (1 ? f )

n

i

? y)

2

n n ?1 ? ) ? 1567 .9 ? 39 .6(万公斤) s (Y

? 1567 .9

评价:虽是无偏估计量,但方差不小

2 以群规模为辅助变量的比率估计
??M Y t

?y ?M
n n 2

i i

257 .1 ? 726 ? 893 .08 209
2 ( y ? y M ) ? i i n

N (1 ? f ) ? v(Y ) ? n n ?1 ? ) ? 687 .8 ? 26 .2(万公斤) s (Y

? 687 .8

评价:有偏,n较大时比较理想

3 以种植面积为辅助变量的比率估计
已知:用种植面积X=30525(亩) 为辅助变量

? ? Y?X ?

n

257 .1 ? ? 30525 ? 877 .85 n xi 8940
n

yi

N (1 ? f ) ? ? v(Y ) ? ? 127 .84 n n ?1 ? ) ? 127 .84 ? 11 .3(万公斤) s (Y
2

? x )2 ( yi ? R i

评价:估计量的估计误差最小

? 注意-用简单估计
1 n 1.4667 ? ? ? 1.3882 y ? ? yi ? ? 1.262 (万公斤) n 10 ? ? M y ? 726 ? 1.262 ? 916 .212 (万公斤) Y t
2 M t (1 ? f ) ? v(Y ) ? n n ?1 726 2 (1 ? 10 33) (1.4667 ? 1.262 ) 2 ? ? ? (1.3882 ? 1.262 ) 2 ? 10 10 ? 1 ? 966 .19 2 ( y ? y ) ? i n

? ) ? 966 .19 ? 31.1(万公斤) s(Y

评价:有偏估计

总体比例的估


令 ai 为第i群中具有某特征的单位数
ai Pi ? Mi

为第i群中的比例. 用srs方法

抽取n群,对总体比例P进行估计
一 群规模相等时的估计

1 1 n ?? P Pi ? ? n nM

?a
n

i

M为每群中的单位数。M1=M2=…=M 规 模相等.

? P

为 P 的无偏估计

1 ? f ?) ? V (P n N ?1 1 ? f n 2 ? ? v( P) ? ( Pi ? P) ? n(n ? 1)

?

N

( Pi ? P)

2

?

群规模不等时的估计
Mi不等,srs方法抽取群 为比估计形式

a ? ?? P ?M
n n

i i

1? f ? V ( P) ? 2 nM 1? f ? 2 nM
N

? ?

N

(ai ? PM i ) N ?1
2 i

2

N

M ( Pi ? P) N ?1

2

式中 M ? 1 ?N M i

为群平均规模

1 ? f ?) ? v( P 2 nm

?
n

n

2 ? (ai ? PM i )

n ?1
n n

1? f 1 2 2 2 ? ? aM ) ? ( a ? P M ? 2 P ? ? ? i i i i 2 nm n ? 1

例题:

群(i)
1 2 3 4 5 6 7 8 9

居民数(Mi)
8 12 4 5 6 6 7 5 8

女性人数(ai)
4

群 (i)
14 15 16 17 18 19 20 21 22

居民数(Mi) 女性人数(ai)
10 9 3 6 5 5 4 6 8 5 4 1 4 2 3 1 3 3

7
1 3 3 4 4 2 3 2 1

10
11 12

3
2 6

23
24 25 合计

7
3 8 151

4
0 3 72

3
2

13

5

以95%的置信区间估计该小区女性的 置信区间, 并同简单随机抽样方法 进行比较。

这是群规模不等的比例估计
a ? ?? P ?M M ? m?
n i n n

i

72 ? ? 0.477 151 151 ? ? 6.04 25

i

n

n n n 1 ? f 1 2 2 2 ? ? ? v( P) ? ( a ? P M ? 2 P ai M i ) ? ? ? i i 2 nm n ? 1

0.94 12 .729 ? ? 0.00055 2 25(6.04 ) 25 ? 1
置信区间

0.447 ? 1.96 0.00055

若采用简单随机抽样,抽151人,其中 女性72人,估计为
72 ? P? ? 0.477 151

1? f 0.94 ? vsrs ( P) ? pq ? 0.477 (0.523) n ?1 151 ? 1 ? 0.00156

设计效应:

?) v( P 0.00055 deff ? ? ? 0.353 ? ) 0.00156 vsrs ( P

还可进一步计算群内相关系数

deff ? 1 ? ( M ? 1) ? ? 0.353 0.353 ? 1 ?? ? ?0.128 5.04

4.3 等概率两阶段抽样
4.3.1 多阶段抽样
? 样本比较集中,节省费用 ? 避免了对小单元过多调查造成浪费 ? 只需要编制初级单元的抽样框,对被抽 中的初级单元,再编制二级抽样框,依次 类推, 每阶段只需编制该阶段的抽样框, 从而大大降低了编制抽样框的工作量 ? 大规模调查一般都采用多阶段抽样技术

分多个阶段抽到最终接受调查的样本。

初级单元(PSU)----Primary Sampling Unit
二级单元 (SSU)----Second-stage Sampling Unit 三级单元(TSU)----Third-stage Sampling Unit 最终单元 (USU)----Ultimate Sampling Unit

多阶段抽样每个阶段抽样可以相同,也 可以不同, 它通常与分层抽样,整群抽 样,系统抽样结合使用

两阶段抽样估计量的均值和方差
定理4.4: 对于两阶段抽样, 有
? ) ? E [ E (? ? )] E (? 1 2

? ? ? V (? ) ? V1[ E2 (? )] ? E1[V2 (? )]
式中, E2,V2 表示 在固定初级单元时对 第二阶段抽样求均值和方差; E1,V1

表 示 对第一阶段抽样求均值和方差;

?) ?? 记 E (? ?,

推导 过程

? ) ? E (? ? ?? ? ?? V (? ?)2 ? E1E2 (? ?) 2 ? ?? ? )2 ?2? ?) ? ? E2 ( ? ? ) 2 ? E 2 (? ?E2 (? ?2
2 ? ) ? ?V (? ? ) ?2? ?) ? ? ?? E ( ? ? E ( ? ? 2 2 ? 2 ? 2

对 两 边 求 E1 , 得

? )? ? ? E E ( ? ? ) ? E ? E (? ? ) ? ? E ?V (? ? )? V (? 1? 2 1 2 1 2 ? ? ? ? ? ? ) ? ? E ?V (? ? )? ? V1 ? E ( ? 2 1 2 ? ? ? ?

2

2

采用 srs,从 N 中抽 n 个初级单元

第二节 初级单元大小相 等时的二阶抽样

采用 srs 从每个中选初级单元中抽取 m 个次级单元

一、符号

Yij ,总体中第 i 个初级单元中第 j 个次级单元指标值
i =1,2,….N, j=1,2,….M

yij ,样本中第 i 个初级单元中第 j 个次级单元观测值
i =1,2,…n,
j=1,2,….m

n m f1 ? , f 2 ? N M
Yi ? ? Yij y i ? ? y ij Yi Yi ? M
m M

yi yi ? m Yi Y ?? N
y??
n

N

yi n

N 1 2 2 S1 ? (Yi ? Y ) ? N ? 1 i ?1
n 1 2 s12 ? ( y ? y ) ? i n ? 1 i ?1
N M 1 2 2 S2 ? ( Y ? Y ) ?? ij i N ( M ? 1)

n m 1 2 2 s2 ? ( yij ? yi ) ?? n(m ? 1) i ?1 j ?1

定理4.5: 对于初级单元相等的两阶段抽样,如 果两个阶段都是简单随机抽样,且对于每个初 级单元,第二阶抽样是相互独立进行的, 则对 总体均值的无偏估计为

? 1 1 Y ? y ? ? yi ? yij ?? n i ?1 nm i ?1 j ?1
n n m

其方差为

1 ? f1 2 1 ? f 2 2 V ( y) ? S1 ? S2 n mn

V ( y)

的无偏估计为

1 ? f1 2 f1 (1 ? f 2 ) 2 v( y ) ? s1 ? s2 n nm 其中: n
1 2 s ? ( yi ? y ) ? n ? 1 i ?1
2 1

n m 1 2 2 s2 ? ( yij ? yi ) ?? n(m ? 1) i ?1 j ?1

1 n E ( y ) ? E1 E 2 ( ? y i ) n 1 n ? E1 [ ? E 2 ( y i )] n 1 n ? E1 [ ? Yi ] ? Y n

1 ? f1 2 1 ? f 2 2 V ? y? ? S1 ? S2 n nm ? ? 1 n ?? ?1 n ? ? V1 ? ? E2 ? y ?? ? V1 ? E2 ? n ? yi ? ? ? V1 ? n ? Yi ? ? i ?1 ? ? ? i ?1 ? ? ? 1 n ? 1 ? f1 1 N ? V1 ? ? Yi ? ? Yi ? Y ? n N ? 1 i ?1 ? n i ?1 ?

?

?

2

1 ? f1 2 ? S1 n

? ? 1 n ?? ?1 n ? ? E1 ? V y ? E V y ? E V y ? 1? 2? i ?? 1 ? 2 ? 2 ? i ?? ? 2 ? ?? ? n i ?1 ? ? ? n i ?1 ? ? ? 1 n ? 1 ? f2 1 M 2 ?? ? 1 n ? 1 ? f 2 2 ?? ? E1 ? 2 ? ? Yij ? Yi ? ? ? ? E1 ? 2 ? ? S 2i ? ? ? ? ?? ? n i ?1 ? m M ? 1 j ?1 ? ? n i ?1 ? m ?? ? 1 ? f2 ? 1 n 2 ? 1 ? f2 ? 1 ? E1 ? ? S2 i ? ? nm nm ? ? n i ?1 ? ?N ? 1 ? f2 2 S ?? S2 ? nm i ?1 ?
N 2 2i

E s

? ?
2 2

n m ? ? 1 ? 2? ? ? E1 ? ( yij ? yi ) ? ? ? E2 s ? ? E1 ? E2 ? n( m ? 1) ?? i ? 1 j ?1 ? ?? ? ?

?

? ?
2 2

?1 n ? ? 1 m 2? ? E1 ? ? E2 ? ( yij ? yi ) ? ? ? ? ?? ? n i ?1 ? m ? 1 j ?1 ? ?1 n 1 M ?1 n 2 ? 2? ? E1 ? ? (Yij ? Yi ) ? ? E1 ? ? S 2i ? ? ? n i ?1 ? ? n i ?1 M ? 1 j ?1 ? 1 ? N

?S
i ?1

N

2 2i

? S22

n 2? ? n 2 2 ? E2 ? n ? 1 s ? E y ? y ? E y ? nE y ? ? ? ? ? ? 2 ? i 2 i 2 ? ? ? ? i ?1 ? i ?1 2 1

? ?

? ?

2 2 ? ? ? ? ? ? ?? ? E y ? ? V y ? n E y ? V y ? ? ? ? ? ? ? ? 2 i 2 i 2 2 ? ? ? ? ?? ? ?? ? i ?1

n

?1 ? 1 ? f2 n 2 ? 2 1 ? f2 2 ? ? ? ?Yi ? S2 i ? ? n ? ? Yi ? ? S 2i ? m nm i ?1 ? i ?1 ? ? n i ?1 ?
n n

2

1 n 记 Yn ? ? Yi , (注意 Yn ? Y ) ,则 n i ?1
n n 1 ? f 1 ? f 2 2 2 2 ?Y ? ? ? ? ? E2 ? n ? 1 s ? Y ? n S ? S ? ? ? ? ? 2i 2i ? ? ? i ? ? n? m i ?1 nm i ?1 i ?1 2 1 n 2 2 n ( n ? 1)(1 ? f ) 2 ? ? ?Yi ? Yn ? ? S 22i ? ? ? nm i ?1 i ?1 n 2

E s

? ?
2 1

1 n 1 ? f2 ? 1 n 2 ? ? 2? ? ? E1 ? ? E2 s ? ? E1 ? n ? 1 ? (Yi ? Y ) ? ? m E1 ? n ? S 2i ?

? ?
2 1

【例】欲调查4月份100家企业的某项指 标,首先从100家企业中抽取了一个含 有5家样本企业的简单随机样本,由于 填报一个月的数据需要每天填写流水 帐,为了减轻样本企业的负担,调查 人员对这5家企业分别在调查月内随机 抽取3天作为调查日,要求样本企业只 填写这3天的流水帐。调查的结果如下 :

要求根据这些数据推算100家企业该指标
的总量,并给出估计的95%置信区间。
样本企业 1 2 第一日 57 38 第二日 59 41 第三日 64 50

3
4 5

51
48 62

60
53 55

63
49 54

n 5 f1 ? ? ? 0.05 N 100
样本企业 1 2 3

m 3 f2 ? ? ? 0.10 M 30

yi
60 43 58

s
13 39 39

2 2i

4
5

50
57

7
19

1 n 1 y ? ? yi ? (60 ? 43 ? 58 ? 50 ? 57) ? 53.6 n i ?1 5
1 ? f1 2 f1 (1 ? f 2 ) 2 v? y ? ? s1 ? s 2 ? 9.3670 ? 0.0702 ? 9.4372 n nm

? ? NMy ? 100 ? 30 ? 53.6 ? 160800 Y
? ? N 2 M 2v ? y ? ? 1002 ? 302 ? 9.4372 ? 84934800 v Y
? s Y

? ?

? ?

? ? 84934800 ? 9216.0078 ? vY

??

160800 ? 1.96 ? 9216

? 方差估计式中,第一项是主要的,第二项要小得多。 因为第二项的分母是第一项的 m 倍,且要乘以小于 1 的f1 ? 如果第一阶的抽样比f1可以忽略,则方差估计式可以 简单为如下的结果:

s12 1 1 n 2 v? y ? ? ? ( yi ? y ) ? n n n ? 1 i ?1
? 这个结果在实际工作中非常有用,因为第二阶 抽样采用等距抽样或某些复杂抽样时,方差的 无偏估计很难得到,当f1可以忽略时,只需要 初级单元的均值就可以得到方差的估计。

ai,

第i个初级单元中具有某特征的次级单元数。

三、总体比例的估计 ai,第 i 个初级单元中具有某特征的次级单元数。

1 n 1 n m p ? ? pi ? ai ?? n nm
N 1 ? f1 1 N 1 ? f M 2 2 V ( P) ? ( P ? P ) ? Pi Qi ? ? i n N ?1 nm N ( M ? 1)

n 1 ? f1 n f ( 1 ? f ) 2 1 2 v( p) ? ( p ? p ) ? pi qi ? ? i 2 n(n ? 1) n (m ? 1)

初级单元规模不等二阶段抽样
? 简单估计量
n n N N ? ? ? M y ? ?Y ? Y u i i i n i ?1 n i ?1
2 ? ? ? (Yi ? Yu ) i ?1 n

N ?1 ? f1 ? ? v (Yu ) ? n
2

n ?1
n

N ? n

M ?1 ? f 2i ? s ? mi i ?1
n 2 i

2 2i

1 ? ? Yu ? ? Y i n i ?1

? 自加权条件:第二阶(段)抽样比为一个常数

mi f 2i ? ? f2 Mi
N ? Yu ? n N M i yi ? ? n i ?1
n

Mi ? i ?1 mi

n

N yij ? yij ? ?? f 2 n i ?1 j ?1 j ?1

mi

n

mi

? 比率估计量

? ?M Y R

i ?1 0 n

? M i yi ?M
i ?1 i

n

? M0
n

? Y ?i

n

?M
i ?1

i ?1 n

其中, M 0 ? ? M i
i

N

? )? v(Y R

N ?1 ? f1 ?
2

? 2 ? M ( yi ? YR )
i ?1 2 i

n

n ?1

N M ?1 ? f 2i ? s ? ? n i ?1 mi
n 2 i

2 2i

mi 其中, f 2i ? Mi

mi 1 2 2 s2 ? ( y ? y ) ? i ij i mi ? 1 j ?1

四、最优样本量 m 与 n 的确定 目标:
CT 给定条件下,如何确定 m 与 n,从而使 V ( y ) 最小。

考虑费用函数
二级m的最优值

CT ? c0 ? c1n ? c2 nm
mopt S ? S?
2 2

c1 c2

2 S 其中 S?2 ? S12 ? 2 M

再根据费用等要求,确定n


网站首页网站地图 站长统计
All rights reserved Powered by 海文库
copyright ©right 2010-2011。
文档资料库内容来自网络,如有侵犯请联系客服。zhit326@126.com