武汉代孕
 
代孕
编辑部信息

社内人员:郑娜  吴亮      

主办:浙江省文学艺术界联合

国际刊号:ISSN  1002-6215

国内刊号:CN  33-1032/I

编辑出版:山海经-教育前沿杂志社

网        址:www.shjbjb.com

在线投稿: shjzzs@vip.qq.com

Q Q:779624634(郑娜编辑)     

          280747782(吴亮编辑)

                  

杂志社电话:0571-28069909





 
浅析数据调查中的非抽样误差
发布时间:2015-04-17 18:59:09        发布人:管理员        浏览次数:508 次

一、问题的提出

调查误差分抽样误差和非抽样误差,其中统计调查的数据质量与调查误差成反比,调查质量与抽样误差和非抽样误差存在以下关系:

调查质量=1/(抽样误差+非抽样误差)=1/调查误差

可见,只要抽样误差和非抽样误差中有一方或者双方同时增大,就会使得调查质量下降。

抽样误差是由部分总体作息推断总体特征而产生的误差,然而只要选定了抽样方法,根据公式就能计算出误差值大小,从而它是可以事先计算并加以控制的。只要在经费许可的范围内,增加样本容量、改变抽样方法、就能对它实现有效的控制。

然而,现阶段的统计实践工作中非抽样误差在总误差中占很大比重,从而通过减少非抽样误差降低总误差显得具着非常现实的重要意义【1】,同时非抽样误差不仅存在于抽样调查与非全面调查,而且全面调查中也存在。

二、非抽样误差的产生

非抽样误差是难以计算和控制的,它产生于调查的各个阶段,从调查开始时的历史数据的收集和调查方案的设计阶段,到调查的实施和数据收集阶段,以及最终的数据处理和分析阶段.

特别是在统计调查中,相关利益群体如赞助商等有目的的行为影响贯穿于整个统计调查过程 ,从而使得调查的最终结果向他们所希望的方向发展,让数据结果看似客观,却背离了事实。这样的数据结果除了对相关利益群体有用处外实际上是毫无意义,然而当前的统计调查中这种非抽样误差却是经常存在。

三、非抽样误差的类型

本文将非抽样误差分三类分别为抽样框误差、无回答误差和计量误差【2】。

(一)抽样框误差的来源及其影响

它包括联系抽样框单位和总体单位的机制或规则,还包括辅助信息。好的抽样框是使目标总体单位和抽样总体单位一一对应,否则就会产生抽样框误差。

调查中的抽样框误差有以下来源,它们对调查的影响程度是不同的:

1.丢失目标总体单位:

它是指抽样框没有覆盖全部目标总体单位,它是抽样框误差中最严重的问题.这会造成对总量的估计偏低,对其他统计量是否有偏差,需视情况而定,主要取决于抽样框中包括的单位与丢失的单位是否存在差异。它是调查中最主要的抽样框误差。

2.包含非目标总体单位:

这是指抽样框中包含了一些不属于研究对象的目标总体单位。它可引起总量估计量的高估,降低估计效率。

3.复合联接:它是指多对一和多对多的抽样框结构。例如在入户访问中,如果按街区、门牌抽选样本,便产生多对一的抽样框结构有几处住所的家庭被抽中的概率是其它家庭的几倍。拥有多处住所的家庭一般具有某类特征如拥有高收入等,用这样的样本对目标总体进行推算当然会产生偏差。

4.不正确的辅助信息:很多抽样框中包含了辅助信息,用于特定的抽样设计和估计技术,复杂抽样框中的辅助信息可以用于特定的抽样方法(如分层抽样和 PPS抽样),如果研究的调查变量的特征与辅助信息的特征高度相关,还可用于比率估计和回归估计;如果辅助信息不全或不准确,就会影响估计的准确度。

5.整群抽样框不恰当的使用及抽样框陈旧

整群抽样框中的抽样单位是目标总体元素的群,如果使用不当,样本估计值就会产生误差。不准确的抽样框或抽样框过时,会找不到有关信息,这与丢失单位或无法联接的问题相似。


 总之,它们之所以产生误差有时也因构造抽样框的材料有问题,其次也因抽样框使用不当,最后有些类型的抽样框误差在不同场合下可被视为其他类型的误差。                                                                  


(二)无回答误差的来源及其影响

“无回答”是指不能从问卷中的所有问题和所有样本单位中获得有用的数据。

从范围上看,它分为项目无回答和单位无回答。前者指的是样本单位接受了调查,但没有回答全问卷中的所有问题。后者是指样本单位没有接受调查,故调查员没有从中收集到任何有价值的信息。

从被调查者的角度看,无回答又可以被分为无意识无回答和有意识无回答,而国外学者将“无回答”称为“不完全数据”、“缺失数据”、

“无访问” 和“不合作”等。

从调查的全过程看,首先寻找调查人员,根据抽样框提供的信息找到具体的被调查者单位。然后联系,通知调查人员与被调查单位,以便使被调查单位有接受调查的思想准备。最后进行调查或资料收集,在这整个过程都有可能产生无回答误差。

无回答对调查的统计影响非常大;一方面它的存在往往形成一种系统性误差也称偏差。另一方面,它会使得分析时所用的有效样本量减少,降低估计量的精度。

一些调查人士因没认真考虑无回答的处理,使得他们的数据分析结果存在问题。

(三)计量误差的来源及其影响

计量误差又称回答误差,是指调查中所获得的数据与调查项目的真值之间不一致而产生的误差。在调查中调查设计、被调查者、调查员等都可以引起计量误差。

1.调查设计的原因:它是指由于调查方案设计不够完善或存在某些欠缺,不够科学而引起的误差,具体包括问卷设计;数据的收集方式如面访;问题排序顺序;估计量的选择如比率估计、变量的选择;抽样程序的设计及其实施、回归估计等。

2.被调查者的原因:被调查者接受调查时可能受到复杂心理作用的影响;由被调查者引起的误差可分为两类,即有意识回答误差和无意识回答误差。

3.调查员的原因:调查员的用语、行为中明显指示、提问方式、追问方式都会影响计量的准确性;调查员工作不认真造成的记录错误和调查员对问题的答案流露出倾向性等都会导致计量误差。

4.其它原因包括计量工具的不准确、随机数字表自身的缺陷或者使用不当、数据处理中的编码、录入出错、换户等都会造成计量误差。

相对而言,计量误差是最复杂的,最难以测量和控制的非抽样误差。它对调查的统计影响很大,问卷设计中如果变量选择不当,就会造成伪相关;如果计量误差是关于真值随机分布的,估计值的方差将变大,结果的精确度将减小;另一方面,由计量误差引起的系统偏差可能会使调查结果的估计值没有代表性。

四、非抽样误差的控制

(一)抽样框误差控制

在现实生活中,有缺陷的抽样框并非不能用,关键是如何去弥补和弥补的成本的大小。减少抽样框误差一般采用以下一些对策:

1.联接丢失单位。所谓联接丢失单位是指抽样样本丢失的个体和抽样样本中某个值相联结, 它主要适用于不能覆盖总体单位而引起的误差。如某城市最近兴建某几个小区,而事先在抽样的过程中并不知晓, 那么可将这几个小区与最近小区相联接, 如果最近小区被抽中, 那么就可视为新建小区被抽中并接受相应的调查。联接丢失单位最重要的基础是在抽样的过程中能发现被丢失的单位, 如不能发现,那么联接丢失单位就无从谈起。

2.采用辅助抽样框。一个抽样框不能涵盖所有的目标总体单位,最大的问题是不同抽样框之间的部分重复,抽样目标的重叠使得既隶属于辅助样框又隶属于主样框,该目标总体选中的概率就变大。这对估计会产生影响,解决办法是剔除重复,以实现抽样单位与目标单位的一对一的联接。

3.及时更新抽样框。这是解决辅助信息不准确和样框老化最有效的方法。当然样框要较多的资金投入,所以一般样框更新可以采用分批更新, 一年更新样框20%, 分五年更新完的方式。

4.对复合联接的处理。复合连接一般分为两种情况:一是多对一, 即一个目标单位与一个以上的抽样单位相连接;处理多对一的复合联接方法就是确定惟一的联接规则, 让多个抽样单位只有一个进入到抽样总体中,还可用复合联接数据估计。另外就是一对多,即对于它的联接可看作是一种整群抽样,按整群抽样的方法处理。

国外学者对此早有定论,也有较成熟的研究成果,其中Lessler 与Kalseek于1992年就提出具体解决方法如复合逆加权,完全成套倒数复合估计量,超阶段倒数复合估计,计数规则权数的使用。

(二)——无回答误差的调整与补救

处理无回答的方法可分为二类:第一种是采取预防措施尽量提高回答率,减少无回答发生的可能性。另一种是当无回答不可避免地出现时,采取相应措施进行补救,降低调查误差。

减少无回答误差的预防措施有:

1.访问员的选择与培训  访问员必须要有相当的责任心,有相应的学历背景,可以保证他们对于问卷的理解不出太大的偏差。对于访问员的培训也显得非常重要,培训分为两个方面, 一是沟通技巧的提高,二是责任心的培养。咨询公司需要建立一个非常完善的质量控制体系,对访问员的访问进行及时的控制。

2.事先通知

在访问员接触到被访者之前, 先进行一定的沟通, 比如打电话等,消除消费者的疑虑, 然后再进行正式的访问,将会极大地降低拒访率。

3.加强与被访者的沟通消除被访者疑虑  加强与被访者的沟通就是提高沟通技巧, 这些方法可以分为两类:一是某个专项问题的沟通技巧。二是与消费者初次见面时的沟通技巧,

4.物质奖励  物质奖励要适度, 不要过低或过高。

5.多次访问 多次访问指第一次访问被拒绝后, 进行第二次,第三次访问直到被访者愿意接受采访为止。

6.随机化回答技术  关于敏感性问题 (如考试作弊,偷税等)可采用随机化回答技术,针对不同的情况可采用沃纳模型,西蒙斯模型及双无关模型。

7.确定准确的调查方位及事后提醒  访问员应事先查被访者的准确地点降低单位无回答,当出现项目无回答时访问员可联系被访者提醒相关事项以得到完整的问卷。

8.替换  它是指在某个抽样单位拒绝采访以后,放弃该单位,寻找与其背景相同的人作为替换, 进入抽样总体。替换有其优点就是实际操作相对于多次访问要简单, 但是如果不是随机替换,就需要事先了解被访问的背景, 这一般是很难做到的。纯粹随机替换会造成抽样总体与目标总体之间产生较大的差异,而且使访问的随意性增加, 最后影响到数据的真实性。

当无回答发现时可采取相关补救措施来降低其误差[3]。

第一、二重抽样即分两次抽样,第一次抽取的样本容较大,在这个大样本中再抽取一个容量较小的样本,然后把这两个样本资料结合起来对总体的有关标志做出估计。当用于由无回答造成的偏差,并对其调整,在第一次抽样并得到有回答单位的数据的同时还可得回答层占总体比例的信息,再从最初无回答的单位中随机抽取一个子样本,并通过更细致的工作得到无回答子样本的数据,并做为整个无回答的代表值。最后把第一次调查中有回答单位的数据和第二次调查中从无回答层中得到的调整数据结合起来对总体的有关参数进行估计。其方法包括经典概率方法和贝叶斯方法。

第二、复制估算法

它是指当无回答情况出现时,用其他已有数据顶替无回答的缺失数据,进而对总体进行估算的方法,此方法特别适合项目无回答。其数据来源有两个:一是目前所从事的调查,即从回答者的数据中进行抽选,被选中的数据顶替到无回答的位置。国外将此程序称为“Hot-Deck”;另一来源是以前曾进地过的同类调查,或其他已有的关于无回答单位的数据。国外将此程序称为“Cold-Deck”

用于替代无回答的复制数据不仅来源不同,而且产生的方法也不同。常见的有均值替代,随机抽取,最近距离确定,回归估计等。

第三、加权调整法  它是指通过对调查中回答数据赋予加权因子,从而达到对数据进行调整,减小由无回答造成估计量偏差的影响。

(三)计量误差的控制

从上文可知,计量误差可以分为四类: 一是调查设计阶段产生的误差;二是调查者产生的误差;三是被调查者产生的误差;四是其他误差。减少计量误差的方法有:

1.问卷设计上精益求精,减少问卷设计产生的误差。

(1)主要来自于不同的措辞的不同表达。包括文字表达本身不要产生歧义, 文字表达要简练等。一般问卷要求用词简单, 一般不要用专用词。

(2)在问卷中不要出现倾向性和诱导性的词汇。如对一个问题的两种提法往往会导致两种不同的结果。

(3)要注意措辞的平衡。所谓平衡是指对于这个问题你同意还是不同意?而不仅仅是这个问题你同意吗?

(4)问卷设计不宜过长,以防导致访问者因疲劳而产生的计量误差。

2. 减少调查者产生误差的措施

(1)对调查员进行标准化调查程序的指导

(2)做好培训,加强监督和检查

(3)合理安排和分配调查员的工作量,避免由于调查员工作负担过重而忽视调查质量。

3.减少被调查者产生误差的措施

记忆误差是计量误差当中非常重要的组成部分,对于记忆误差的纠正方法一般有两个: 一是控制调查周期, 二是对于记忆类的问题一般问:上次比问平均要精确得多。此外,可以通过样本轮换和回答偏差的调整对其补救

4.其他计量误差包括随机数字表的编制和使用, 数据处理过程中包括编码,录入发生的误差等等。这些误差都可通过比较有效地质量控制来加以限制。

 总之,只要对抽样调查的设计和实施过程中的任何一环节都严格要求,那么非抽样误差就一定能得到有效的控制。

五、统计数据质量的检验

以上分别从抽样框,调查中的无回答,和数据的计量三个方面对非抽样误差展开了讨论。可见,在现实中要得到百分之分准确的统计数据是相当困难的。

从而对统计数据的质量进行检验显得十分重要。

对统计数据的质量进行检验,从方法上看,可以划分为两类;一类是非现场检验方法,这是指不需要到调查现场,通过各种方法对调查数据的质量进行检查。另一类是现场检验方法[4],即对部分被调查单位进行于再一次的调查,用新的调查数据衡量原调查数据的质量。

以上两者都属于事后检验方法,为了搞好调查,保证数据质量,我们还采用预调查。

(一)非现场检验方法

1.与其它来源的数据进行比较

  运用这种方法的前提是其他来源的数字比较准确,具有较高的权威性或可靠性。其他来源数字的种类很多,如普查数字,档案记录或有关的凭证,票据记录。运用此方法的要求是数据具有可比性,及用于进行对比的数据必须来源于另外的调查。

2.一致性检验

它是指把调查中收集的数据与人们对调查项目的某些特征或调查内容之间某些关系的普遍看法相比是否一致,如是否有经济意义等

3.逻辑关系分析

根据调查项目之间的数量关系和逻辑联系,对调查的数据质量进行检验

例如三口之家,月收入是1300,每月花在食物上的开支为1100,这个数据意味着不太合理和准确。

(二)抽样法检验

它是指通过抽样的方法,对主要调查的数据质量进行检验。这种方法要求调查人员到现场进行重新调查,因此需要较多的调查费用,检验过程也比较长。


(三)预调查

预调查是提高数据质量,减少非抽样误差的有效措施,当然并不是所有的正式调查之前都要搞预调查,进行预调查的目标有两类:一类是数量估计

如对标志变异程度,相关系数,另一类是质量情报,有时进行预调查的两类目标兼而有之。

五、结论

 通过对以上非抽样误差的来源、分析其对调查数据质量的影响,以及了解控制非抽样误差的方法,使得人们在现实的抽样调查过程中能最大限度的减少非抽样误差,从而提高统计调查的精度,最终提高数据质量。

参考文献:

[1] 孙道志.统计调查中的非抽样误差[J].青海统计

2005(7).

[2]雄观梅,马胜红,王玉琴.浅析统计非抽样误差成因及其对策[J].经济师论,2002.

[3]金勇进 非抽样误差分析[M].北京:中国统计出版社,1996.

[4] Judith T.Lessler, Willian D.Kalsbeek著.调查中的非抽样误差[M].北京:中国统计出版社,1997.

投稿要求:


1.内容要求:坚持正确的舆论导向,遵循新闻传媒规律。有自己独到的理论见解,或独特的实践做法。


2.摘要:用第三人称写法,不以“本文”、“作者”等作主语,应是一篇能客观反映文章核心观点和创新观点的表意明确、实在的小短文,切忌写成背景交代或“中心思想”,100-200字为宜。


3.正文标题:内容应简洁、明了,层次不宜过多,层次序号为一、(一)、1、(1),层次少时可依次选序号。


4.正文文字:一般以4000字符为宜,正文用小4号宋体,通栏排版,每版平均2000字符。


5.基金项目: 获得国家基金资助和省部级科研项目的文章请注明基金项目名称及编号,按项目证明文字材料标示清楚。


6.作者简介:姓名(出生年- ),性别,民族(汉族可省略),籍贯,现供职单位全称及职称、学位,研究方向。


7. 来稿请注明作者电话、E-mail,收刊人及详细地址、邮编。


8.其他:请勿一稿两发,并请自留原稿,本刊概不退稿。


投稿邮箱:2191974423@qq.com;       2191974423@qq.com(注明投稿刊物名称)


咨询QQ:1911365536;         2191974423


咨询电话:0571-28069909(咨询时间:周一至周六 9:00--17:00)


网址:www.shjbjb.com


欢迎咨询供稿,并诚招各大高校代理约稿人!


注:本杂志社会根据版面安排适当编辑文章内容,作者如不同意论文被修改,请来搞注明。如有基金项目支持,请注明基金项目编号。


| | | | | |
版权所有 Copyright(C)2013-2025 理论前沿-理论前沿编辑部-山海经杂志社 www.shjbjb.com    

代孕|北京代孕|武汉代孕|代孕|武汉代孕|深圳代孕|武汉代孕|代孕|武汉代孕|代孕| 捐卵 |代孕网|武汉代孕|武汉代孕|捐卵| 武汉代孕|代孕|代孕|代孕网 |武汉代孕 | 广州代孕 |捐卵|上海代孕|代孕公司|武汉代孕|武汉代孕 | 捐卵|代孕中介|代孕