1.什么是无回答
无回答是指在数据采集过程中,由于各种原因而无法获得某个样本的任何一项回答或者无法获得样本对某个或某些个问题的回答的情况,前者称为单元无回答(unit nonresponse),后者称为项目无回答(item nonresponse)。
单元无回答包括“无法接触到样本单位(no contact)”,“拒访(refusal)”,“无能力回答(incapacity)”等几种情况。根据美国“民意调查研究协会(The American Association for Public Opinion Research)”确定的电话调查、入户调查、邮寄问卷调查回答率的计算标准中的相关定义(APPOR,2011):“无法接触到样本”包括这样一些情况:(a)不能进入这个建筑物;(b)住户内没有人;(c)受访人不在或者找不到。判断一个样本是否属于“无法接触到样本”,研究者必须确定样本单位是一个非空的、有符合资格的受访人居住的、并且没有接触到的住户成员是可完成的这三个必要条件。“拒访”包括住户单位或者住户内的成员拒绝访问的情况,有时也包括采访中断的情况。“无能力回答”则包括受访人尽管符合被采访的资格,而且他/她也愿意接受访问,但是由于语言或者身体、精神不适等原因没有能力完成访问的情况。
以上这几种情况占单元无回答总数的比例因调查内容和调查方式而不同。概率抽样调查相对于非概率抽样调查会遇到较多的单元无回答的情况。在多数概率抽样调查中,“无能力回答”(例如:身体、语言障碍,不识字等)的情况相对较少,“无法接触到样本单位”的情况较多。近些年,在中国城市范围内,如果进行以个人为样本单位的概率抽样调查,并且以居民的户籍资料为抽样框的话,那么“无法接触到样本单位”的比例会比较高,主要原因在于中国社会中处于流动中的人群正在扩大,人户分离的情况越来越多。这些人多数人因无法联系上而成为单元无回答的样本。“拒访”的比例受调查方式(例如:入户调查和电话调查)、问卷内容(例如:敏感性问题)、调查地点(例如:城市和农村)、采访员素质以及被调查人群的特征等诸多方面的影响。在抽样调查中,如何降低拒访率一直是调查者所必须关注的问题。
项目无回答一般包括“不知道”(don’t know)、“拒绝回答”(refuse to answer)、“没有观点(no opinion)” 、“不适用”(no applicable)、“没有答案”(no answer)等多种情况。其中,不知道、拒绝回答、没有观点比较容易理解,都是受访人给出的直接的答案。“不适用”通常是因为问卷中的跳问而自动赋值的,例如,对于询问受访人“是否参加了工会”这道题,如果是从事农业生产的受访人,就应该属于不适用回答这道题目的情况,该题目会被跳过去,系统自动产生的数值就是代表“不适用”。“没有答案”通常是指那些应该回答而没有回答的情况,例如,有可能是访问员漏问了,也有可能询问之后忘记记录答案。
2.什么是缺失值
缺失值(missing value)简单地概括就是缺失的观测值。缺失值的型态有两种(吴明隆,2010),一为系统自定义的缺失值,二为使用者自定义的缺失值。
所谓系统自定义的缺失值,是指本来就不适用,并且也没有采集到观测数据的情形,在社会调查中通常发生在一些应该进行跳问的题目中,例如,需要询问职级的时候,对于从事农业生产的人,就不再询问职级了,那么在职级的变量中,凡是回答从事农业生产的样本,就会由系统自定义为缺失值。在本书中称之为“不适用”,对于这种情形导致的缺失值,不用进行插补或其他处理,因为在分析多变量之间关系的时候,这些样本在某种情况下不适于纳入分析,例如,分析职级对人们工作满意度的影响,那些从事农业生产的样本不应该被纳入分析。
第二类是研究者自定义的缺失值,是指本来已经采集到了数据,但是这个数据根据研究者的判断被定义为缺失值。例如,在一次调查中,对于职业变量,受访人回答“不知道”,研究者根据一些条件最终将其定义为缺失值;也有一种情况是合理的一些值,但是研究者认为这些值属于特异个案,不满足其研究需求,也会将其定义为缺失值,例如,在询问受访人个人一个月的文化消费时,如果有1个样本回答“20万元”,研究者可能就会将其定义为缺失值。
对于那些需要研究者来自定义的缺失值,研究者首先要进行判断工作。即,哪些值应该或需要被定义为缺失值。这些值里面,最常见的就是项目无回答。在项目无回答中,“没有答案”通常是由于访员漏问、漏记或者造成的,一般情况下都属于“缺失值”。
但是“不知道”、“拒绝回答”、“没有观点”则需要根据题目本身的含义、研究者的测量目标和受访人的实际情况而定,很难简单地制定统一的判定标准。例如,当询问受访人是否满意现在的生活时,受访人应该有能力或者有信息帮助他能够回答,如果选择了“没有观点”,则可以视为“缺失值”。但是当问到受访人对于“政府应该规定个人收入的最高限额”这种说法的态度时,如果选择了“没有观点”,则可以视为有效回答,因为他提供了有效的信息,可能真的是没有任何观点。
对于知识、信息类的题目,“不知道”通常是有效的答案,会参与统计分析的过程,例如:询问政治知识的题目“您知道美国现任总统是谁吗?”,如果回答不知道,则可以视为有效回答,这部分人要作为一类人来进行统计分析,而不能直接视作缺失值。
在项目无回答的几种类型中,受访人回答“不知道”的情况通常相对比较多一些,因此,如果把“不知道”视为缺失值的话,更有可能对样本估计产生影响,但是缺失值的比例到多大时会成为问题,目前还没有一个标准,要依据研究目的、研究内容,以及缺失值的分布特征而定。有些学者认为,通常情况下,小于5%的缺失值应该不会产生什么问题(Gilljam and Granberg,1993)。
如果缺失值存在,研究者必须首先对缺失值进行处理,然后才能进行统计分析。
|