语文PLUS 教研 文学教育下半月 2011年第5期 ID: 155748

[ 谢俐媛 文选 ]   

外语成绩测试信度研究

◇ 谢俐媛

  外语测试是外语教学过程中的一个重要环节。它不仅可以评估外语教学的质量,帮助教师改进教学方法,还可以了解学生外语学习的情况从而对参加测试的学生外语能力做出判定,以便做出有关学生的未来前途的某种决定。根据不同的测试目的,测试可以分为不同的多种类型,常见的有:成绩测试、水平测试、性向测试、潜能测试和结业性测试。成绩测试用于考察个别或全体学生在学习外语的某一阶段或最终阶段的成功程度。它一般与某一具体的课程相关,所测试的内容就是在规定时间范围内所要求的教学大纲的样本内容。
  本文拟分析的数据源自于某外语学院的英语专业学生的一次期中考试。这次测试旨在检测学生对于上半学期所学知识的掌握程度,以便老师灵活的调整教学方法,同时引起学生的重视及反思。为了使测试的结果更具有说服力,该成绩测试本身的信度和效度是一个不容忽视的问题。为了提高考试的测试质量以及为该试卷的进一步优化提供理论支撑,本文拟从信度方面来分析该成绩测试。
  
  一 研究方法和数据收集
  
  本研究的研究对象是某外语学院的26名英语专业在校大学生,根据随机抽样原则,在同一年级随机抽出的一个班级的学生。在测试和评分结束后,将他们的试卷收集起来,然后将从试卷中得到的数据输入Microsoft Excel和SPSS软件进行相关分析。
  
  二 研究结果和分析
  
  描述某一测试具有信度即是指该测试具有准确性、稳定性、可靠性和评分公平性等特点。信度包括内部信度和外部信度。
  由于学生只参加了一次考试,因此没办法研究该测试的外部信度,只能对内部信度进行检测。本研究通过比较克朗巴哈a系数来检测该期中测试的内部信度。克朗巴哈a系数的数值,一般介于0-1之间,当其达到1时,说明测试的内部信度达到最高程度;当其降到0时,说明测试的内部信度降到最低。测试的目的不同,对仅系数的要求也不尽相同,就语言测试而言,可接受的范围在0.3-0.7之间。我们把收集到成绩输入到SPSS系统中进行相关分析,得到的克朗巴哈a系数值为0.707,介于0.3-0.7之间,属于可接受的范围,但是离理想的克朗巴哈系数值大于0.9还有一定距离,也就是说本次期中考试具有一定的可靠性,但其信度仍有待于进一步的改进和完善。
  要想进一步的改进和完善该测试的信度,我们有必要考察一下影响此次考试信度的一些因素,如:施测信度、内容信度和评分信度。
  
  1 施测信度
  
  所谓的施测信度是探讨测试的准备形式和测试过程中是否具有可靠性。本次期中测试是26名学生在同一时间同一教室中进行的,这充分保证了测试的公平性和保密性。并且整个考试过程安静,几乎无任何外界干扰,这就排除了考试过程中的干扰因素。因此本次测试的施测信度比较高。
  
  2 内容信度
  
  影响内容信度的因素主要有三个方面:内容的长度、难度与区分度。
  从理论上讲,测试的内容题目越多,长度越长,能测试的覆盖面就越广,其结果就越能反应学生的水平,其信度就越高。有一定长度的测试还能够减少猜测带来的负面效应。
  要考察本次期中考试的长度,用Spearman&Brown的预测公式进行计算得到的结果为3.9。根据这个结果得出结论,从理论上讲,本次考试的试题长度应再增加3.9倍,会有助于增加该测试的信度。当然,试卷的长度也不能绝对化,毕竟考试时间有限,如果试卷过长,会给学生带来心理负担,一旦这个负担超过学生的心理承受极限,各种误差就会随之而至,反而会影响到信度。
  试题难度系数反应试题的难易程度,即同一考生在一个试题或一份试卷中的失分程度。通常情况下,难度系数的可接受范围为0.33-0.67之间,最理想的值为0.50。如果某道题的难度系数低于0.33,则被视为过于简单;其难度系数高于0.67,则被视为难度系数过大。无论是难度系数过小或是过大,都不利于检验学生的失分程度。
  
  3 评分信度
  
  影响评分信度的具体原因比较多:评分标准、考试者答卷的书写情况和答题差异性等。评分者信度是评估语言测试信度不可忽略的一个重要因素。评分者信度是相对于试卷中的主观题评分而言,因为主观题评分不可避免地会受到评分者主观因素的影响,而从理论上讲客观题的评分在任何情况下都应该是一致的。因此,对评分者信度研究的意义在于如何最大限度地保证阅卷人自身以及阅卷人之间评分标准的一致性。评分者信度主要分评分者之间的信度和评分者本身的信度两种。本研究中,该26名学生的试卷均由一位老师在统一的评分标准下进行评卷,因此暂且不讨论评分员间的信度,又因为数据收集的不完整,也没办法对评分者本身的信度进行定量的分析。
  根据上文的分析,本次研究得出以下结论:
  1 本次期中测试的内部效度为0.707,也就是说本次期中考试具有一定的可靠性,但其信度仍有待于进一步的改进和完善。
  2 阅读理解的难度系数比较低,区分度也不够,还需要进一步的改进。客观试题最能简单、直接的反应应试者的语言掌握程度,如果这部分题目的设置不合理,将对整套试题的信度和效度产生很大的影响。
  3 由一个老师评阅这26位学生的试卷,可能会受到评卷环境、评卷效率和工作疲劳程度的影响,从而影响评分员内部信度,导致分数出现误差。
  总之,本次期中测试在信度上能达到较好的平衡。但对于如何提高测试试卷效度和信度仍旧有必要进行进一步研究,才能使其更好的评估学生的语言水平,为接下来的教学提供指导。

外语成绩测试信度研究