语文PLUS 教研 中学语文教学 2009年第6期 ID: 353656

  

高考作文网上阅卷双评过程中的质量监控

◇ 陈志国 芮 南

  高考作文采用网上阅卷双评方式,能够有效控制评分误差,提高考试的信度和效度。但对于构建高考作文阅卷质量保障体系来说,技术改进仅仅是系统工程的一个方面,至少还应该加强以下四个方面的工作。第一,严格选拔阅卷教师。阅卷教师的素质是决定阅卷质量的关键。可以尝试建立阅卷教师人才库,利用每年对阅卷教师水平的评价,淘汰较差的老师,建立一支相对稳定、责任心强、业务水平高、作风正派的阅卷教师队伍。第二,有一套科学合理的阅卷流程和管理办法。阅卷流程应详细规定从试评、制定评分细则、培训教师到大规模阅卷的全部环节,宜细不宜粗。管理办法应包括阅卷组织管理构架(例如有的省市在高考阅卷中建立了科组长、监察员、题组长、小组长、阅卷教师的五级管理体系)和规章制度。第三,制定科学严谨、操作性强的阅卷评分细则。评分细则是对评分参考的细化,是阅卷教师评卷的准绳,合乎考生答题实际、科学严谨的评分细则,对于保证阅卷质量至关重要。第四,阅卷过程中有效的质量监控。此“过程”专指从大规模阅卷开始到结束这一段时间,不包括之前制定评分细则、培训和考核教师的过程,也不包括阅卷结束以后,利用数据评价闷卷教师水平的阶段。“质量监控”主要指从学科业务的角度对教师水平和评分合理性的监测和控制。
  有效的阅卷质量监控,是以上四个方面工作的重点环节,也是薄弱环节。说是重点工作,因为再好的设计如果没有坚决有效的贯彻也是徒劳,对过程有效控制才能保证有良好结果:说是薄弱环节,因为在网阅过程中积累了大量的实时数据,有效利用这些数据,能够提高监控效率,提升阅卷质量,但现在存在片面使用数据和不充分使用数据的情况,没有及时或者正确地发挥数据的功效。基于此,本文主要围绕阅卷质量监控探讨若干问题。
  
  一、质量监控的维度
  
  在阅卷教师的评阅尺度与专家组制订的阅卷评分细则一致的前提下(此工作在教师培训、考核环节完成),阅卷过程中质量监控要达到两个方面的一致:不同教师之间的评分尺度一致,每个教师不同时段的评分尺度一致。为达成这两个方面的一致,确定质量监控的维度如下。
  
  1 标准差、给分分布——离散趋势的度量
  标准差指考生分数的离散程度,标准差的值越大,说明考生的分数越分散,标准差的值越小,则分数分布越密集,或者分数向平均分集中。
  教师阅卷时,容易产生两种倾向。一种是朝着平均数打分,或者尽量多给中间档次的分数,或者确定档次之后,倾向于给该档的中间分,这种趋势我们称为趋中偏好;趋中偏好‘的相反是发散偏好,即相对于给中间分,更容易给两端档或两端分。
  可以用每名教师所评题目得分的标准差与该题所有阅卷教师的标准差作对比,来衡量教师的离散趋势。当标准差太大时,该教师的评分具有发散偏好;反之,当标准差太小时,其评分具有趋中倾向。过于强烈的趋中或者发散偏好对阅卷的有效性和公平性都是有害的。
  我们可以利用标准差检验教师的离散趋势,但是无法知道教师的评分主要集中在哪些区间,这时候就需要查看给分分布。给分分布把教师评出的所有分数以图表的形式呈现出来,通过查阅给分分布,就能掌握教师的打分偏好集中在哪个分数区间。
  
  2 平均分——掌握标准宽严的度量
  把一组考生在某一试题上的得分依次相加,得到的总和再除以总的考生人数,得到的数值就是该试题的平均分。
  教师阅卷时,对考生答题状况的评定容易出现偏松或偏严两种情况。在阅卷人数基本相等、有一定阅卷量的前提下,我们可以用每名教师所评题目的平均分与该题所有阅卷教师的平均分作对比,来衡量教师对标准宽严的掌握情况。当两者的平均分差异显著时,反映出教师对评分标准的掌握有待改进。
  
  
  3 有效度——采用率的度量
  有效度的界定首先涉及的是如何界定阅卷教师的有效评分的问题。在此。阅卷教师的有效评分可以界定为下面几种情况:
  (1)双评差值未超出差值阈限(D),则两位评分员的评分都记为有效。
  (2)若双评差值超出差值阈限,此时试题交由三评评分;这时,三评(我们称其为丙)给出的分数和与之相近的双评中的一位阅卷教师(我们称其为甲)的评分共同决定了该试题的最终得分,当然,前提是这两个评分未超出差值阈限。这时,甲丙的评分都记为有效。
  (3)与三评分数相差较大的另一个评卷员(我们称其为乙)给出的分数,若与最终得分差值大于D/2,则该评分被视为无效,若与最终得分的差值小于D/2,则该评分也被视为有效。
  (4)若三评得分与甲乙任何一个得分的差值都超出D,那该试题将被提交给终评。终评得分作为该试题的最终得分。这时。甲乙丙三个得分中任何一个与最终得分差值超出D/2的,都将被记为无效;反之,则被记为有效。
  有效度即每题上每个评卷教师评阅的有效数量与个人总工作量的比值。
  教师阅卷时,会在有效度上呈现差异。一般而言,有效度越高的教师,个人尺度越接近标准尺度;有效度越低的教师,个人尺度和标准尺度差异越大。
  
  4 阅卷速度——单位时间的度量
  阅卷速度指单位时间内教师阅卷的数量。速度过快或过慢的教师,都是值得关注的重点。
  
  5 阅卷教师本人一致性比较
  标准差、平均分、有效度、阅卷速度都是通过阅卷教师之间的横向比较,才发现可能存在的问题;而一致性的比较,是对教师本人在不同时段的打分作比较。有三个角度可以监控教师本人一致性情况。第一,在不同时段,本人阅卷标准差、平均分、有效度和阅卷速度的比较。数据越接近。说明教师本人一致性越好。第二。质量监控组对阅卷教师打分相同的试题进行复判,检测不同试卷间的评分标准是否一致。第三,个人重评比较。随机抽取教师已评试卷,再次发给本人重新评分,比较两次评分差值。差值越小或者零差值,说明教师本人一致性越好。
  
  二、质量监控的方法
  
  质量监控的基本程序是层级监控、多方把关,专家组监测阅卷小组长和阅卷教师,阅卷小组长监测本组阅卷教师。方法是利用网上阅卷数据进行抽查。
  应避免两种工作倾向:第一。不利用数据或使用不充分,完全或者主要依靠手工阅卷经验监控质量;第二,完全依赖数据,把数据作为评价教师水平的唯一标准。
  应明确数据非常重要,但必须把数据和抽查结合起来运用。归根结底,专家抽查才是监控质量最有效的手段。数据的作用在于把原来盲目、大海捞针式的抽查变为有针对性、有目的性的抽查,使得质量监控效率更高,更易发现问题。
  1 阅卷的不同时段,质量监控的方法和侧重不同
  根据进度,可以把阅卷过程分为前期、中期和后期三个阶段。不同阶段。质量监控的方法和侧重各不相同。前期,教师处于熟悉和掌握标准 阶段,阅卷速度较慢,数据积累较少,应主要采取抽查的方式。对小组长来说,抽查应全面,尽可能抽查到每名阅卷教师,对阅卷情况有整体了解。同时,对抽查中出现的问题,要及时反馈给上一级的质量监控组。中期,阅卷速度加快,积累了一定量的数据。可以从数据人手,抽查表现异常的教师,重在检查教师的阅卷尺度是否合乎评分细则、是否有趋中或发散偏好,评分是否存在偏严或偏松的现象,教师本人的一致性是否良好。发现问题要和阅卷教师本人及时沟通,重在纠偏,提高阅卷质量。后期,在大部分阅卷教师熟悉阅卷标准的情况下,要提倡既好又快,重点控制阅卷速度过快和打分趋中的问题。
  
  2 以维度为单位逐一检测教师阅卷情况。重点监测多个维度都出现异常数据和在一个维度上出现显著差异数据的教师
  上面5个维度考察的是教师阅卷过程中的不同侧面。具有互补性。必须在每个维度上逐一检测教师阅卷情况,对多个维度同时出现异常数据的教师应重点监测。例如某年高考语文作文双评阅卷过程中,发现某位教师的评分标准差为5.74,该题组的评分标准差为7.43,大多数阅卷教师的评分标准差大于6。数据表明:这位教师的评分离散程度可能稍差,同时检测了其平均分、有效度、阅卷速度,发现这位教师的评分平均分偏高(43.05分,满分为60分),有效度稍低(68%),阅卷速度正常(366份/天),有三项指标异常。抽查试卷发现,该教师存在打“保险分”和评分尺度偏松的问题。
  同时,如果教师在一个维度上出现显著差异,也应重点监测。这包括两种情况:一种为多种原因造成数据显著差异,例如在平均分维度上出现显著差异,原因可能有两种,一是该组考生水平差异显著,二是教师阅卷水平差异显著,需要抽查试卷确定属于哪种原因。另一种为单一原因造成数据显著差异。例如阅卷速度过慢就说明是教师的问题。
  3 给教师反馈阅卷意见时。应把重点放在出现问题的原因上,避免只用数据说话
  出现异常数据。并不一定表明教师阅卷水平有问题;各种数据都非常理想,也不一定表明该教师阅卷水平高超:必须利用抽查作出判断。所以,质量监控组在给教师反馈意见时,一定要注意把重点放在出现问题的原因上。例如有的老师打分趋中,这说明他对评分细则的把握不到位,应重点为该教师讲解评分细则,而不是单纯指出评分太集中、应发散一些。数据使用不当,可能会导致教师刻意迎合数据,过分关心数据而非试题,进而影响阅卷质量。
  4 应重点抽查双评差值超过阈限两倍的试卷,满分、高分和低分试卷,此类试卷的评分标准可能不易把握,容易出现较大误差。
  此种方法不同于标准差、平均分、有效度等以阅卷教师为基准的检测方式,它以评分为基点,对特殊分值的试卷重点监测。
  以满分为60分的作文为例,如果我们把阈限定为5分,那么两评之间超过10分的试卷应该是监控和抽查的重点试卷。对得分在58-60分、10-24分之间的试卷也应重点监控,加大对此类试卷的抽查量。
  
  三、质量监控的思考
  
  1 重新设定双评差值阈限
  双评差值的最大允许值称为双评差值阈限。《国家教育考试网上评卷统计测量暂行规范》规定:“评分过程中,双评差值阈限一般不能大于题目满分的1/6。”根据此规定,满分为60分的高考语文作文题目,双评差值阈限最大值为10分。但这种仅仅对最大值的规定远远不能满足各阅卷点对评分误差控制的需要。就笔者所知。采用双评网上阅卷的省份,没有把双评差值阈限设定为最大值10分的,有的设定为5分,有的设定为6分,有的设定为7分,有的甚至设定为4分。各地对差值阈限的设定取决于阅卷组对评分误差控制的理解,导致不同省份对同一分值的题目设定了不同的差值阈限,尺度不统一。
  此外,有种观点认为:双评差值阈限越小越能控制评分误差。其实未必然。根据现有的网上阅卷管理办法,双评超出差值阈限的试卷会发给三评评分;双评中的两个分数分别与三评给出的分数比较,如果其中一个未超出差值阈限,则取两个分数的平均分;如果双评中的任何一个得分与三评得分的差值都超出阈限,那该试题将被提交给仲裁。仲裁为单评,评分不与一、二、三评进行比较,得分为该试题的最终得分。如果差值阈限太小,会导致仲裁率上升,大量本应双评的试题变成了单评,有违利用双评控制评分误差的初衷,反而可能增加阅卷的评分误差。此外。差值阈限过小,还有可能产生教师打“保险分”和增加阅卷数量等问题。
  所以,有必要对双评差值阈限重新设定,提供设定的方法或者计算公式,而不是简单地把阈限规定为“一般不能大于题目满分的1/6”。研究表明:“在相同信度水平的条件下,测验分数分布(尤其是标准差)决定着离差阈限的大小”“评分离差阈限应该随着主观题评分标准差的变化而变化,不一定设为全距的1/6或1/5”。据此,满分为60分的高考语文作文手工阅卷的标准差一般在6到7之间。所以该题的差值阈限一般应设定为6或者7。
  
  2 有效限制阅卷速度
  双评题目的阅卷速度是社会关心的焦点。很多人批评阅卷速度过快是对考生不负责任。实际上,阅卷速度快的教师质量未必差,而阅卷速度慢的教师质量未必好。在阅卷过程中,又好又快和又慢又差的情况都出现过。但是,不限定阅读速度的上限,就有可能出现个别教师为追求速度而忽略质量的情况。所以,网上阅卷系统一定要有限制阅卷速度过快的功能。
  
  3 开发阅卷质量监控自动提醒系统
  网上阅卷系统提供了大量的数据可供质量监测组挖掘,但这需要个人分析综合数据。如果能够根据质量监控的维度,开发出自动提醒系统,就能使工作更为便捷。当某个教师的多项阅卷数据出现异常或者某项数据出现显著异常,计算机就能主动提醒质量监控组重点关注这位老师,抽查他评阅的试卷验证数据,这将大大提高质量监控的效率。
  
  4 进一步提高作文双评评分的离散程度
  有种观点认为,网上阅卷的双评题目容易导致评分集中趋势。人们往往也因此批评网上阅卷。但通过实证研究发现:“传统手工阅卷的分数更容易集中在分数的中段,而双评题目网上阅卷比手工阅卷的离散程度更高”。
  下表为2008年某地高考作文网上阅卷与手工阅卷的分数分布。通过数据对比,我们也能印证“双评题目网上阅卷比手工阅卷的离散程度更高”的结论。
  但是,网上阅卷没有根本改变部分双评题目评分的趋中趋势。从上表中看出,作文可利用的分数区间太小,13分(38-50)区分了三分之二的考生,这就使得题目区分考生的能力打了折扣,影响阅卷质量。要进一步加强网上阅卷的质量监控,就需要想办法进一步提高双评题目的离散程度。

高考作文网上阅卷双评过程中的质量监控