语文教育评价改革，路在何方？倪文锦语文建设2014年第7期语文PLUS

语文PLUS

教研

语文建设 2014年第7期 ID: 358882

[ 倪文锦文选 ] 　　

语文教育评价改革，路在何方？
参读
联读
摘读

语文教育评价改革，路在何方？

◇ 倪文锦

　　“中小学语文教育改革研究”涵盖语文教育领域诸多方面，成果显著，内容丰富，因篇幅所限，故分三期刊发。上期从总体构想、语用观的核心理念和语文教育改革整体设计三方面呈现了课题组的研究成果，本期主要展示他们在中小学语文教育评价改革、教师培养、教材改革这些具体实践方面的探索。下期将介绍课题组在中小学语文教学改革方面的研究成果。
　　关于中小学语文教育评价改革，倪文锦认为应确立面向全体学生的评价理念，构建系统的评价体系和操作性强的评价标准；关于中小学语文教师培养，靳彤建议对语文学科教学能力进行科学的细分，并在教师培养培训中开发设置相应的课程；关于中小学语文教材改革，顾之川、顾振彪、郑宇从写作教材着眼，主张体现学生的主体性，根据学生身心发展和语言发展规律设计教材。希望这组文章能引发大家更广泛的讨论，以推进中小学语文教育改革向纵深发展。
　　众所周知，传统的语文教育评价长期以来存在评价目的片面、评价范围狭窄、评价手段单一、评价主体局限等诸多问题。为克服这些弊端，新世纪以来的语文课程改革，从宏观的评价理念到微观的评价方法，都提出了一系列改革设想和实施建议，但令人遗憾的是，从总体上看，新课改实施十多年来的语文教育评价改革收效甚微。这正如《教育部关于推进中小学教育质量综合评价改革的意见》（教基二〔2013〕2号）指出的那样，“改革开放特别是新世纪以来，随着基础教育课程改革的实施，各地在改进中小学教育质量评价方面进行了积极探索，取得了一些进展。但总体上看，由于教育内外部多方面的原因，单纯以学生学业考试成绩和学校升学率评价中小学教育质量的倾向还没有得到根本扭转”。人们普遍认为，这种评价方式与当今时代的教育精神极不相符，严重背离了以主体性培养为特征的素质教育思想，成了学生、家长乃至整个社会的一种紧张源，因而亟须扭转。从某种意义上说，我国中小学语文教育改革能在多大程度上取得成功，关键取决于我们能在多大程度上将评价引向合理的轨道。那么，导致当前这种积重难返局面的原因究竟是什么呢？撇开教育外部的因素不谈，就语文教育评价自身而言，新课程存在评价观念偏离全体学生、评价体系缺乏系统建构、评价标准可操作性不强等缺陷是主要原因。这些问题削弱了学生语文学习的主体性，制约了学生实践能力、创新精神的培养和语文素养的全面提高。因此，深化中小学语文教育评价改革，当务之急同样需要从这三个方面入手。
　　一、牢固确立面向“每一个人”的评价观念
　　《全日制义务教育语文课程标准（实验稿）》（下称《语文课标（实验稿）》）和《义务教育语文课程标准（2011年版）》（下称《语文课标（2011年版）》）都明确指出：“九年义务教育阶段的语文课程，必须面向全体学生，使学生获得基本的语文素养。”《普通高中语文课程标准（实验）》（下称《高中语文课标（实验）》）也强调“使全体高中学生获得应该具备的语文素养”。应该说“面向全体学生”是语文新课程的一个基本立足点，说它“偏离全体学生”岂不冤枉！其实，这里所说“评价观念偏离全体学生”，是指它并没有真正面向每一个学生。它所面向的实际上只是抽象的“全体学生”，而不是具体的“每一个人”。何以见得？首先，由评价功能观之，如《高中语文课标（实验）》认为，“课程评价具有检查、诊断、反馈、甄别、选拔、激励和发展等多种功能”；《语文课标（2011年版）》重申，“语文课程评价具有检查、诊断、反馈、激励、甄别和选拔等多种功能”。由此可见，语文教育评价具有“甄别和选拔”功能是在新课程中得到确认的。其次，以评价重点观之，尽管语文新课程反复要求强化评价的诊断和发展功能，如《高中语文课标（实验）》建议评价“应充分发挥其诊断、激励和发展的功能”，《语文课标（2011年版）》继续强调“突出评价的诊断和发展功能”；同时要求改变对“甄别和选拔”功能“过分强调”“片面强调”“过于重视”的状况，如《语文课标（实验稿）》提出“不应过分强调评价的甄别和选拔功能”，《高中语文课标（实验）》要求“不应片面强调评价的甄别和选拔功能”，《语文课标（2011年版）》也提出了“应该改变过于重视甄别和选拔的状况”，但从评价的各种功能对教育所发生的实际影响看，孰强孰弱，不言自明。这也再清楚不过地说明“甄别和选拔”在中小学语文教育评价中的事实上的主导地位以及对学生发展所产生的负面作用。新课程虽然看到了，但它毕竟没有勇气去否定。
　　教育评价作为对教育活动满足社会与个体需要的程度做出判断的一种活动，它需要对教育活动现实的（已经取得的）或潜在的（还未取得，但有可能取得的）价值做出判断，以期达到教育价值的增值。评价有没有选拔和淘汰功能？有，如大学招生、社会招聘就有选拔和淘汰。但这些涉及对人评价的招生、招聘面向的只是一部分人，并不适用基础教育，理由很简单：基础教育是面向每一个学生的生存与保障意义上的教育，而不是选拔与淘汰意义上的教育。基础教育的唯一宗旨是为每个学生的终身学习打好基础，它要求包括语文在内的所有学科的教育都必须面向全体学生，而非部分学生，并有效地促进他们的发展。在基础教育中确认评价的甄别和选拔功能会产生什么作用呢？有选拔就会有筛选、淘汰，有甄别就会产生“优生”“差生”。试想，在为终身学习打基础阶段就随时有可能被淘汰的所谓“差生”，他们日后的终身发展从何而来？因此，中小学语文教育评价如何守护每一个学生的发展价值不是评价是否“过分强调”“片面强调”“过于重视”甄别与选拔功能的问题，而是它该不该有所谓选拔与淘汰的功能。由此可见，问题的关键首先不是要找到一种合适的方法，而是需要确立一种合适的观念，即合格性评价观念。“这样的教育，从社会价值看，它是为社会这座大厦打基础，它的每一根桩、每一寸混凝土都必须坚实，因此需要均衡发展；从个人价值看，它是为每个学生的一生发展打基础……因此需要全面发展。这样的教育评价，因此就有个特殊的规定性，这个规定性应该就是合格性评价。”[1]如果新课程继续确认中小学语文教育评价具有甄别与选拔功能，那么不管其如何宣示“面向全体学生”，也不管其如何强调改变这方面“过分强调”“片面强调”“过于重视”的现状，它们都与基础教育的宗旨——“为了每一个学生的发展”不相容。当下我们并不缺少“人”的观念，人人都在讲“以人为本”，教育面向全体学生，但我们真正缺少的是“每一个人”的观念。因此，正如一些专家所说，我们“无论如何也不能容忍那种为应对考试把一大批学生提前放逐的行径，无论如何也不能容忍那种依据考试成绩把未成年人分为三六九等的行径；相反，教学应该从这里觉悟到良心的拷问与责任的鞭挞，评价应该从这里检省到自己是否漠视、异化、失落了教学的价值。基础教育的生死攸关的使命，就在于它必须百倍地关怀那些被放逐、被贬抑、被薄弱的学生所拥有的可持续发展的教学价值”[2]。其实，这岂止是专家个人的呼吁，也是一个时代和整个社会的呼吁。从这个意义上说，我国中小学语文教育改革能在多大程度上取得成功，关键取决于我们究竟能在多长时间内真正确立面向“全体学生”的评价观念，牢固守护“每一个人”的发展价值。　　我们这样说，并不是说语文教育评价就不能采用考试和分数。考试作为评价的方式之一，有考试就必然有分数，问题在于我们用什么样的观念和心态看待考试和分数，怎样使用考试和分数。例如，作为国际学生评价项目，“PISA”也有考试和分数，但考试和分数的使用，主要不是用来排名，比较不同国家或地区之间教育质量的高低，而是用来建立国际常模，让各个国家或地区通过与国际常模的比较发现差距，旨在为各国政府提供国际参照和决策信息。该评价项目通过对考试和分数的分析，深入探究影响学生素养和学业成绩的教育与社会原因，包括学校均衡、办学效能、家庭背景、政府投入等因素对学生的影响，即人们通常关注的教育均衡与教育公平等社会问题和政府责任，而不是停留于对影响素养成绩的个人因素研究。这样的评价理念值得学习。
　　二、努力构建合理的评价体系
　　由于我们是国家办教育，长期以来，教育目的和目标的确定、课程的开发和编制等，都是国家有关部门以集权的形式统一进行的，缺乏正式评价机构和体系。因而，基础教育质量的评估就自发地落在升学考试上，教育教学过程中的评估自然也往往是一些“小型化”的模拟升学考试。考试的形式，仍没有突破泰勒时代的回忆式纸笔测验模式，无法客观地评定学生在学习过程中的进展情况，而且学生误以为这就是他们期望学习的东西，但因此丧失了许多更为重要的东西，如高层次的认知能力和情意能力，以及完整人格的培养。更有甚者，这种并未经过合理性论证的分数，却被作为对学生分等划类的依据，甚至不乏“一分定终身”的现象。要克服这一弊端，构建合理乃至科学的评价体系是关键。
　　作为考试与评价的依据，我国现行语文课程标准虽然专设“评价建议”，但并没有形成系统的、清晰的评价体系。“评价建议”由原则性的总建议和五项分建议两部分组成。原则性的总建议主要表述了几个重要的评价思想，规定了若干评价原则；五项分建议则分别从识字与写字、阅读、写作、口语交际和综合性学习五个方面，交代了评价的实施要点及注意事项等。简言之，语文新课程评价对一线教师来说，从观念上能基本明确的主要有两条：一是评价什么，二是怎么评价。至于评价的具体展开，由于缺乏评价体系，教师也难以找到相应的位置。
　　从宏观方面看，《语文课标（2011年版）》明确指出：“义务教育阶段的语文课程，应使学生初步学会运用祖国语言文字进行交流沟通，吸收古今中外优秀文化，提高思想文化修养，促进自身精神成长。”那么，如何衡量学生对祖国语言文字能初步学会运用，以及对古今中外优秀文化的吸收呢？怎样判断学生通过语文学习使思想文化修养得到提高和自身精神获得成长，以及“提高”“成长”到什么程度呢？一线教师不知道，因为他们不知道在哪里能找到相应的表征。从微观方面看，既然知识与能力是课程目标构建和评价的一个维度，按理说，就应该有语文知识与语文能力的评价体系，否则被评价的具体知识和能力就缺乏相应的依据，也就无法判断学生所掌握知识的程度和具有的能力水平，这样的评价也就失去了意义，但是《语文课标（实验稿）》关于“不宜刻意追求语文知识的系统和完整”的规定，以及语文知识仅限于语法知识和逻辑知识，并只做“附录”处理的做法，使语文知识的评价形同虚设，实施十多年的新课程实验已经清楚地证明了这一点。再如，《语文课标（2011年版）》虽然确认“写作能力是语文素养的综合体现”，但是衡量和判断学生写作能力的评价体系又在哪里呢？没有评价体系，评价主体对评价的对象和内容自然就找不到准确的位置，即使课标大力倡导的语感、积累、体会、体验、感悟、揣摩、品味、整体感知、整体把握、熏陶感染等诸多新要求，也很难得到有效的落实。这样，语文教育评价，包括语文课堂教学中的随机评价也很容易变成随意评价。
　　反观国际上的语文教育评价，建立评价体系则是开展有效评价的必要前提。以“PISA2009”为例，首先，它对阅读素养的评价有三点值得注意：第一，把学生阅读活动的参与度，包括有阅读的动力，有兴趣、喜欢读，多样化、经常性的阅读等作为阅读素养的一部分；第二，把学生阅读活动中的认知策略和元认知策略也作为阅读素养的一部分；第三，“书面材料”既包括手写的、印刷的，也包括电子媒体呈现的文字或附有文字说明的图片内容，但不包括录音和录像，也不包括没有文字说明的图片。其次，“PISA2009”阅读素养测试分试题本与问卷两部分。试题本主要通过文本阅读测评学生的认知能力，包括访问和检索、整合和解释、反思和评价。为考查学生阅读素养在文本方面的要素构成，“PISA”设计了媒介、情境、形式和类型四个命题和测试向度。“媒介”关注的是学生阅读何种介质的文本，并相应分为纸质与电子两种介质的文本。“PISA”把涉及读者阅读的“情境”分成四种：个人的、公共的、职业的、教育的。所谓个人的，是指为了满足个人兴趣而进行的阅读，例如小说、传记、书信等。所谓公共的，是指为了获取公共信息或参加大型社会活动而进行的阅读，例如官方文件、公告、报纸等。所谓职业的，是指为了完成工作或完成某项任务的阅读，例如说明书、时间表、数据表等。所谓教育的，是指为了学习新知识而阅读，例如文章、图表和其他学科的教材等。“形式”是指“PISA”把文本分为连续性文本、非连续文本、混合文本和多重文本，这后三类文本更多地出现在与工作相关的文本中和现代社会活动文献中。“类型”在“PISA”中专指文体类型，分为描写、叙述、说明、议论、指示、交流。此外，“PISA”把阅读测试的题型分为单项选择题、复合式选择题、封闭式问答题、简答题、开放式问答题，并分别进行定义和举例。问卷调查主要评价学生的阅读参与度和学习策略。阅读参与度调查分学校与个人两类。学生个人的阅读参与度分为对阅读的喜爱程度、学校中的阅读活动、用于趣味性阅读的时间、阅读材料广度、网上阅读活动广度。学习策略分记忆策略、理解策略、概括策略、精致策略和自我控制策略。阅读电子媒体文本的能力则通过“电子阅读能力测评”选项来评价。
　　“PISA2009”这一设计，十分清晰地呈现了阅读素养的评价体系。参与该项目测评的无论是哪个国家和地区，都能够在该体系中找到评价什么和怎么评价。　　教育评价体系的构建是当下学校教育质量评价的一项紧迫工作。2013年《教育部关于推进中小学教育质量综合评价改革的意见》指出：“要依据党的教育方针、相关教育法律法规、国家课程标准等有关规定，突出重点，注重导向，把学生的品德发展水平、学业发展水平、身心发展水平、兴趣特长养成、学业负担状况等方面作为评价学校教育质量的主要内容，着力构建中小学教育质量综合评价指标体系。”该《意见》在五个方面评价内容下再设“关键指标”和“指标考查要点”，如“学业发展水平”有四个关键指标：知识技能、学科思想方法、实践能力和创新意识。其“指标考查要点”依次分别为：学生对各学科课程标准要求的基础知识、基本技能的理解和掌握情况；学生对各学科思想和方法的理解和掌握情况；学生关注现实生活、参加社会实践和志愿服务活动、解决实际问题、进行职业准备等方面的情况；学生独立思考、批判质疑、钻研探究，解决问题的思路、方式方法等方面的情况。它构建的虽然是中小学教育质量综合评价指标体系，并不是学科教育评价体系，但对我们语文教育评价体系的构建不无启示。
　　三、建立可操作的评价标准
　　评价标准缺乏可操作性是当下语文教育评价的又一短板。其突出表现有三。一是内涵不清。例如，现行语文新课程虽然提出了“全面提高学生的语文素养”的目标，但“语文素养”的内涵是什么，一线教师并不明确，更谈不上如何把握和进行评价了。二是大而无当。例如，《高中语文课标（实验）》提出以下一些指标：“有个性、有创意的表达”，“发展创造性思维”，能尝试创作“诗歌、散文、小说、剧本”和进行“人物传记的写作”，“积极参与先进文化的传播和交流”等，作为面向全体学生的课标，这样的要求显然不具备操作性。三是要求不明。例如，《高中语文课标（实验）》规定：“必修和选修课程均按模块组织学习内容，每个模块36学时，2学分。每个学期分两段，每一学段（约10周）完成一个模块的学习”；“学生修满必修课程的10学分便可视为完成了本课程的基本学业，达到高中阶段的最低要求”；“对于希望进一步学习的学生，建议从五个系列的选修课程中任意选修4个模块，获得8学分，加上必修课程的10学分，共计可获得18学分”；“对于语文学习兴趣浓厚并希望进一步深造的学生，建议在此基础上，再从这五个系列里任意选修3个模块，这样一共可获得24个学分”。虽然我们实行的还只是学分管理，但学分毕竟具有评价功能，一线教师都不明白这10学分、18学分和24学分究竟是怎么回事。“每一学段（约10周）完成一个模块的学习”就能取得2学分，它似乎在传达这样的信息：只要学了，时间上满10周了，就能取得2学分，与学得好不好没有关系。它既不告诉大家修满必修课程10学分，“达到高中阶段的最低要求”后是否可以不学语文；也不告诉大家除了“希望进一步学习”和“对于语文学习兴趣浓厚并希望进一步深造”以外，为什么再要去任意选修4个和3个模块，以获取18学分和24学分，这18学分和24学分是干什么用的。从评价的角度看，《高中语文课标（实验）》的学分管理留给一线教师最大的困惑是：大家既不知道为何要实行这种学分管理，也没有看到这种学分管理是如何运行的。作为完成高中语文课程的“基本学业”的10学分究竟是合格还是不合格？或者说，这10学分、18学分和24学分究竟哪一个是高中生语文课程合格的标志？
　　总之，我们当下的语文教育一方面缺乏固定的、必学的知识内容，没有人人必须达到的、统一的听说读写的基本技能指标，而另一方面又要学生通过“个性化阅读”“创造性解读”，有“创意”的写作，乃至进行各种“创作”弘扬“人文”，这就使得语文课堂教学难以操作。同时也造成了语文教育评价事实上的难以形成或评价结论过于主观、笼统，影响了评价的科学性。
　　评价是课程实施的一个非常重要的环节。如果一门课程的评价标准无法操作或操作性不强，那么无论评价理念如何先进，评价体系怎样合理，它们也只能是空中楼阁，课程管理最终都会落空。由此观之，建立可操作的评价标准是深化我国中小学语文教育改革的必由之路。在这方面，类似的教育质量评价标准已由一些地方的教育行政部门着手进行规划。如《上海市中小学生学业质量绿色指标（试行）》的实施意见（沪教委基〔2011〕第86号）中，评价内容共十个方面，其中“学生学业水平指数”由三项具体指标组成：一是学生学业成绩的标准达成度，即依据课程标准，确定学生在某一学科、某一阶段应该掌握的基本内容与核心能力的标准等级；二是学生高层次思维能力指数，主要包括知识迁移能力，预测、观察和解释能力，推理能力，问题解决能力，批判性思维和创造性思维能力等；三是学生学业成绩的均衡度。这些标准都是可操作的。
　　需要说明的是，作为对中小学教育质量综合评价和学生学业质量评价的指导，上述教育部和上海市教委制定的文件无疑具有直接的意义。作为学校教育的一个组成部分，语文教育的评价标准当然不是教育质量综合评价指标和学业质量评价指标的简单分解，而必须按照学科的特点独立制定，但它们毕竟为语文教育评价体系的构建和评价标准的确立奠定了方法论基础。语文学科完全可以借鉴这些评价改革的思路，并吸收国际语文教育评价的经验，在现行语文课程标准的基础上，通过进一步反思和完善，使语文教育评价改革尽早得到深化，取得实效。
　　参考文献
　　[1]杨启亮.合格性评价：基础教育评价的应然选择[J].教育研究，2006（11）.
　　[2]杨启亮.为教学的评价与为评价的教学[J].教育研究，2012（7）.
　　【本文系国家社科基金教育学重点课题“中小学语文教育改革研究”（立项号AHA120009）子课题“语文教育评价研究”阶段性成果】