..机测与人工测试对比分析刘洪超姜岚现代语文(学术综合)2011年第5期语文PLUS

现代语文(学术综合) 2011年第5期 ID: 148447

..机测与人工测试对比分析
参读
联读
摘读

..机测与人工测试对比分析

◇ 刘洪超姜岚

　　摘要：本文统计了570名学生的机测成绩和人工测试成绩，以人工测试成绩为标准，充分对比了机器测试与人工测试成绩之间的差距，并对这种差距进行了深入的分析，得出了造成此种差距的原因。
　　关键词：PSC 机测人工测试对比分析
　　
　　一、PSC测试简介
　　一直以来，普通话水平测试（PSC）都是由测试员进行人工测试。随着科技的发展，尤其是计算机技术的进步，由机器来自动完成普通话的测试已经进入了实用阶段。我们在这里介绍的机测普通话是利用中文信息处理、语音识别等技术让计算机对应试者普通话的水平进行打分评级，这个过程中基本上不需要人工的参与。
　　二、相关数据和统计方法说明
　　本文的数据包括了两个部分，一部分来自机器测试，另一部分是来自于人工测试，都是针对同一应试人的普通话成绩。目前机测只能完成被测内容的前三题，所以本文按照前三题分数、第四题分数和总分，按姓名排序，汇入一张表格。这样，每一个人的成绩形成一条记录，记录的项目包括姓名、机测前三、人测前三、前三误差、机测第四、人测第四、第四误差、机测总分、人测总分、总分误差、机测等级、人测等级共十二项。其中，“机测”是指机器测试，“人测”是指人工测试，“前三”是指前三题总分，“第四”是指第四题分数，误差=人测成绩-机测成绩。
　　表1：误差标准：
　　误差项目前三题第四题总分
　　一级 1.6 0.5 2.1
　　二级 2.8 1 3.8
　　三级 4.2 1.5 5.7
　　
　　注：前三题误差=第一题误差+第二题误差+第三题误差；总分误差=前三题误差+第四题误差。
　　等级误差则严格按照“机测等级=人测等级”，若两者不匹配就视为在等级上不相符，在本文中还会有级相符而等不相符者，标准是“机测级=人测级”。
　　三、总体情况分析
　　（一）总体数据及说明
　　表2：机测等级相符情况统计表
　　机测相符个数机测个数机测相符度
　　一级 0 0 0%
　　二级甲等 33 50 66.0%
　　二级乙等 106 284 37.3%
　　三级甲等 8 193 4.1%
　　三级乙等 0 41 0%
　　总体 147 570 27.8%
　　
　　注：机测中，有2个是不入级的。机测相符度=机测相符的个数／机测个数。
　　表3：总分误差情况统计表
　　个数所占比例
　　总分误差>=0 529 93%
　　总分误差<0 41 7%
　　
　　注：总分误差=人测总分-机测总分
　　总体上机器测试的相符度并不高，但在各等级中又不尽相同。二级甲等的相符度能达到66%，而一级和三级一等的相符度为0。普通话水平测试等级为二级甲等的属于普通话较好的，所以，我们可以说，对于普通话较好的机器测试比较准确，而对于处在普通话水平两端的，机器测试与人工测试的相符度较低。而总分误差>=0的数据占了总体数据的97%就说明了人测分数普遍高于机测分数。
　　机测的相符度为27.8%，可以说这个相符度是相当低的，说明机测还存在一些问题，机测的正确率还有待提高。但是，在各等级中，二级的相符度比一级、三级的要高，尤其是二级甲等，相符度为66%。由此，我们可以得出结论：对于普通话水平较高的，机测比较准确；而对于普通话水平较低的，机测不准确；这也就说明普通话水平的高低对机测普通话准确率有很大的影响。
　　（二）前三题数据分析
　　前三题完全是靠机器测出，我们说机测，在很大程度上就是指的这种机器自动测试普通话的情况。所以对于前三题机测误差的原因分析更能帮助我们寻找提高机测相符度的切入点。
　　表4：前三题机测等级相符且在误差范围内的数据分析
　　机测等级完全相符且前三题分数在误差范围内的个数
　　
　　机测个数机测等级完全相符且前三题分数在误差范围内的相符度
　　一级 0 0 0
　　二级甲等 25 50 50%
　　二级乙等 58 284 20.4%
　　三级甲等 3 193 1.6%
　　三级乙等 0 41 0
　　
　　注：机测中，有2个是不入级的。
　　我们看到前三题的相符度分布情况和上文的分布情况有相同之处：都是二级甲等的相符度最高。但是我们也看到，当把误差范围引入之后，机测相符个数明显地减少了，说明了很多数据虽然等级相符，但前三题还是超出了最大误差范围。这就进一步降低了原本就不高的机测准确率。
　　机器测试普通话，对于普通话水平较高、音质较好的人来说，测试往往比较准确，而对于普通话水平较差的人来说，机器测试则往往存在较大的误差，尤其是普通话水平处在由二甲到二乙这个区间上时，机器测试的相符度是最低的，误差是最大的。
　　（三）第四题数据分析
　　第四题与前三题相比有自己的个性，因为它不是由机器自动测试的，而是由普通话测试员测试的，因此在严格定义上我们不能说它是机器测试。请看表5：
　　表5：
　　编号测试员1 测试员2 测试
　　员3 机器误差
　　1 误差
　　2 误差
　　3
　　1 34 33.5 34 16.3 -0.5 0 -18
　　2 32.5 34 36 22.7 1.5 3.5 -9.9
　　3 31 31 29 18.8 0 -2 -12
　　4 32 32.5 32.5 20.5 0.5 0.5 -12
　　5 33 32.5 32 27.3 -0.5 -1 -5.7
　　6 34.5 32 33 33.4 -2.5 -1.5 -1.1
　　7 33.5 33 32 34.2 -0.5 -1.5 0.65
　　8 33.5 32.5 32.5 33.5 -1 -1 0
　　9 34 32.5 34 34.8 -1.5 0 0.75
　　
　　注：误差=其他人测试成绩—测试员1；误差3为机测误差。
　　可以明显地看出，第四题在机器后测试的误差远远大于人工测试的误差。而且测试成绩偏低也是一个很大的问题。这与前三题以及总分的情况都是一致的。
　　我们知道一个人的普通话水平在测试的四个题目中表现应该是一致的，因此，一个人在前三个题目的测试中表现好，在第四题也往往表现得好，也就是说一个人在前面测试中表现的好坏，往往成为测试员对后面题目打分的依据，进而对总分产生影响，我们可以把这种现象称为“普通话测试中的迁移现象”。
　　机测的第四题也是由人工测试，而在测第四题时，测试员并没有听前三题，而是直接进行了第四题的测试，这样，前三题对第四题基本上不存在什么影响。而人工测试恰恰相反，前三题的测试成绩对第四题会产生影响。这种影响有利的成分多一些，也就是一种正迁移。因为测试员在听过前三题后，对应试人的普通话水平已经有了一个较为清楚的感性认识，其语音缺陷和语音错误也都把握得更加准确，这些经验作用在第四题上，肯定会对提高第四题的测试相符度有很大的帮助。
　　（四）机测与人工测试出现差异的主要原因
　　1.语音识别技术是用机器进行普通话测试的前提。语音识别技术的发展程度直接影响着机器测试普通话的准确率。就目前看，机器在语音识别方面还存在一定问题。因此，对于音色不好的，机器的测试就会出现偏颇。
　　2.录音环境对于机器测试也有影响，录音的质量对机器测试的影响比对于测试员的影响要大。如果录音环境不够好，录音里有一些杂音，测试员在听的过程中能准确识别噪音；而这些噪音与被测试者的录音对于机器来说是一样的，所以这些噪音有可能会影响到机器测试的相符度。
　　3.有很多被测试者在测试时读得很快，测试员在测时，若没有听清，可以人工地就某一段进行复听；而机器则缺乏这种主观性。对于这样的录音，在语音准确识别上首先存在问题，因为语速过快，其调域会变窄，声母和韵母会出现一些很奇怪的变化，比如说浊音清化、复韵母单音化，还有一些变调根本没有规律可循。调域变窄就意味着声调的起伏变化变小，机器就很难辨别其具体调值，有的时候语速甚至能改变调型，这就直接导致机器误判。其次还不能进行及时复听，这就使得机器在这部分的测试上相符度欠缺。
　　4.在测试中，对于能够达到一级水平的也就是普通话水平好的扣分要从严，对于三级水平的即普通话水平不太好的扣分要从宽。对于这条不成文的规定，测试员执行得要比机器好，从机测一级和三级的测试情况就可以看出。因为，测试员可以根据经验，在测试过程中灵活地贯彻这条不成文的规定，而机器则缺乏这种灵活性。
　　四、结语
　　本文讨论了PSC前三题和第四题的机测成绩，从以上分析中我们归纳了机测系统需要改进的两个方面：
　　1.机测系统对于声音的音质过于敏感，同时对测试语速、环境等的要求较高，不能区分主要声音、次要声音以及无关声音，以至于影响了成绩的评定。这有待于计算机语音识别技术的进一步发展。
　　2.机测前三题评分过于严格、死板，分数普遍偏低；机测后完成的第四题人工测试，不能很好地利用测试中的正迁移，导致成绩主观性过强，客观性不足。
　　以上提出的都是普通话机测系统应该改进的地方。希望本文能够对相关科研机构改进机测有所帮助。
　　
　　参考文献：
　　[1]陈琦，刘儒德.当代教育心理学[M].北京师范大学出版社，2007.
　　[2]薛微.SPSS统计分析方法及应用[M].北京：电子工业出版社，2009.
　　[3]姜岚.普通话水平测试理论与实践[M].上海辞书出版社，2004.
　　[4]陆俭明.现代汉语语法教程[M].北京大学出版社，2005.
　　（刘洪超，姜岚山东烟台鲁东大学文学院 264025）