学习元 · 智能化测评助推教育评价改革研究

摘要

传统的学业质量评价往往更加重视总结性评价方式，过于注重学生的学习结果，而对学生的学习过程关注过少。而教育评价的真正目的是为了发现和解决学生在学习过程中的问题，了解学生发展中的需求，帮助学生找到符合自己思维特点的学习方法，提高学生元认知能力和学习内驱力，增强自我效能感。通过智能化测评对学校课程执行的情况、学生学业质量进行客观分析、评估与反馈，有助于及时调整课程内容、改进教学管理，形成课程不断革新的机制。

1 引言

近年来, 教育大数据、学习分析和智能网络学习平台的逐步发展使得学习轨迹不仅能够得到记录进而形成全学习过程数据链, 而且能够对学习过程和结果进行个性化分析和评测。而以深度学习、机器学习、自然语言处理等为代表的人工智能技术兴起, 使得测评技术更加智能和精准, 基于学习内容和结果可以对学习者的知识和能力水平进行智能化评测, 以更好地服务于认知诊断。因此, 我们可以借助智能测评系统对学习过程中的阶段性学习表现进行评价和归因分析, 并结合学习者的个性特征定制基于内容掌握的学习路径, 最终促进其对知识的深度理解和概念的掌握。

2 国内外研究现状

智能时代技术为教育评价变革提供了支撑引领，智能技术赋能教育评价正走向教育评价改革的主战场，但目前业界对智能技术赋能教育评价的内涵并没有清晰的界定。有学者从技术视角提出如何赋能教育评价，Zhang Qingchen等人指出，在智能化教育评价中通过传感器网络和通信技术等实现大数据的收集，通过深度学习解决在图像分析和语音识别等方面的问题。Wiley和Hastings等人指出可通过机器学习和自然语言理解技术评价学生的想法和概念的运用，评价结果具有较高的准确度。也有学者从技术驱动教育评价手段变革的视角给出解释：通过利用技术的手段和方法，系统、科学、全面地采集、处理、分析各类教育数据，对教育活动做出客观判断的过程，实现了从经验主义走向数据主义，从模糊走向精准；利用技术手段，有效采集和整合学生的各项数据，将教师评价、自我评价等多种评价数据融合，从而对学生进行多维、全面、深入的评价，将碎片化评价转化为系统化评价。还有学者从传统教育评价向技术驱动教育评价观念转变的视角给出解释：技术使教育评价从“关注结果”转为“关注过程”，从“单一的考试评价”转为“多维度的综合素质评价”；以技术为支撑的教育评价将“传统教育评价”转变为“智能化的教育评价”，从而真正走向“智慧评价”。

3 智能化测评的应用场景

（1）学生能力和知识水平评估

智能化测评可以突破纸笔测验的局限性，可以实现对学习过程或作答过程数据的建模。高保真的测验场景与交互式的新型测评方法可以实现对学生综合素质更准确地评估。此外，智能化测评的自动化、高效性，能为师生提供实时的反馈，实现动态性评价。值得注意的是，从目前教育评价实践来看，纸笔测验仍然是最主要的学生能力测评方式，终结性的评估仍然在教育评价中占据主流地位。智能化测评在综合能力的测量中，无论是施测形式还是施测内容均与传统测量方法存在较大差异，测量结果往往与传统的知识类测验结果并不匹配，因而在实际的应用中还需要进行充分的对比研究，探索造成差异的原因并提出相对稳妥的改进方案。另外，新型测评产生的过程性数据具有丰富的诊断信息，当前虽然已经有了一些对过程性数据进行挖掘的探索性研究，但真正将过程性数据作为评估证据进行教学评价的研究仍然较少。智能化测评中针对主观题构建的自动评分模型提高了测评的效率，但这些模型的构建过程往往还属于一个“黑匣子”，人们对模型评分过程的信任度不高，其评分结果往往作为人工评分的校验手段。总体而言，智能化测评在学习与能力评估方面仍然处于发展探索阶段，需要进行更充分和系统的研究。

（2）基于生理数据的智能化测评

教育评价改革不仅要求对学生的能力素养进行全面评估，同时也关注学生的个性品质和心理健康。目前对学生个性品质（如人格、兴趣、动机等）和心理健康（如焦虑、抑郁、主观幸福感等）的评估主要采用自陈量表法。自陈量表向学生提供一系列客观问题，由学生本人根据实际情况报告自己是否具有某些典型的行为表现，最后根据量表得分评估学生的状况。自陈量表作答的有效性依赖于被试对题目的理解和作答态度。同时，自陈量表法难以短期内多次测量，无法及时有效地反映学生个性品质和心理健康的发展与变化。智能化测评突破了传统心理健康测评对自陈量表法的依赖。基于社交媒体与在线文本信息、可穿戴式传感器数据以及音视频数据等多模态数据，智能化测评通过人工智能分析方法，可以实现对学生人格与心理健康的无痕、伴随式评估。

（3）人格与心理健康评估

将人工智能应用于教学过程分析中，能够对教师教学进行精确画像，帮助学校和教师了解学生的需求，及时精准地调整教学育人的方式方法。然而，教学文本的自动化评价研究非常少，还没有引起人们足够的重视。此外，所采用的建模方法也较为简单，仅将其作为简单的情感分类问题来处理，能够给教师提供的教学参考意见比较有限。其实，评价文本作为反映和收集学生心声的重要渠道，如果能够实现机器建模，对教学意见精细提取和汇总，将能够搭建起学生和教师充分和及时沟通的桥梁。而且，对课程教学的自动化评估受限于弱人工智能的不足，还很难实现对教学语言层面的深入分析，也很难对个性化、复合型的教学手段进行甄别和评估。此外，如何有效保护课堂中师生的隐私也是一个不容忽视的问题。

4 智能化测评的教育意义

（1）人工智能是当下计算机行业未来的新方向,是一种技术,更是一种新的思维模式。利用机器学习方法,可根据获取的数据来分析结果。结合人工智能技术,运用人工智能思维方法,智能化测评能够自动分析所有学习者的数据,归纳普遍存在的学习问题,进行智能化数据归类总结，为教师教学提供更大帮助。

（2）在互联网及其终端大规模普及的情况下，人们的碎片化时间逐渐被丰富多彩的信息服务填充，而传统的教育无法充分利用可整合的大量碎片化时间，对于还处在受教育阶段的学生来说通过信息化和智能化的学习手段可以补充必要的学习时间和学习手段。另外，对于已经处于工作中的社会人群来说抽出大块的时间进行系统化学习是极为困难的，所以基于互联网和人工智能的教育服务更能充分利用空闲时间。通过智能化测评可以使学生和社会人群不受地域和时间严格限制进行学习，对于社会整体的教育水平提高有着积极的促进作用。

（3）随着中国经济持续发展，各行业对人才大量需求，各学习阶段的检测需求量也随之增长，而传统的纸质考试会消耗大量的纸资源，2017 年的中国造纸协会年度报告中指出，用于印刷和书写的纸张年消费量已经增长到1744 万吨，同时随着社会经济的发展纸张的需求量仍在持续增长，而大量使用纸张不仅会消耗森林资源，也不利于国家实现节能减排、产业结构调整等国家战略。此外，传统的纸质考试方式还无法快速地统计大量考试信息，对学习过程缺乏高效的反馈。当今智能化测评为在线考试提供了方便的平台，通过智能化测评进行在线考试不仅可以替代传统纸质考试，还借助其可移动性增加了考试方式的多样性。

（4）智能化测评的引入为孩子提供了个人发展的新模式，也使老师能够从一个全新的角度理解孩子的发展，审视老师对孩子的评价，从而树立科学的智力观、学生观、教学观、课程观、评价观。就目前来说，智能化测评不但是好的教育理念，且应用价值很高，老师通过智能测评系统能了解孩子先天人际智能、内省智能、逻辑数学智能、空间智能、语言智能、肢体智能、观察智能、音乐智能等智能的科学排序，进而判断得出孩子的“最优发展方向”，制定个性化的培养规划以及具体课程建议，为孩子未来的发展打下坚实基础。

5 智能化测评的关键问题

智能化测评能够充分利用人工智能的优势，减少测评过程中的人力消耗，实现更具准确性和解释性的测评方案，增强过程性评价和个性化评价。然而目前，智能化测评依然处于初步发展的阶段，存在一些共性和亟待解决的关键问题。

（1）多模态数据的利用问题

智能化测评采用数据驱动的人工智能分析方法，能够最大程度上利用多模态数据，实现对个体能力、认知水平、人格特质、心理健康等更全面和精准的评估。然而，目前智能化测评中对多模态数据的利用仍然处于起步阶段，基于多模态数据的测评主要以探索性研究为主，对多模态数据的协同分析还不够深入。

（2）测评结果的准确性与可解释性问题

智能化测评结果的准确性与可解释性是测评研究中最为重要的评价指标。准确性要求尽可能降低测评的误差；可解释性是测评结果可以被理解的程度。智能化测评不仅对测评精度要求高，而且还要能够清楚解释测评分数是如何得到的。因为如果测评分数的计算过程是一个黑匣子，往往会招来考生对测评过程公平公正的质疑，尤其是在高利害测试的场景下。因此，如何结合人工智能技术来提高测评的准确性并保证可解释性，是面向教育评价改革的智能化测评技术需要解决的主要问题之一。

（3）测评模型的针对性和精细化问题

目前智能化测评的主要研究人群来自人工智能领域，他们一般从海量的文本数据以及智能设备采集的日志文件等大规模数据集中，以数据驱动的方法对心理特质（如学习者的能力、人格特质、心理健康等）进行预测与测评。这些研究往往缺乏对心理特质的准确界定，忽略测评过程中可能产生的误差，忽视从理论上来阐释所测特质和特征抽取之间的关系，虽然构建的预测模型表现出了良好的准确率，但是却较难用于实际的教学实践活动中，并提供有效的教学建议。

（4）智能化测评中的信效度检验问题

教育测量界不断更新的信度与效度概念深深地影响着能力评价工具的开发与应用。随着人工智能技术的快速更新与迭代，各种自动化测评工具的信效度也被赋予了融合时代特色的新涵义。信度与效度论证的本质是对教育和心理测验的稳定性进行评估，并对测评结果的有效性提供证据。目前，对智能化测评工具的信效度检验几乎都集中在机器评分与人工评分或传统测验分数的一致性上，且主要利用交叉验证方法对智能化评分模型的精确度、召回率以及F1值进行验证，而这只能说明智能化测评具有一定的预测效度，但是对区分效度（能把所测特质与其他特质区分开来）、重测信度（随时间的稳定性）、一致性信度（跨样本的评分一致性）以及公平性（对不同的施测群体不存在测量偏差）等方面缺乏检验和评估。

5 总结展望

教育评价改革需要新型的测评技术作为支撑，智能化测评通过引入人工智能新技术，以更可靠、更高效、更智能的手段整合多维度、多层次的信息，形成更具准确性和解释性的测评方案。智能化测评技术依托教育场景大数据，应用人工智能技术手段，在多个教育场景中均已产生丰富的研究成果。整体来看，随着教育评价改革任务的推进，各项测评场景趋于联动发展，数据趋于多元化，模型算法趋于复杂化，测评的准确性与实时性有所提高，更多的产品化应用将逐步涌现。随着人工智能和教育心理测量的深度融合，智能化测评要吸取传统测评的优势，努力提升模型的可解释性，将传统测评手段应用在建模过程中来提高评估的精细化和针对性，并加强系统的信效度检验，提高测评的实用性和有效性。

[参考文献]

[1]孟青泉,贾积有,张志永,颜泽忠.智能教学系统测评模型的构建与实证研究[J].现代教育技术,2022,32(05):68-74.

[2]牟智佳,俞显.教育大数据背景下智能测评研究的现实审视与发展趋向[J].中国远程教育,2018(05):55-62.

[3]骆方,田雪涛,屠焯然,姜力铭.教育评价新趋向:智能化测评研究综述[J].现代远程教育研究,2021,33(05):42-52.

[4] 杨现民,顾佳妮等.“互联网+”时代数据驱动的教育评价体系构架与实践进展[J].浙江师范大学学报(社会科学版),2019,44(4):16-26.

[5] 郑燕林,柳海民.大数据在美国教育评价中的应用路径分析[J].中国电化教育,2015,(7):25-31.

[6] 曹培杰.以新思维新技术破解教育评价痛点[EB/OL].https://epaper.gmw. cn/gmrb/html/2019-12/10/nw.D110000gmrb_20191210_4-13.htm,2021-02- 05.

[7] Zhang Qingchen,Yang Laurence T.,et al.A survey on deep learning for big data [J].Inform Fusion,2018,(42):146-157.

[8] Wiley J,Hastings P,et al.Different approaches to assessing the quality of explanations following a multiple-document inquiry activity in science [J].International Journal of Artificial Intelligence in Education,2017,27(4):758-790.

智能化测评助推教育评价改革研究

加入的知识群：

教育技术

学习元评论 (0条)