• 智能技术赋能混合式学习测评研究

    普通类
    • 支持
    • 批判
    • 提问
    • 解释
    • 补充
    • 删除
    • 智能技术在教育测评中的应用

    摘要

     

           教育评价改革在我国受到了前所未有的重视,然而受限于传统测评手段,个性化评价和过程性评价难以得到有效实现,教育评价改革需要新型的测评技术作为支撑。计算机技术与人工智能的发展为测评领域注入了新的活力,推动了智能化测评的产生,为我国教育评价改革提供了新的解决方案。目前,智能化测评已经在学生能力和知识水平评估、人格与心理健康评估以及教学过程评估等方面取得进展。但在具体应用中也存在一些问题:(1)多模态数据的多维度采集和综合利用问题;(2)测评结果的准确性与可解释性问题;(3)测评模型的针对性和精准化问题;(4)智能化测评中的信效度检验问题。并在此基础上提出一些完善展望,希望为后来研究提出一些建议。

     

    一、引言

     

       教育评价是教育活动中至关重要的一部分,是教育活动的“指挥棒”,直接影响着教育活动的开展。当前教育评价改革在我国受到了前所未有的重视,新一代人工智能是教育评价改革创新的重要驱动力,是教育综合质量提升的关键。2020年,中共中央、国务院印发《深化新时代教育评价改革总体方案》,明确指出要创新评价工具,利用人工智能、大数据等现代信息技术,探索开展学生各年级学习情况全过程纵向评价、德智体美劳全要素横向评价。《人工智能 + 教育蓝皮书》强调了人工智能在学生实际问题解决能力诊断测评、心理健康监测与干预、智能课堂评价、口语自动测评等方面的应用价值。智能技术赋能教育评价是面向教与学多参与主体的适性价值判断,具有诊断、鉴定、反馈、导向等功能。智能时代驱动教育教学评价研究呈现出强劲的发展态势,也为各教育领域评价变革提供了重要引领和支撑。

     

     教育智能测评研究现状

     

       智能化测评技术已应用于学生能力和知识水平评估、人格与心理健康评估以及教学过程评估三个方面,逐步实现了对传统测评手段的突破,对教育评价改革起到了重要促进作用。在学生能力和姿势水平评估方面:智能化测评在过程性评价、综合能力评价、动态性评价上实现了突破。例如,贝叶斯知识追踪技术的发展逐步形成了动态知识水平分析的解决方案(Piech et al.,2015),可以实现对学生学习过程的建模,动态分析学生在学习过程中能力的变化,为教学提供更有价值的信息。Zhao等(2017)在数学在线学习的场景中将认知诊断中Q矩阵先验知识引入到知识追踪技术中,建立了基于贝叶斯理论的可解释知识追踪模型,实时评估学生知识掌握状况,并对学生随后的作答情况进行预测。此外,也有研究者利用作答过程中的生理指标数据对学生的能力水平进行分析。例如,Rodrigo(2020)在编程教学过程中,使用学习者的眼动数据对学生的编程能力进行实时的诊断,并通过分析教师与学生在教学互动中学生编程能力的变化,对教师教学有效性与学生掌握情况进行系统评估。在人格与心理健康评估方面:基于社交媒体与在线文本信息、可穿戴式传感器数据以及音视频数据等多模态数据,智能化测评通过人工智能分析方法,可以实现对学生人格与心理健康的无痕、伴随式评估。在教学评估方面:基于自然语言理解技术和计算机视觉技术使得教学评估更加直接、便捷。例如,景丽萍(2020)首先使用 BERT 语言模型构建多标签分类模型,预测评教文本是从哪个方面对教师进行评价;之后再针对每一个方面构建情感倾向多分类模型;最后通过整合多个学生对同一位教师的评价结果,形成情感摘要,进而对教师的教学效果进行综合评价。Kashyap 等(2018)从课堂教学视频中提取教师的演讲、行为线索以及视频本身属性作为特征,使用机器学习方法构建课堂氛围的自动评分系统,对课堂气氛进行实时评价

     

    三、智能技术在教育测评中的应用

     

    1. 计算机自适应测评(Computerized Adaptive Testing,CAT)

      计算机自适应测验是基于项目反映理论和计算机技术的一种测验模式他根据考生的作答情况自适应地选择测验项目。计算机自适应测验与纸笔测试、一般计算机测验的区别是具备估算被试者的能力、不依赖于测试题目的特性; 可以根据题目的信息量,选择与被试者能力相匹配的题目; 测试管理灵活,测试结果可以立即显示,减少考生考试焦虑; 与传统测验相比,计算机自适应测验可节省成本。因此计算机自适应测验常用于总结性评估,如高风险的考试测评( 大学入学和就业等)

           传统的测评方式就是一张考试卷,所有人都回答同一张试卷,来测出每个学生的能力以及掌握程度。而计算机自适应测评具有以下特点:

      · 基于学生上一题及之前测评题上的作答情况,采用大数据及人工智能技术自适应选择下一道测评习题

      · 每个人最终形成一套个性化的测评题集

      · 高效:仅少量的题可测评出学生能力

     

     

      左图可以看到给学生一个问题Qt,根据学生做题目的对与错,然后有一个认知诊断模型进行诊断,然后再通过选题策略,选择与学生能力相匹配的题目,通过少量的题目能够快速诊断出学生的能力。同时避免了对一些低水平的同学,题目太难,使学生丧失信心,或者对于一些高水平的学生,题目太简单,使学生变得无聊。

      右图展示的是个性化测评题集,首先由两个同学e1、e2开始作答,第一题给相同的题目,根据两个同学的答题情况,e1同学答对了,那么就会从题库里选择比较难一点的题目。e2同学答错了,那么下一道题就从题库选择简单的题目。真正做到千人千面,不同的学生所对应的题目也有差异。

    2.自动简答题测评(Automated Short Answer Grading,ASAG)

             自动简答题测评是智慧化教学过程中评价教学质量的一个重要环节,是智慧教学中的一个研究热点。 自动简答题测评系统不仅能减轻教师工作量,还能避免人的主观性引起的评分不一致问题。它的工作原理为针对开放式简答题中涉及知识点广泛、作答文本的语言表述具有多样性的特点,提出从关键词、无关词、语义这三个角度进行评分,综合多方面的信息给出合理的分值,这种方法符合教师在评分过程中的基本依据和评价标准。

    s1、识别待评分答案的关键词,计算关键词评分;

    s2、识别待评分答案的无关词,计算无关词评分;

    s3、计算语义评分;

    s4、计算待评分答案的得分;优选的,得分=[关键词评分+(1-无关词评分)+语义评分]/3*简答题分值。

    一种开放式简答题自动评分的方法和系统与流程

    3.游戏测评(Game-based Assessment,GBA)

           游戏测评是指通过游戏或游戏化的活动, 对某一对象进行评估。它是一个独立的游戏,根据受测者在游戏中的行为表现数据, 对个体的一个或多个特质进行测量与评价, 重点在于实现评估的目的。不同于采用试卷测试的方法, 研究者将考察点融入游戏,使受测者在游戏过程中展现其对知识和技能的理解和应用能力。尤其是评估数学、物理、医疗急救和建筑设计等此类更需要理解应用的知识技能时, 基于游戏的测评是一种有效的工具选择。简单来说,游戏化测评就是在原有的测评中应用了游戏元素、思维和机制,从而提高测评的有效性、可靠性、公平性、趣味性等。目前为止,市场上比较流行的线上游戏化测评大致有三类:平行实境游戏、项目竞赛游戏和游戏化行为测评。

     

    四、教育智能测评技术的现存挑战

     

    1.多模态数据的多维度采集和综合利用问题

           智能化测评采用数据驱动的人工智能分析方 法,能够最大程度上利用多模态数据,实现对个体能力、认知水平、人格特质、心理健康等更全面和精准的评估。然而,目前智能化测评中对多模态数据的利用仍然处于起步阶段,基于多模态数据的测评主要以探索性研究为主,对多模态数据的协同分析还不够深入。

    2.测评结果的准确性与可解释性问题

            智能化测评结果的准确性与可解释性是测评研究中最为重要的评价指标。准确性要求尽可能降低测评的误差;可解释性是测评结果可以被理解的程度。智能化测评不仅对测评精度要求高,而且还要能够清楚解释测评分数是如何得到的。因为如果测评分数的计算过程是一个黑匣子,往往会招来考生对测评过程公平公正的质疑,尤其是在高利害测试的场景下。因此,如何结合人工智能技术来提高测评的准确性并保证可解释性,是面向教育评价改革的智能化测评技术需要解决的主要问题之一。   

    3. 测评模型的针对性和精准化问题

       目前智能化测评的主要研究人群来自人工智能领域,他们一般从海量的文本数据以及智能设备采集的日志文件等大规模数据集中,以数据驱动的方法对心理特质(如学习者的能力、人格特质、心理健康等)进行预测与测评。这些研究往往缺乏对心理特质的准确界定,忽略测评过程中可能产生的误差,忽视从理论上来阐释所测特质和特征抽取之间的关系,虽然构建的预测模型表现出了良好的准确率,但是却较难用于实际的教学实践活动中,并提供有效的教学建议。为了实现真正高效、精准的智能化测评,促进智能化测评在多个教育场景下的广泛应用,需要提高预测模型的针对性和精细化。在模型构建时应当不过分依赖于数据,适当引入专家知识,更合理地建构测量数据与测量结果之间的关系。同时在数据的收集过程中,也应当摒弃无规则的大范围数据收集,而是依据测量目的,注意与传统测量技术的有机结合,针对性地设计数据收集方法。

    4.智能化测评中的信效度检验问题  

            教育测量界不断更新的信度与效度概念深深地影响着能力评价工具的开发与应用。随着人工智能技术的快速更新与迭代,各种自动化测评工具的信效度也被赋予了融合时代特色的新涵义。信度与效度论证的本质是对教育和心理测验的稳定性进行评估,并对测评结果的有效性提供证据。目前,对智能化测评工具的信效度检验几乎都集中在机器评分与人工评分或传统测验分数的一致性上,且主要利用交叉验证方法对智能化评分模型的精确度、召回率以及 F1 值进行验证,而这只能说明智能化测评具有一定的预测效度,但是对区分效度(能把所测特质与其他特质区分开来)、重测信度(随时间的稳定性)、一致性信度(跨样本的评分一致性)以及公平性(对不同的施测群体不存在测量偏差)等方面缺乏检验和评估。虽然智能化测评往往具有较高的准确率,但这并不意味着就满足了测评的要求,需要依据传统测评框架对测评的信效度进行系统评价。

     

    五、教育智能测评的发展趋势 

    1.全景多模态数据融合分析驱动下的教与学全方位精准测评趋势

       构建面向全时空场域的高质量课堂测评数据生态系统是未来智能技术在高质量课堂测评应用的趋势之一,线上线下无缝连接的混合型复杂课堂场景精准测评需要捕获、处理和分析多模态、全维度数据,以便理解教与学全过程中利益相关者的行为和相互作用的痕迹,为课堂教学质量提升提供更加客观全面的依据海量的教育数据既是测评课堂教学质量的核心要素之一,也是训练新一代人工智能测评模型的基础因此在课堂测评数据共享、预处理和存储与计算方面要建立完整系统的闭环,同时也不能忽视小数据的作用。

    2.智能技术支持下课堂认知、情感等多维度可解释性测评趋势

            建立面向认知、情感等全方位的课堂测评可解释性体系,是未来新一代人工智能在课堂测评应用的趋势之一。随着因果学习为代表的人工智能技术的快速发展以及教育领域对大数据诉求的增强,面向结果可解释的因果计算范畴将逐步拓展,聚焦学生认知、情感等高阶诊断问题,从单一的知识或行为分析走向“知(知识)—行(行为)—情(情感)”的综合演化与测评。

    3.全生命周期视野下基于人机协同的课堂测评定制化服务趋势

       结合课堂教与学个体的全生命周期数据追踪,建立面向个体全面发展的动态个性化服务定制,也是未来新一代人工智能基于人机协同的课堂测评应用中的发展趋势之一。智能课堂在应用时需以测评个性化、服务定制化等迫切需求为目标,全面分析课堂多类型主体的全过程数据,开展学生学习状态监测与预警、教师适性评价与指导、课堂科学管理决策等方面以智能化为核心的定制化服务,实现为教学管理“把脉”,深化人工智能与教育的融合。

     

    六、总结

     

       教育评价改革需要新型的测评技术作为支撑,智能化测评通过引入人工智能新技术,以更可靠、更高效、更智能的手段整合多维度、多层次的信息,形成更具准确性和解释性的测评方案。智能化测评技术依托教育场景大数据,应用人工智能技术手段,在多个教育场景中均已产生丰富的研究成果。整体来看,随着教育评价改革任务的推进,各项测评场景趋于联动发展,数据趋于多元化,模型算法趋于复杂化,测评的准确性与实时性有所提高,更多产品化应用将逐步涌现。随着人工智能和教育心理测量的深度融合,智能化测评要吸取传统测评的优势,努力提升模型的可解释性,将传统测评手段应用在建模过程中来提高评估的精细化和针对性,并加强系统的信效度检验,提高测评的实用性和有效性。
    • 参考文献

    [1]田伟,杨丽萍,辛涛,张生. 科技赋能教育监测与评价:现状与前瞻[J]. 中国远程教育,2022,(01):1-11+92.

    [2]黄昌勤,涂雅欣,韩中美. 智能技术赋能课堂测评:现状、挑战与趋势[J]. 人工智能,2022,(02):116-124.

    [3] 黄晓婷. 人工智能在教育测评领域的应用与研究现状——教育与人工智能系列谈[A]. 北京大学中国教育财政科学研究所.中国教育财政政策咨询报告补充版(2015-2019)[C].:北京大学中国教育财政科学研究所,2021:652-656.

    [4]沈霞娟,张宝辉,张浩.深度混合学习设计模型的构建与实证研究[J].现代教育技术,2022,32(08):50-58.

    [5]徐俊怡,李中权.基于游戏的心理测评[J].心理科学进展,2021,29(03):394-403.

    [6]Sebastiaan de Klerk,Bernard P. Veldkamp,Theo J.H.M. Eggen. Psychometric analysis of the performance data of simulation-based assessment: A systematic review and a Bayesian network example[J]. Computers & Education,2015,85:.

    [7]卢宇,余胜泉,谭红叶,段庆龙. 一种开放式简答题自动评分的方法和系统[P]. 北京市:CN111414456A,2020-07-14.

    [8]骆方,田雪涛,屠焯然,姜力铭.教育评价新趋向:智能化测评研究综述[J].现代远程教育研究,2021,33(05):42-52.

     

    • 标签:
  • 加入的知识群:
    学习元评论 (0条)

    评论为空
    聪明如你,不妨在这 发表你的看法与心得 ~



    登录之后可以发表学习元评论
      
暂无内容~~
顶部