大众网
12月14日-15日,由中国教育三十人论坛、香港大学教育政策研究中心、田家炳基金会、深圳香港培侨书院龙华信义学校联合筹办的第七届世界教育前沿论坛在深圳举行。本届论坛的主题为“测评与考试:从科举到人工智能”,三十余位专家学者以及一线教育工作者,围绕主题分享思考,积极提出改变现状的路径和方法。
世界教育前沿论坛主席、香港大学荣休教授、中国教育三十人论坛成员程介明,中国教育三十人论坛执行秘书长石岚
重新审视当前教育:突破传统测评和考试
历时1300多年的古代科举,与现代的考试跨代融合,形成了今天华人社会中近乎牢不可破的应试文化。作为一种独特的社会现象,应试文化是由工业社会经济话语与历史公民话语的融合演变而来,具有深刻的社会背景和现代社会的烙印。
世界教育前沿论坛主席 、香港大学荣休教授、中国教育三十人论坛成员程介明谈到,今天的全民学校制度,是不到200年前工业社会顶峰时期的产物,目的是为社会提供各类各层的人力资源,其形态模拟了工业生产流程,考试成了质量控制的关键。
世界教育前沿论坛主席、香港大学荣休教授、中国教育三十人论坛成员程介明
传统教育体系通常基于年龄对学生进行分级,测试和评估也遵循这一年龄分级体系,忽视了人与人之间不同的能力、动机和兴趣等。
程介明表示,随着社会变迁,大规模生产逐渐不再是常态,机器替代人工成为趋势,就业形态发生了变化,转工转行成为常态,自雇职业受到羡慕。年轻人面临的前途多变,生涯规划变得不确定。传统的应试教育制度可能不再适用,社会需要培养自信、自立、自主、自为的个体。教育改革应注重培养学生的能动性和自主性,将学习还给学生,让他们掌握自己的学习。人工智能为教育改革提供了新的机会,通过提供各种工具,让学生掌握自己的学习,并不同程度地尝试突破传统的测评和考试。
经济合作组织(OECD)教育与技能司司长、“PISA之父”安德烈亚斯·施莱歇尔
亚洲学生在学科学习上的投入是显而易见的,尤其是在数学和科学等科目上,他们的表现往往在全球范围内都非常出色。然而,尽管亚洲学生在国际学术竞赛和标准化考试中取得了优异成绩,但在诺贝尔奖等国际荣誉的获得上,欧美国家确实更为突出。这也促使教育界和公众开始思考,传统的测评方法是否能够全面反映学生的多元智慧和能力。
经济合作组织(OECD)教育与技能司司长、“PISA之父”安德烈亚斯·施莱歇尔谈到,培养一流的人才,需要深入思考如何增强个人在阅读、数学和科学等方面的能力,以适应不断数字化的社会。
安德烈亚斯·施莱歇尔介绍,最新(2022年)的PISA测评结果显示,近60%的学生完成了近60%的阅读任务,以及略超过一半的数学任务。当人工智能ChatGPT参与解决这些问题时,它在阅读方面表现得比15岁学生好,但在数学方面学生的成绩仍领先。然而,人工智能的数学能力进步迅速,并很快赶上15岁学生的水平。
安德烈亚斯·施莱歇尔介绍,日本在PISA评估中虽然在阅读、数学和科学方面获得了满分,但这只是表面现象。深入探究后,发现日本学生在心理健康、个人归属感、认同感发展方面存在局限性,缺乏快乐感和自主性。美国学生在阅读、数学和科学方面表现不佳,但他们有很强的参与度和自主性,能够采取行动,但在情感韧性和适应变化能力方面有所不足。丹麦在教育体系中的表现全面,学生在学术、快乐感、归属感、自主性、参与度和情感韧性方面都表现出色,他们积极参与学校活动,能够自我组织生活,并对多元思维方式持开放态度。“这些例子表明,成功的教育体系需要从多角度评估,不仅关注学术成绩,还要关注学生的全面发展。”
他认为,评估固定学科内容比评估思维能力容易,但我们需要改变评估方式。常规认知技能的需求正在下降,技术密集型任务在增加,我们需要将人工智能融入其中。他强调,学校应该帮助学生理解他们的存在意义、价值观、热爱的事物以及他们想要实现的目标,这需要个性化的教育方法。同时,学习和考试不应该被割裂开来,考试应该成为学习体验的一部分,并提供持续的反馈。
教育测评的全球视野:技术与评估的革新
依托大数据分析、机器学习、自然语言处理等先进技术,全球范围内,教育评价正从传统的纸笔考试模式,向着智能化、个性化和全球化的方向迈进。论坛上,嘉宾们分享各自在这一领域的探索和实践,为教育评价改革提供了宝贵的经验和启示。
现场连线韩国江原大学副教授申铁均
韩国江原大学副教授申铁均在论坛上分享了韩国在2013年开始施行的“免费学期”计划。这一项目是为了克服韩国填鸭式教育、标准化考试制度、低学习动机和过度竞争等问题。
“免费学期”计划旨在帮助学生在中学的一个学期内找到自己的梦想和天赋,增加他们的幸福感,而无需参加期中考试和期末考试。“免费学期”计划中的“免费”意味着免于标准化考试的自由和有意义活动的自由。“免费学期”通常在中学一年级的第一学期进行,课程减少了一些课时,以开展“免费学期”活动,如职业探索活动、艺术和体育活动以及俱乐部活动。“免费学期”最大的变化是评价的变化,不进行期中考试和期末考试,而是进行形成性评估组合和其他过程评估,教师在学生档案中记录学生的教育过程——换句话说,是有“评估”没“考试”。2019年,“免费学期”课程由一学期扩展为一年。随着2021年课程的修订,计划从2025年开始,“免费学期”课程减少到一学期。
“免费学期”项目的意义在于,它能够实现以学生为中心的学习和体验,摆脱了韩国以考试为中心的竞争教育现实中的教科书进度和考试。教师首次体验了“无考试教育”,并实践了课程结构调整和以学生为中心的班级管理。因此,体验过“免费学期”的学生对学校的满意度更高,并在学生主导的学习和职业探索中得到了帮助。
现场连线新加坡南洋理工大学国立教育学院副教授吴伟斌
新加坡国立南洋理工大学国立教育学院吴伟斌副教授谈到新加坡减少考试的尝试与经验。他表示,教育领域正经历着从传统到现代化的转型,这涉及到对小步骤改革的认识,即通过做一些小的、正确的改变来推动整体的进步,哪怕这可能意味着会错过一些正确的事物。自1965年以来,新加坡教育设计从基本的生存驱动转变为重视IT技能和社会需求。教育的目标已经从效率驱动转变为强调创造力和创新的高层次思维技能。新加坡等国家在这一转型中走在前列,强调整体教育和个体信心的建立,而不仅仅是知识的快速传递。
科大讯飞副总裁周佳峰
科大讯飞副总裁周佳峰在论坛上介绍了通过测评去推动教育的实践经验。他谈到,大模型的发展为学生测评带来了更深层次和更多维度的可能性。传统的测评主要关注智力水平和学业成绩,而现在通过学科知识、身心健康和AI素养等多方面的测评,可以更全面地了解学生的发展潜能,并为他们提供适切的学习资源。
在学科知识测评方面,大模型可以实现作文智能批阅、过程打分和个性化纠音等功能,帮助学生自主学习,减少学习压力。同时,大模型在心理测评方面也有优势,能够帮助学生解决亲子矛盾、朋友冲突和考前焦虑等问题。此外,大模型还可以用于评估学生的AI素养,并推动教师的专业发展。通过口语评测、机器评测和课堂实录等技术,大模型可以减轻教师批改负担,并对课堂教学进行分析和改进,提高教学质量。
马来西亚董总教育研究与发展组研究员胡依珊强调了多元化课程设计的重要性,以应对应试教育的局限性,并提倡学校提供更多元的学习选择,促进学生多元学习。她提出,通过记录学生的成长过程,可以让学生、老师、学校和家长共同“看见”学生的进步和潜能,从而改善学生的心理状态。
创新教育测评:跨学科实践与教学改革
传统的测评方法往往侧重于学生的学术成绩和知识掌握程度,而较少关注学生的创造力、批判性思维、情感智慧、社交技能等非认知能力。在本次大会上,来自教学一线的校长和老师们进行了分享。他们均认为,教育评估的改革方向之一是更加全面地评估学生的多元智慧和能力。
江苏海门新教育小学二年级语文老师兼班主任盛美在圆桌论坛上分享了自己班级在写绘作业评价方面的实践。盛美采用了对作业“少介入、不批、不改、只赏”的评价方式,通过留下充满情感的符号来鼓励学生。这种方式不仅减少了教师的批改负担,还培养了学生自主修改的意识。此外,盛美所在的班级还采用“多展示”和“群眼光”的评价策略,通过小组分享、全班展示和网络平台分享学生作品,以及让学生互相评价,以营造积极的学习氛围。
为了解决学生和家长对写绘作业的恐惧,盛美将课程从“读写绘”改为“听读会说”,强调口语到书面语的过渡,并设计了从生活出发的五个主题,包括校园生活、节日生活、季节生活、故事生活和内心生活等。她还利用AI技术,如讯飞办公本和豆包,来辅助学生写作,减少家长的辅导压力。
AI加入日常教学后,会产生什么变化?“我的能力已不足以批改学生利用AI生成的作品。”香港圣公会阮郑梦芹银禧小学副校长李伟铭分享了一个案例,该校六年级学生根据二年级学生创作的故事进行阅读理解,并利用AI技术生成图片。这一过程中,六年级学生通过阅读低年级学生的作品,不仅进行了有趣的讨论和反思,还制作了令人惊叹的作品。
李伟铭认为,AI时代要求教师重新思考批改的目的和方向,从简单的理解、牢记转向更高层次的创作。教师不再是权威的知识传授者,而是知识的共享者和引导者,与学生一起学习和反思。教师需要思考如何在班级中发挥新角色,如何赋能学生,鼓励他们互相评论、评审和评赏,以促进学生的进步。这是新一代学习的关键。
江苏省常熟中学苏建玉老师分享了AI技术融合课堂教学的实践。她谈到,AI技术能够辅助作文批改,节省了她的时间,让老师们有更多精力投入到课堂互动和培养学生的思维能力上。对于学生来说,AI测评能够促进个性化学习,提供包括电影、文学和新闻在内的优质学习资源,帮助学生更深入地理解语言的实际应用。AI还支持学生自主学习,通过生成故事、音频、视频和思维导图等方式,提升学生的数字素养和成就感。
在课堂上,教师利用AI进行读写融合教学,通过创设情境和生成问题链,鼓励学生合作学习和探究学习,有效提高了学习英语的兴趣和合作能力。AI技术还支持读后续写的批改,学生借助AI进行写作,并通过小组互批、AI批改和教师最终批改的方式,提升写作能力。
香港翻转教学协会的老师们分享了他们如何利用AI人工智能工具来提升教学效果和促进学生的自主学习。他们展示了如何使用AI工具批改学生的编程作业,这不仅提高了批改的效率和准确性,还减轻了教师的工作负担。此外,他们介绍了如何通过个性化反馈和建议,利用AI工具帮助学生进行口语评估,提供定制化的指导。他们还分享了如何利用AI工具进行口语表达和阅读理解的训练,以及如何利用AI工具帮助学生进行英语写作,通过生成图片,让学生直观地理解文字表达,激发学生的反思和创作。
深圳市宝安中学(集团)校长袁卫星在论坛上介绍了一些好的测评案例。比如有学校将传统的考试转变为趣味的综合素养测评。学生们在设计文创产品的中,不仅学习美术设计,还要进行项目推销、文化研究、材料采购和产品制作,最终以产品发布会的形式向虚拟客户推销自己的作品。这种跨学科融合的测评方式,强调实践操作和创造力,让学生在参与中学习。袁卫星认为,教育测评的原则应基于需求,以学生为中心,根据学生的感受调整测评的频率和难度,真正体现学生为主体、教师为主导的教学理念。
吴佳筠校长来自香港培侨小学,她分享了学校在教育测评方面的改革。学校原先每学期都有期中和期末考试,但后来认为单一的试卷评估不能全面反映学生的能力,因此取消考试,转而采用多元化评估方式。这些方式包括实际操作作品、实验能力、识字应用等,强调在评估过程中观察学生的知识运用、技能、创造力和态度。
例如,五年级学生在学习地方描写文后,需要选择一个中国地方进行研究,并扮演小导游向同学介绍,同时制作PPT进行展示。评估标准非常详细,包括内容、结果和口头报告的声量等,让学生清楚如何获得分数。大规模的评估是四年级的综艺课程,学生可以选择自己喜欢的项目学习,最终通过全级同学共同完成的音乐剧表演来展示学习成果。
这些改革后的考试形式不仅让学生感到有趣,而且能全面评估学生的态度、合作能力和多方面的能力。虽然老师在准备过程中付出了很多努力,但最终的结果令人满意,认为这样的改革是值得的。
“我在进步吗?”和“我怎么知道我在进步?”香港弘立书院的小学校长单宁认为,评估不仅仅是测评,而是为学生的学和老师的教提供证据。
单宁谈到,在小学阶段,考察和记录尤为重要,因为它们提供了学生学习内容和进步的证据。考察包括老师的日常观察、学生自我认识、讨论和简单测试等多元方式。记录则涉及到标准化评估、成功标准、学生清单和学生反思等,以确保老师对学生认识的一致性。
在测评和报告方面,单宁提到内部评估和外部评估的重要性,包括教研室的评估和学校的单元评估。报告则关注学生的能动性,包括学生、家长和老师之间的三方会谈,学生主导的会议以及成绩报告单,这些都是学生学习历程的呈现。
单宁认为,评估不等同于测评,评估是一个包含考察、记录、测评和报告的完整循环,它赋予了学生更多的意义,涉及学生的自我认知、学习过程的分享和反思。
深圳新安中学(集团)燕川学校书记邹小新分享了学校在大数据循证支持下教育教学评价改革的思考与实践。学校构建了包含学生成长、教师发展、教学质量和课堂教学行为四位一体的教育教学评价体系。学生成长方面,学校研发了动态电子档案与评价系统,全过程记录学生三年的成长轨迹,实现学生成长的数字化和可视化。教师发展方面,建立了老师的动态电子档案与评价项目,帮助老师调整职业生涯规划,同时为学校的科学决策提供客观数据。教学质量评价方面,使用全市统一的系统,实现教-测-评一体化,追求精准教学和科学个性化学习。
深圳市龙华区教育科学研究院副院长黄仕则分享了龙华区在教育评价体系上的创新,该体系利用人工智能和大数据技术,构建了“六位一体”的新一代教育评价体系,包括学业监测、深度监测、指标体系、体质健康、美育监测和增值评价六个方向。此外,黄仕则还介绍了AI辅助作业减负提质的试点项目,通过无感数据采集技术,收集学生作业过程数据,解决减负提质的可见性问题,减轻老师负担,缓解家长焦虑,促进校家社协同育人。
河南开封贞元新教育学校副校长张春燕介绍,该校采用“以终为始”的教育理念,从学生高中毕业时的状态倒推教育目标,关注学生在认知、问题解决能力和人格发展三个维度上的成长。语文课程设置了六个学段的发展目标,旨在培养学生以中国人的身份与世界平等对话,具备爱、创造力和领导力。课程设计包括国家教材的大单元备课、晨诵诗歌、经典深度之旅等,其中晨诵诗歌是重要组成部分,通过诗歌朗诵会等活动,让学生感受诗歌的力量。评估聚焦于语文核心素养的达成,包括“读思写讲演”的一体化,以及以身证道,活出体悟和感知。
AI在教育测评中的挑战
AI为教育测评提供了更为高效和个性化学习的机会,全球范围内不同学校也纷纷探索,但这也带来了一系列技术和伦理挑战,如确保测评结果的公平性、处理技术故障等问题。
湖南师范大学教授杨志明
湖南师范大学教授杨志明曾使用ChatGPT写了一篇关于“创新人才培养”的八股文,按照高考作文满分60分的标准,13位专家给出的分数为49分。而ChatGPT给自己写的这篇文章打了54分。特别是科大讯飞,直接给出了满分。
杨志明在论坛上介绍,在比较ChatGPT与人类在逻辑推理、假设辨认、演绎推理、整合诠释和论证评价五个维度的表现时,学生仅仅在逻辑推理上比ChatGPT表现略好,在其它四个维度上能力上则不如ChatGPT。
杨志明谈到,AI的发展带来了许多机遇,例如通过自然语言处理技术,人们可以直接用自然语言进行学习和交流。此外,大数据和机器学习神经网络的发展使得处理海量数据成为可能,而谷歌发布的Willow量子芯片更是展示了AI在算力上的突破。这些都可能对人们的学习和生活产生颠覆性的影响。
“在目前的AI技术水平下,AI可以作为助手,但还不能完全担任主角,因为这样做可能会带来较大的风险,就像现在没有人敢完全依赖AI开出的药方一样。” 杨志明提出,尽管ChatGPT带来了许多机遇,但也伴随着风险。例如,AI可能存在数据偏见,导致考试题目对某些文化或种族存在不公平。此外,AI的评分标准可能与人类评分员存在差异,考试蓝图可能缺乏针对性,考务管理可能存在安全风险,以及出题可能受到训练数据的偏差影响等。
杨志明认为,如何在利用ChatGPT等AI技术的同时,确保教育的公平性、诚信性和教师的职业发展,是当前教育界面临的重要课题。
现场连线伦敦大学学院教育与社会学院教授韦恩·霍姆斯
伦敦大学学院教育与社会学院教授韦恩·霍姆斯从批判性的视角谈到,在教育领域引入人工智能工具时,一个关键问题是缺乏独立证据来验证这些工具的安全性、有效性和对课堂的积极影响。虽然这些工具可能已经经过某些测试,并声称具备有效性和安全性,但实际上缺乏独立证据来支持这些说法。这导致教育决策者、教师和学校领导在选择和使用这些工具时,往往依赖不确定的信息。
他指出,这种情况可能导致孩子们成为未经充分控制的实验对象,这与科学实验应在良好道德控制下进行的原则相违背。韦恩•霍姆斯建议将人工智能工具的使用从无根据的尝试转变为基于充分证据的技术应用。这要求我们推动对人工智能工具进行深入的研究和评估,以建立坚实的证据基础,从而确保对这些工具的有效性和安全性有信心,并确保它们对教育产生积极影响。
吴伟斌也认为,教育评估实践面临着挑战,需要在正式和非正式评估之间找到平衡,并且要适应多样化的教育内容和方法。评估的目的不仅是测试学生的知识,更重要的是考察学生如何应用这些知识。
本届论坛上,来自世界各地、拥有不同文化背景的中外嘉宾齐聚一堂,就教育测评的当前实践、面临的挑战以及未来的发展趋势进行了深入的交流与探讨。他们从多元化的视角出发,分享了各自在教育测评领域的经验和见解,对如何利用现代技术改进评估方法、提高测评的公正性和有效性提出了宝贵的意见。整个论坛充满了建设性的对话,为推动教育测评的创新与发展提供了丰富的思路和方案。
责编:王学涛
审签:路时川
责编:王学涛
审签:路时川