GeoEvalAI:基于大语言模型的地理主观题评价系统

时间:2024-12-13浏览:12设置

项目背景:

随着“双减”政策的推行,学生的学业负担成为社会关注的焦点,同时教师的教学负担也备受重视。在中学教育中,地理主观题的批改是一项耗时且主观性较强的工作。教师在批改过程中往往面临重复性高、逻辑复杂的任务,同时容易受到个人主观因素的影响,导致评分不一致、不准确。此外,传统评价模式难以深入反映学生的思维过程和认知水平,不利于促进个性化学习与全面发展。因此,地理主观题评价中存在的效率低、主观性高以及无法支持学生自主学习的问题,亟需通过技术手段加以解决。这为人工智能技术提供了重要切入点。通过引入大语言模型,我们实现了自动化评分与学情分析,不仅能切实减轻教师的负担,还能探索人工智能融入地理教学实践的可行方案。依托实验结果,我们也能在不断精进评价方案的过程中革新传统评价模式,再次思考我们的教育要培养什么样的人,以此指导评价体系的构建。

项目内容:

GeoEvalAI 项目聚焦于地理主观题的自动化评分,结合大语言模型、OCR 技术和思维结构评价法,构建了一套高效、智能的教学评价系统。

1.png

图1 项目技术架构图

系统通过前后端分离架构实现,采用 Vue 3 开发用户界面,Gin 框架实现后端服务,数据层使用 MySQL 数据库并部署在腾讯云服务器中,确保系统的稳定性和易用性。OCR 功能则负责手写试卷的图像处理与识别,使得手写答案也能高效被评分。

2.png

图2 GeoEvalAI系统

系统的核心创新在于采用采点和采意评分相结合的评价方法,同时引入 SOLO 思维结构分类,对学生的逻辑性、层次性和创新性进行全面分析。学生的作答不再仅仅以正确与否评定,还能体现其思维过程的深度与广度。通过对教师需求的深入调研与系统开发,GeoEvalAI 实现了地理学情反馈、错题归纳、学生思维能力评价等功能,帮助教师快速掌握班级学情,为个性化教学提供支持。

3.png

图3 学情反馈功能示例

目前,系统已在河北省武安市第一中学和重庆市青木关中学开展实践测试,并收集到积极的反馈。测试结果表明,GeoEvalAI 不仅能实现评分的精准化,还能生成详尽的学情分析报告,助力教师优化课堂教学设计,减轻工作负担。

项目总结:

GeoEvalAI 的技术优势在于以大语言模型为核心,实现了对地理主观题的精准评分。相比传统人工批改模式,该系统通过采点、采意评分结合的方式,不仅关注答案的准确性,还能反映学生的思维层次与逻辑能力。这种多维度评价方法确保了评分的公平性与科学性,解决了人工评分中效率低、不一致的痛点。此外,系统引入 OCR 技术处理手写答卷,并通过前后端分离开发架构实现高效数据交互,具有技术先进性。在应用场景上,GeoEvalAI 可广泛用于中学课堂教学、考试评分与学生学习分析。其学情反馈功能为教师提供了直观的学生能力评估报告,帮助教师设计更具针对性的教学方案。同时,学生端反馈功能有助于个性化学习的实现。

未来,团队将持续优化系统功能,包括引入模型对话功能以提升系统的交互性,开发长期学情分析报告,为学生提供更具指导性的学习建议。此外,团队计划总结地理试题评分体系,并与教育企业合作,探索成果的产业化路径。通过这些举措,GeoEvalAI 希望进一步推动智能化地理教学评价的发展。

团队介绍:

GeoEvalAI 团队由郭锋涛老师指导,包括地理科学学院与软件工程专业的本科生,充分发挥了跨学科合作的优势。团队采用了高效的协作机制,通过定期召开组会讨论需求与技术细节,确保每项工作都按时完成。团队成员在项目实施过程中展现了出色的执行力与学习能力。面对从未接触的地理主观题自动评分领域,他们通过广泛阅读文献、访谈教师以及技术学习,逐步明确研究方向与技术实现路径。团队的技术能力涵盖了全栈开发、大模型调试与优化等多个方面,为项目的成功实施提供了坚实保障。

指导教师郭锋涛副教授对项目的创新性与实施效果给予了高度评价,并提出了进一步完善系统功能的建议。在教师的指导与团队成员的共同努力下,GeoEvalAI 项目已初步实现了研究目标,并为未来的优化与推广奠定了基础。

成功案例/产品:

产品开发完成后,在河北省武安一中和重庆市青木关中学分别进行了采点评分法和采意评分法的实验。

(1)采点评分

①学生背景

学生为河北省武安市第一中学2022级高三学生,测试班级为27班与28班,共124人。

②试题分析

试题以山东省莱州湾海域为情境区域,以“海上风电+海洋牧场”项目为情境主题,题目涉及影响区域气温和降水的因素、海洋类型与海底地形、区域资源开发、服务业的区位因素及变化等等知识点,考查学生获取和解读信息,调动和运用地理知识解答问题的能力,体现学生的区域认知水平和综合思维素养。试题评分采点给分,答对关键点即得分。

③评分结果

以河北省武安一中的高三28班的27.2问作答为例,系统会依据评分标准对学生作答进行评分并基于自己对题目、答案的理解给出评价理由:

4.png

图4 某个学生的评分及评分理由

如上图中的评价,系统指出了考生作答偏离题目方向的问题。除此之外,系统还会总结整个班级的学生在作答上的问题,总结学生思维水平结构。同时,系统会总结题目考察知识点,并指出学生作答存在的共性问题,为教师给出试卷讲评建议,并给出高分段和低分段学生名单。

5.png

图5 班级学情反馈-试卷讲评建议

如本次测验中,河北省武安一中28班的学生在27.2问中普遍存在以下问题:部分答案偏离了题目要求的核心,即风力发电机底座“鱼礁化”的直接有利影响,而过多关注间接影响或宏观经济效益;表述不够准确和具体,如未能明确指出“鱼礁化”对海洋生态环境的具体改善作用,以及为鱼类等海洋生物提供栖息地的作用;缺乏对关键点的全面覆盖,特别是对提高海洋空间利用效率、改善海洋生态环境和提高渔业产量这三个方面未能充分阐述。

④教师反馈

   系统评分完成后,我们与教师进行了沟通,教师认为系统的阅卷结果比较超出预计,系统对学生答题结果的评分和参考答案的关键点分值设置匹配度较高。大模型评价能说出学生的每点书写表达能得多少分以及为什么有些表达不得分。教师也为我们提出了一些可思考的点,如对学生的错别字如何界定分值,比如答案为“气温较低”,学生写成“气温较地”,系统会怎样给分?是按照答题错误0分处理吗?系统还可以增加成绩下载功能,当前可作为结果和人工阅卷做对比,正式运行后便于给学生打印。

(2)采意评分

①学生背景

学生为重庆市青木关中学2022级高三学生,测试班级为2班、3班、6班共122人。

②试题分析

本次测试为高三年级联考,第16题以美国加利福尼亚州中央谷地的湿地保护和开发为情境主题,结合洪泛湿地的自然形成过程、水鸟迁徙停留与湿地资源之间的关系,综合考查学生的区域认知和可持续发展思维能力。试题引导学生认识人类活动对生态环境的负面影响,同时结合农场参与项目的经济动力和项目资金短缺问题,鼓励学生基于实际情况提出解决方案。情境真实,贴近生态保护与资源开发的热点话题,具有较强的实践意义。其中第一问使用采意评分方法,评分标准如下表所示:

表1 16题(1)问采意评分标准

5-1.jpg

③评分结果

以青木关中学的高三(2)班的16(1)问作答为例,系统会依据评分标准对学生作答进行评分并基于自己对题目、答案的理解给出评价理由:

6.png

图6 某个学生的评分及评分理由

如上图中的评价,系统就指出了区域地形、气压带风带、水源等信息,明确具体地指出了学生作答的不足。除此之外,系统还会总结整个班级的学生在作答上的问题,总结学生思维水平结构:

7.png

图7 单题学情反馈-班级学生思维水平评价

同时,系统会总结题目考察知识点,并指出学生作答存在的共性问题,为教师给出试卷讲评建议,并给出高分段和低分段学生名单。

如本次测验中,青木关中学2班的学生在16(1)问中普遍存在以下问题:对暖湿西风的影响理解不准确,部分学生错误地将其描述为西南风或季风;未能充分提及冬半年受暖湿西风影响及内华达山脉西坡形成丰富地形雨的关键因素;对中央谷地地势低注导致排水不畅的情况描述不足或不准确;未能结合题目提供的材料和区域特点进行具体分析,导致答案不够全面。

8.png

图8 单题学情反馈-试卷讲评建议

④教师反馈

系统评分完成后,我们与教师进行了交流,教师评价在手工批阅试卷时,16(1)题学生答题往往字数多但重点不明,逻辑缺乏,教师在改题时耗时较多,并且容易遗漏掉学生得分点,或容易对学生模糊回答给分犹豫。大语言模型的评分与人工评分相比较为一致,并且前后标准统一,同时大模型评价也有助于学生梳理自己答案。

 

联系方式:

华东师范大学技术转移中心  rchen@re.ecnu.edu.cn

课题组邮箱地址  ftguo@geo.ecnu.edu.cn

课题组手机:15202187987

返回原图
/