生成式人工智能时代评估的选项

自 2022 年底 ChatGPT 突然出现以来,

围绕生成式人工智能对教育的影响,一直存在着激烈的争论。

最初,许多国家的司法管辖区试图禁止人们在学校使用这些工具,理由是担心学生会使用它们在作业和评估中作弊。

基于文本的生成式人工智能工具可以生成看似合理的人工制品,无需任何实际学习即可通过评估。学生所需要做的就是提供合适的提示语。

随着 ChatGPT 和其他生成式人工智能的引入,作弊的机会,特别是作弊手段已经变得无处不在,而作弊所需的风险和努力程度也随之大幅度降低。利用生成式人工智能走捷径的机会现在无处不在。 

因此,探索修改考察和评估任务的各种策略至关重要。

在这个过程中,许多学者认为对话和讨论不仅仅聚焦于禁止或监管新技术(即只关注手段),而是希望对话转向更具建设性和创新性的解决方案。

Midjourney generated image of student working on laptop in a streetscape at night (by Jason M. Lodge)

澳大利亚昆士兰大学教育心理学副教授Jason M. Lodge,Sarah Howard and Jaclyn Broadbent 等人在《生成式人工智能的评估重新设计:选项分类及其可行性》(Assessment redesign for generative AI: A taxonomy of options and their viability)一文中,

将摆在教育工作者面前的选项归纳为六类:即

1. 忽略(Ignore)

2. 禁止(Ban)

3. 监考(Invigilate)

4. 接纳(Embrace )

5. 回避设计(Design around)

6. 重新思考(Rethink)

忽略(Ignore)

简单地忽略这种发展并希望它消失。

一些同事认为,生成式人工智能不会对教育产生重大影响。

他们认为,鉴于平板电脑、电子白板和大规模开放在线课程(慕课)等各种教育技术的炒作由来已久,生成式人工智能可能不会产生持久的影响。

然而,从长远来看,这种方法似乎不太可行。大多数人认为,生成式人工智能将对教育产生重大影响。似乎‘这次不一样’。

禁止(Ban)

禁止是对 ChatGPT 引入的常见最初反应。

学生们几乎立即找到了绕过这些禁令的方法。

抛开关于各种侦查和鉴别方法的有效性和可靠性的争论不谈,已经有许多YouTube 频道和热门网站教学生如何有效作弊并避开人工智能检测工具。

生成式人工智能还将在文字处理、幻灯片和电子表格等核心生产力应用程序中发挥作用。

因此,试图禁止 ChatGPT 和类似的基于大型语言模型的工具似乎是徒劳的,尤其是从中长期来看。

监考(Invigilate)

第三种选择是设计规避人工智能使用的评估。

一种明显的方法是恢复到传统的考试环境,即学生在制作书面材料时受到监控(许多司法管辖区和机构的立即反应就是如此)。

虽然这对于某些主题和环境可能是必要的,但它不太可能成为一个广泛的解决方案。

笔试有其用处,但不应成为所有情况下的默认评估方法。其他替代方案包括口试和持续的反思活动。

尽管这些方法可以帮助确保学生真正学习材料,但它们并非绝对正确,必须精心设计、适合具体情况并公平实施才能有效。

接纳(Embrace )

第四个选择是在评估中采用生成式人工智能。

这可能包括允许或要求学生在特定任务中使用人工智能,以及让他们自己批评、更新或评估人工智能生成的人工制品。

由于生成式人工智能可能会越来越多地影响人们的工作和生活方式,因此从中长期来看,在课堂上使用这些工具似乎很重要。

虽然有机会拥抱人工智能,但也存在围绕道德、公平和公正的担忧,特别是在隐私、先进人工智能技术的获取以及学生有效使用这些技术的不同能力方面。

回避设计(Design around)

第五种选择是围绕生成人工智能的局限性,来回避设计(design around)考核和评估。这种方法涉及利用人工智能技术的弱点。

然而,随着人工智能变得越来越复杂,这种策略可能会变得风险更大、效果更差。 

GPT-4 的引入极大地提高了 GPT-3.5 似乎难以解决的提示响应的合理性和准确性。

当使用新模型测试相同的评估任务时,这种改进非常明显。

这些模型只会从当下的水平不断改良,快速发展,而与此同时,学生提示大语言模型的能力也会得到改进和不断提高。

因此,虽然围绕生成人工智能的弱点进行回避设计,在早期似乎是一种有前途的方法,但这种希望已经消失,并且在中短期内不太可能成为可行的选择。

重新思考(Rethink)

最后,是完全重新思考评估。

这种具有挑战性的方法需要首先询问、思考和回答一个最基本的问题,那就是:学生为何以及如何接受评估?

如果评估感觉像是琐事,不能激发和鼓励学生的创造力,无法促进实际学习,或者完成任务有很大的时间压力,那么,学生就会有更大的动力去作弊,去偷工减料,去走捷径。

不仅如此,如果评估任务和考核题目的设计不符合正在学习的发展过程,那么,我们就需要重新思考和重塑评估方法。

当然,所有这一切都不简单,但却显得越来越有必要。

这可能是中长期需要强调的一组选项。

在文章的最后,采用红绿灯的模式,从短期、中期和长期三个阶段,作者分别评估了上述六个选项的可行性。

其中,绿色表示最为可行,橙色表示需要谨慎考虑,红色则表示可能不可行。

如上图所示,作者认为,

从长远来看,“接纳”(Embrace)生成式人工智能是最可行的方案,从中长期来看,重新思考(Rethink)是最可行的选项。

富平热电厂的大烟筒彩绘

展示富平两大支柱产业:柿子和奶山羊

Photo by Johnnie Walker