人工智能在现实世界的图灵测试中表现优于学生

导读 雷丁大学的研究表明,人工智能生成的答案往往能够逃避学术评估的检测,而且表现优于学生的回答,这促使全球更新教育人工智能政策和实践。研
2024-07-05 10:54:48

雷丁大学的研究表明,人工智能生成的答案往往能够逃避学术评估的检测,而且表现优于学生的回答,这促使全球更新教育人工智能政策和实践。

研究人员发现,即使是经验丰富的考试评分员也很难识别人工智能 (AI) 生成的答案。这项研究在英国雷丁大学进行,是大学管理人员评估人工智能在研究、教学、学习和评估方面的风险和好处的一项举措的一部分。根据他们的研究结果,更新后的指南已分发给教师和学生。

研究人员呼吁全球教育部门效仿雷丁以及其他正在制定新政策和指导方针并采取更多措施解决这一新出现的问题。

在最近发表在同行评审期刊PLOS ONE上的一项对真实大学考试系统的严格盲测中,ChatGPT 生成了提交给多个本科心理学模块的考试答案,在 94% 的情况下未被发现,并且平均获得的分数高于真实学生提交的答案。

这是迄今为止同类研究中规模最大、最为严谨的盲测研究,旨在挑战人类教育工作者检测人工智能生成的内容。

研究结果和教育影响

雷丁大学心理与临床语言科学学院的副教授 Peter Scarfe 和 Etienne Roesch 教授领导了这项研究,他们表示,他们的研究结果应该为世界各地的教育工作者敲响“警钟”。联合国教科文组织最近对 450 所学校和大学进行的一项调查发现,不到 10% 的学校制定了关于使用生成式人工智能的政策或指导。

Scarfe 博士表示:“许多机构已经放弃了传统考试,使评估更具包容性。我们的研究表明,了解人工智能将如何影响教育评估的完整性具有国际重要性。

“我们不一定会完全恢复手写考试,但全球教育行业需要在人工智能面前进行变革。

“雷丁大学的学术严谨性和对研究诚信的承诺得到了充分证明,我们对自己进行了严格的审查并发挥了带头作用。”

道德考量和人工智能的使用

Roesch 教授表示:“作为一个行业,我们需要就学生如何使用和认可人工智能在工作中的作用达成共识。在其他生活领域更广泛地使用人工智能也同样如此,以防止整个社会出现信任危机。

“我们的研究强调了我们作为信息生产者和消费者所承担的责任。我们需要加倍致力于学术和研究诚信。”

雷丁大学教育和学生体验副校长伊丽莎白·麦克克鲁姆教授表示:“很明显,人工智能将对我们生活的许多方面产生变革性影响,包括我们如何教导学生和评估他们的学习。

“在雷丁,我们开展了一项大规模的工作计划,考虑教学的各个方面,包括更多地利用技术来增强学生体验和提高毕业生的就业能力。

免责声明:本文由用户上传,如有侵权请联系删除!