ChatGPT在大学课程中的卓越表现及对人类学生和机器生成文本的区分能力

文章主题：ChatGPT, 大学课程, 学生, 表现

“公共政策概论”课程中，ChatGPT的平均得分是学生的两倍多。

本文概要:

1. 一项研究发现，ChatGPT在32门大学课程中的9门课程的表现可与学生相比或优于学生。

2. ChatGPT在需要广泛事实知识的课程中表现尤为出色，而学生在数学和经济学任务中表现更好。

3. 用于区分人类和机器生成文本的AI文本检测器测试全部失败。

站长之家(ChinaZ.com) 8月26日消息:最近一项针对ChatGPT的研究发现，其在32门大学课程的测试中，有9门的表现可与学生相比或甚至优于学生。

在一项富有挑战性的实验中，纽约大学阿布扎比分校（NYUAD）的教师被 initialized 为提供他们各自的讲座中的十个问题，并且从这些问题中随机挑选出三名学生的答案。

在后续的研究过程中，研究者们采用了ChatGPT来针对每一个问题生成三个具有独特性的答案。在执行此操作时，并未在提示中含有任何与问题相关的上下文信息。

在参考文献中，人们发现了 GPT-4 的身影，但目前研究还无法确定具体采用的是 GPT-3.5 还是 GPT-4。然而，如果在研究中使用了 GPT-3.5，那么利用 GPT-4 的 AI 响应质量可能会得到提升，特别是在推理领域。

ChatGPT在32个科目中的表现令人瞩目，其中在9个科目上，它的表现甚至超越了人类学生。在经过与其他学生回复的混合后，这些评估结果由三位不同的审阅者进行评分。这样的评价方式旨在确保公平、客观地衡量ChatGPT的学习能力和成果。

数据结构

公共政策概论

定量合成生物学

网络战

面向对象编程

土木工程材料的结构与性能

生物心理学

气候/变化

管理与组织

在“公共政策概论”这门课程中，ChatGPT的 average score 是学生平均分的一半还多。然而，在面对需要更高认知技能的数学和经济学任务时，学生的表现却优于ChatGPT。

在进一步的研究中，研究者们尝试运用OpenAI所具备的人工智能文本分类能力以及GPT-Zero的可靠性，来区分人类文本与机器文本。然而，这一分类器因为其不可靠性已被公司主动撤回。

OpenAI 的工具能够将仅仅人类文本的5%错误分类为机器文本，而 GPT-Zero 却能将这些错误中的18%准确地识别出来。这样的结果对于那些可能因为这些错误而被误认为作弊的学生来说，无疑是一个灾难性的打击。

在对比OpenAI工具和GPT-Zero的性能时，我们发现OpenAI工具能够将49%的机器生成的文本识别为人类文本，相比之下，GPT-Zero在这一方面的识别能力较弱，仅能达到32%。尽管如此，这两种技术在将人工智能文本转化为人类文本方面仍具有较高的可能性。

ChatGPT, 大学课程, 学生, 表现