教师们用人工智能检测工具与ChatGPT对抗这些工具有效吗？ - 彭博社

Sarah Holder, Thomas Lu, Jessica Beck

2024-10-19

随着学生开始使用像ChatGPT这样的工具来做作业，教育工作者也部署了自己的AI工具来判断学生是否在使用AI作弊。

摄影师：skynesher/E+ 不要错过任何一集。关注 《大视野》每日播客 今天。

## 大视野

当AI错误地标记学生作弊时

14:04

教育系统面临AI问题。随着学生开始使用像ChatGPT这样的工具来做作业，教育工作者也部署了自己的AI工具来判断学生是否在使用AI作弊。但这些检测工具在大多数情况下是有效的，但大约2%的时间会出现误报。对于被错误指控的学生来说，后果可能是毁灭性的。在今天的《大视野》播客中，主持人Sarah Holder与彭博社的科技记者Jackie Davalos讨论了学生和教育工作者如何应对生成性AI的出现，以及当打击其使用的努力适得其反时会发生什么。阅读更多：AI检测器错误指控学生作弊——后果严重

在 Apple Podcasts、Spotify 或您获取播客的任何地方收听并关注《大视野》

终端客户端：点击 这里 订阅。

以下是对话的轻微编辑稿：

**莎拉·霍尔德：**莫伊拉·奥尔姆斯特德梦想成为一名小学教师。因此去年，她在中部卫理公会大学注册了一个在线课程，边照顾她的幼儿边攻读学位。

在她的一门课中，莫伊拉必须每周提交写作作业，总结新闻文章。这其实很简单……

但在秋季学期开始几周后，她收到了一个意外的成绩。

**杰基·达瓦洛斯：**在学期初的某一门课程中，她得了零分。

**霍尔德：**杰基·达瓦洛斯是彭博社的科技记者。她通过电话与莫伊拉进行了交谈。

**莫伊拉·奥尔姆斯特德：**起初，我完全崩溃了。对于那些总结文章，我们主要是将大量信息总结成两到三段。

**达瓦洛斯：**她并不知道发生了什么。她只是看到它在她的学生门户网站上弹出。她向教授提出了这个问题，教授告诉她，她因为使用了人工智能而被标记。

**奥尔姆斯特德：**她说，嘿，我会把每个人的作业通过人工智能检测器检查，你的作业多次被标记。这实在是失控了。

**霍尔德：**但莫伊拉表示，她从未使用生成性人工智能——像Chat GPT这样的工具——来写她的作业。

Davalos: 对她来说，这种她从未真正见过的技术让她感到措手不及。莫伊拉立即跟进，询问这可能发生的额外细节。

Olmsted: 我当时只是想，好吧，谢谢你让我注意到这一点。其实，我是一个未来的教育工作者，我真的非常反对在观点和思考文章中使用人工智能。

**Davalos:**她不得不向学校的几位其他管理员提出这个问题。她进行了多次会议，展示了她的电子邮件，表明她在工作中表达的信心正受到质疑。

Holder: 她的成绩最终被更改，但莫伊拉开始对她的工作采取额外的预防措施——自己通过人工智能检测器检查，录屏她的进展并将录音附加到她的作业上——任何可以证明她的工作是原创的方式。但杰基的报道发现，莫伊拉的工作可能被错误标记为人工智能生成的还有另一个原因。

**Davalos:**她在自闭症谱系上，并且她的写作风格总是有些公式化。因此，莫伊拉意识到这可能是人工智能检测器的一个漏洞，她知道她想要准备好证明她完成了她的工作，以防这种情况再次发生。

属于这个类别的学生，无论是神经多样性还是英语为第二语言，他们往往比那些不属于这些类别的同龄人更容易被识别。

**霍尔德：**莫伊拉只是一个学生，她正在应对这个教育新前沿带来的挑战。这些挑战正在全国各地的学校和大学中上演。

我是莎拉·霍尔德，这是彭博新闻的《大视角》。

今天的节目中，我们将讨论大学和学生如何适应生成性人工智能的出现，以及当打击其使用的努力适得其反时会发生什么。

**霍尔德：**杰基，莫伊拉并没有使用生成性人工智能来做作业。她坚称她没有。但其他学生正在使用像ChatGPT这样的工具来帮助写论文。你能告诉我们这到底有多严重吗？

**达瓦洛斯：**这非常严重。一些学生喜欢仅仅使用工具进行拼写检查，仅仅用于语法，然后再进一步帮助我重写这一部分，甚至完全帮助我写整篇论文。

这就是你看到其他初创公司和工具出现的地方，旨在帮助检测这些情况。

**霍尔德：**我想了解更多关于这些人工智能检测器如何判断学生在写作或作业中使用了多少人工智能。这些工具在基本层面上是如何工作的？

**达瓦洛斯：**像Turnitin、Copyleaks和GPTZero这样的人工智能检测软件，基本上使用的技术与ChatGPT并没有太大不同。他们的系统是通过大量文本进行训练的，方式与ChatGPT相似。

然而，AI写作检测器关注的是所谓的“困惑度”。这只是一个复杂词汇在任何给定提交或句子或段落中的复杂程度的衡量标准。我们说话时有很多变化。我们在特定句子或段落中变化我们的句子结构和用词。如果词汇选择稍微更通用和公式化，那么被AI检测器标记的可能性就会更高。

它基本上会输出一个百分比，表示它认为作业是AI生成的程度。因此在莫伊拉的案例中，大部分都是如此。它不会突出显示哪些段落。它也不会告诉你它是如何得出这个结论的。这有点像一个黑箱。

**霍尔德：**所以教育工作者正在使用这些AI驱动的检测器来查找AI生成的论文。但这些工具实际上工作得怎么样呢？

**达瓦洛斯：**我们发现它们实际上非常准确。因此，我们在2022年夏季对提交给德克萨斯农工大学的500篇大学申请论文进行了随机抽样测试，使用了GPTZero和Copyleaks。这一点很重要，因为我们知道，ChatGPT是在2022年秋季发布的。因此我们知道这些论文不是AI生成的，因为ChatGPT甚至还没有发布。

在进行分析后，我们发现这些初创公司错误地将大约1%到2%的论文标记为可能由AI撰写，在某些情况下，他们声称有近100%的确定性。

但问题是，1%到2%的论文在某种程度上仍然很高，而这个小错误率可能会累积，考虑到全国范围内每年提交的学生作业数量。

持有者： 是的，每100名学生中就有2名面临被错误指控抄袭的风险，可能会被开除，这仍然感觉相当糟糕。这对谁影响最大？

达瓦洛斯： 我们发现了两个群体，他们特别容易受到AI检测软件某些缺陷的影响。一个是神经多样性群体，比如莫伊拉，如果你在谱系上。另一个是如果英语是你的第二语言。

持有者： 这些学生受到这些虚假标记的影响有多不成比例？

达瓦洛斯： 斯坦福的研究人员发现，当检查美国出生的8年级学生写的论文时，AI检测器几乎是完美的，但它们将超过一半的非母语英语者写的论文标记为AI生成。因此，虚假标记的比例非常高。

持有者： 对教授们本身的影响如何？这是否让他们对学生提交的工作更加怀疑，更加偏执？

达瓦洛斯： 总的来说，教授们对AI在课堂上的使用仍然有些犹豫。你会发现一些教授希望将其融入课程的某些方面，比如用它来帮助你头脑风暴或进行一些初步研究。其他教授告诉我，如果你想让ChatGPT写你论文的某个部分，我们不介意，只要适当地引用。教授们正在试图弄清楚，AI在什么情况下会侵蚀学习体验？在什么情况下它实际上会帮助学习？

但如果有一件事教授们一致同意，那就是这项技术不会消失。

**霍尔德：**人工智能不会消失。但学生和教育工作者如何才能负责任地使用这项技术呢？这将在广告后讨论。

**霍尔德：**我们回来了。我一直在与彭博社记者杰基·达瓦洛斯讨论大学和学院用来检测和根除人工智能生成作品的软件的不足之处。

**霍尔德：**他们是否在尝试制定新政策，以纳入这些人工智能检测工具存在一些盲点的理解？

**达瓦洛斯：**绝对是的。你知道，有些学校正在制定更严格的政策来界定什么算是抄袭。如果你在论文的某部分使用了ChatGPT而没有引用，那可能会被视为抄袭。但如果你引用了，那就没问题。**霍尔德：**嗯。

**达瓦洛斯：**还有一些学校基本上允许教授随意使用这些人工智能检测工具，而不实际说明如果你的论文有50%或98%是人工智能生成的，你将面临后果。因此，接受的标准由教授决定，但一些大学确实很关注这些人工智能检测器并不完全准确的事实。

**霍尔德：**学生们在做什么来确保他们的原创作品不会被误认为是人工智能生成的？

**达瓦洛斯：**学生们真的开始创造性地保护自己。他们中的许多人告诉我，像莫伊拉一样，他们开始在Google Docs中进行工作，并跟踪所有内容以创建这个数字纸质记录。还有人告诉我，他们正在使用其他技术工具，这些工具几乎是为了使你的文本更具人性化。我和一位在加利福尼亚上学的学生进行了交谈。他告诉我，他在论文的某些部分调整措辞，故意让其听起来更糟，因为他担心如果听起来太好，就可能被人工智能检测器抓到。**霍尔德：**这一切听起来对学生来说工作量很大。教育工作者也需要绕过这项技术的盲点。公司们在努力改善他们的模型方面做了些什么？

**达瓦洛斯：**我们与几乎所有我们关注的公司进行了交谈，他们告诉我们，他们实际上是故意对代表性不足的群体进行过度抽样，比如可能不是母语为英语的学生，因此，这种情况使得这个过程不断演变，迭代并使其更准确。我们还与Copyleaks的联合创始人兼首席执行官进行了交谈，他告诉我们，他们的准确率为99%，但仍然可能会偶尔出现少量错误。

GPTZero是另一家公司，他们告诉我们，他们实际上正在推出另一种工具，几乎是一个学生可以写入的工具。它不仅跟踪你的工作，还记录你进入文档和退出时的时间戳。

**霍尔德：**所以这些公司在制造问题，然后提供解决方案。

**达瓦洛斯：**在某种程度上，是的。这很有趣，因为这也表明他们承认检测软件本身是不完美的。这些公司强调的是，他们现在正在努力获取教授的反馈，并向他们传达，这并不是你应该用来评估学生作业的终极工具。

**霍尔德：**杰基，我最后一个问题是关于莫伊拉的。她现在怎么样了？她完成学业了吗？她自己成为老师了吗？

**达瓦洛斯：**她正在按计划继续这个学期的课程。呃，她现在是两个孩子的妈妈。她对未来感到非常兴奋。这个世界不断演变，她告诉我们，尽管发生了这个不幸的事件，她仍然期待未来成为一名教育工作者。

持有人： 好吧，非常感谢你，杰基。

达瓦洛斯： 谢谢你。

这是来自彭博新闻的《大收获》。我是莎拉·霍尔德。

本集由：托马斯·卢和杰西卡·贝克制作；高级制作人：娜奥米·沙文，亦是本集的编辑；编辑：亚伦·爱德华兹和塞斯·费格曼；高级编辑：伊丽莎白·庞索特。执行制作人：妮可·比姆斯特博尔；声音设计/工程师：亚历克斯·杉浦；事实核查员：阿德里安娜·塔皮亚·萨夫拉。