人工智能检测器有效吗？学生面临虚假作弊指控 - 彭博社

Jackie Davalos, Leon Yin

2024-10-18

莫伊拉·奥姆斯特德被指控使用人工智能来写作业。

摄影师：尼克·牛津/彭博社

在疫情初期休学一段时间以组建家庭后，莫伊拉·奥姆斯特德渴望重返校园。几个月来，她在全职工作和照顾幼儿之间忙碌，以便为一个允许她远程学习的自学项目存钱。在怀着第二个孩子七个月的时候，奥姆斯特德于2023年注册了中部卫理公会大学的在线课程，学习成为一名教师。

在秋季学期开始几周后，奥姆斯特德在一门必修课中提交了一份书面作业——她每周必须完成的三篇阅读摘要之一。没过多久，她收到了成绩：零分。当她向教授询问时，奥姆斯特德表示被告知一个人工智能检测工具已确定她的作品可能是由人工智能生成的。事实上，老师说，她的写作至少之前被标记过一次。

对于现在24岁的奥姆斯特德来说，这一指控就像是“重重一击”。这也是对她在大学地位的威胁。“这就像，哦我的天，这就是现在对我们有效的东西——而它可能因为我没有做的事情而被拿走，”她说。

## 重要观点

当人工智能错误地标记学生作弊时

14:04

奥姆斯特德向她的老师和一名学生协调员对这一指控提出异议，强调她有自闭症谱系障碍，并以一种公式化的方式写作，这可能被错误地视为人工智能生成的，依据彭博商业周刊查看的电子邮件。最终成绩被更改，但在此之前她收到了严格的警告：如果她的作品再次被标记，老师将以抄袭的方式对待。

奥姆斯特德展示了一份被标记为可能由人工智能撰写的作业。摄影师：尼克·牛津/彭博社自从OpenAI的ChatGPT在近两年前将生成式人工智能带入主流以来，学校们迅速适应这一变化的环境。教育工作者现在依赖越来越多的检测工具来帮助识别由人工智能生成的句子、段落或整篇作业。根据一项调查，约三分之二的教师报告定期使用人工智能检查工具，该调查由民主与技术中心于三月发布，涵盖了450多名教师。

最好的人工智能写作检测器非常准确，但并非万无一失。商业周刊对两项领先服务——GPTZero和Copyleaks——进行了测试，样本为2022年夏季提交给德克萨斯农工大学的500篇大学申请论文，恰好是在ChatGPT发布之前，有效保证这些论文不是由人工智能生成的。这些论文是通过公共记录请求获得的，意味着它们不属于人工智能工具训练的数据集。商业周刊发现这些服务错误地将1%到2%的论文标记为可能由人工智能撰写，在某些情况下声称有近100%的确定性。

即使如此小的错误率也可能迅速累积，考虑到每年大量的学生作业，这可能对被错误标记的学生造成毁灭性的后果。与更传统的作弊和抄袭指控一样，使用人工智能完成作业的学生不得不重做作业，并面临不及格和留校察看的后果。

人工智能检测器可能错误标记论文为可能由人工智能撰写

彭博社对在ChatGPT发布之前撰写的500篇论文进行的测试显示，使用两种领先的人工智能检测器，服务错误标记了1%到2%的论文为可能由人工智能撰写。

来源：彭博社对德克萨斯农工大学、GPTZero、CopyLeaks的分析

最容易受到不准确指控的学生可能是那些写作风格较为通用的学生，可能是因为他们像奥姆斯特德一样神经多样，或是将英语作为第二语言（ESL）学习，或者只是学会了使用更简单的词汇和机械的写作风格，根据学生、学者和人工智能开发者的说法。一 2023年的研究由斯坦福大学研究人员进行，发现人工智能检测器在检查美国出生的八年级学生撰写的论文时“几乎完美”，然而它们将超过一半的非母语英语学生撰写的论文标记为人工智能生成的。OpenAI 最近表示它已暂时不发布人工智能写作检测工具，部分原因是担心这可能对某些群体产生负面影响，包括ESL学生。

商业周刊 还发现，AI 检测服务有时会被旨在将 AI 写作伪装成人类的自动化工具欺骗。这可能导致一场技术之间的军备竞赛，损害教育工作者与学生之间的信任，而几乎没有教育上的好处。

Turnitin，一种流行的 AI 检测工具，Olmsted 表示曾用来检查她的工作，表示它在分析句子时有 4% 的误报率。Turnitin 拒绝提供其服务进行测试。在 2023 年的一篇博客文章中，范德比尔特大学，几所主要学校之一，因准确性问题关闭了 Turnitin 的 AI 检测服务，指出在学年期间，数百篇学生论文本来会被错误标记为部分由 AI 撰写。

Ken Sahib，一位在意大利度过大部分童年的多语言学生，表示，当他在纽约伯克利学院的网络导论课程中收到一份总结阅读的作业得了零分时，感到“难以承受”。当 Sahib 询问此事时，老师说：“我尝试的每个工具都产生了相同的结果：那些回答是 AI 生成的，”根据 商业周刊 查看过的电子邮件。 “你知道你在做什么。”

Sahib 表示他最终通过了这门课，但这一事件破坏了他与教授的关系。“之后我们几乎不再交谈，”他说。教授没有回应评论请求。

虽然一些教育工作者已经放弃了人工智能检测器，并试图调整他们的课程以纳入人工智能，但许多大学和高中仍然使用这些工具。根据投资数据公司PitchBook的数据显示，自2019年以来，人工智能检测初创公司吸引了约2800万美元的资金，其中大多数交易是在ChatGPT发布后进行的。深度伪造检测初创公司可以检查人工智能生成的文本、图像、音频和视频，2023年筹集了超过3亿美元，而前一年约为6500万美元，PitchBook发现。

根据对美国十几名学生和11名教师的采访，结果是教室仍然受到对虚假指控可能性的焦虑和偏执的困扰。现在，本科生们追求各种耗时的努力来捍卫他们工作的完整性，他们表示这一过程削弱了学习体验。一些人还担心使用专门面向学生的常见人工智能写作辅助服务和语法检查工具，担心它们会触发人工智能检测器。

Turnitin的人工智能副总裁Eric Wang表示，该公司故意在其数据集中“过度采样”代表性不足的群体。他表示，内部测试显示Turnitin的模型不会错误指控英语作为第二语言的学生，并且其整个文档的总体误报率低于1%，并随着每次新版本的发布而改善。Turnitin并未专门针对神经多样性学生的数据进行训练，也没有访问医疗历史以评估该分类。

Copyleaks 的联合创始人兼首席执行官 Alon Yamin 表示，其技术的准确率为 99%。他说：“我们向学术机构明确表示，没有什么是 100% 的，这应该用于识别学生作品中的趋势。”他说：“这有点像给他们一个黄色警告，让他们去关注，并利用这个机会与学生交谈。”

“每个 AI 检测器都有盲点，”GPTZero 的创始人兼首席执行官 Edward Tian 说。他表示，他的公司在消除 ESL 学生结果的偏见方面取得了进展，并采取措施更清楚地指示其工具对教师书面作品评估的不确定性水平。

Tian 创建了 GPTZero，时间是在 2023 年初。到 7 月，他的初创公司拥有 400 万用户，比一年前的 100 万用户增长了，并且最近从投资者那里筹集了 1000 万美元，包括 OpenAI 首席执行官的兄弟 Jack Altman。“上个学期是最活跃的学期，”Tian 说。“这表明这个问题不会消失，但它已经改变。一年前，人们最常问的问题是：这是 AI 吗？”现在，他说，教师们知道教室里有 AI。问题是：“你如何处理它？”

在学校量化 AI 使用是具有挑战性的。在一次测试中，商业周刊分析了 2023 年夏季提交给德克萨斯 A&M 的 305 篇论文，发现同样的 AI 检测器标记了大约 9% 的作品为人工智能生成。

人工智能检测初创公司

来源：PitchBook

注意：Turnitin是Advance Publications的子公司

人工智能写作检测器通常关注困惑度，这是衡量任何给定提交中单词复杂性的指标。“如果单词选择倾向于更通用和公式化，那么该作品被人工智能检测器标记的可能性更高，”斯坦福大学生物医学数据科学教授、斯坦福关于ESL学生研究的高级作者詹姆斯·邹说。

例如，人工智能检测服务QuillBot 指出“人工智能生成的内容可能包含重复的单词、尴尬的措辞和不自然、断断续续的流畅性。”GPTZero还考虑了一个称为“突发性”的标准，它衡量书面文档中困惑度的变化程度。与人工智能不同，“人们在文档中往往会在句子结构和用词上有很大的变化，”该公司表示。

人工智能检测公司强调，他们的服务不应被视为法官、陪审团和执行者，而应作为帮助教师提供信息和指导的数据点。

奥姆斯特德。摄影师：尼克·牛津/彭博社现在与Copyleaks合作的大多数学校都让学生访问该服务，亚敏说，“这样他们可以进行身份验证”并查看自己的人工智能评分。与此同时，Turnitin正在努力扩展其人工智能产品组合，推出一项服务，帮助学生展示他们如何完成书面作业的过程，以回应教师和学生的反馈。

“学生们说，‘我想能够证明这是我的作品，我想对这一点充满信心，没有任何疑问，’”Turnitin的首席产品官安妮·切基泰利说。“而老师们则说，‘我需要更多的数据点来帮助我理解学生是如何得出这个结论的。’”

在她的作品被标记后，奥姆斯特德表示她变得对避免再次被指控变得非常执着。她在笔记本电脑上录制了自己完成写作作业的屏幕。她在Google Docs中工作，以跟踪她的修改并创建数字纸质记录。她甚至尝试调整自己的词汇和句法。“我非常紧张，担心自己走到这一步又遇到另一个AI指控，”即将于春季毕业的奥姆斯特德说。“我有太多东西要失去。”

加州大学圣地亚哥分校的化学工程大三学生内森·门多萨使用GPTZero来预筛选他的作业。他表示，现在完成作业所花费的大部分时间都用来调整措辞，以避免被错误标记——这种方式让他觉得写作听起来更糟。其他学生通过转向一批所谓的AI人性化服务来加快这一过程，这些服务可以自动重写提交的内容，以绕过AI检测。

“AI人性化”编辑人写的论文以绕过AI检测

彭博社对一项名为Hix Bypass的服务进行的测试发现，一篇人写的论文在GPTZero错误地表示其为98.1% AI后，经过该服务修改后，AI比例显著下降至5.3%。

来源：德克萨斯农工大学的申请论文；Hix Bypass

对被AI检测器标记的恐惧也迫使学生重新考虑使用流行的在线写作辅助工具。Grammarly，一家在2021年估值为130亿美元的初创公司，帮助学生处理从基本拼写检查到结构建议的各种问题。但它也扩展了选项，可以自动重写整个提交以满足某些标准，推动了教师可能认为可接受的界限。

彭博社发现，使用Grammarly来“改善”一篇论文或“使其听起来更学术”会将原本被视为100%人类写作的作品转变为100% AI写作。然而，Grammarly的拼写检查和语法建议对使文档看起来更像是AI写作的影响微乎其微。

佛罗里达南西州立学院的学生凯特琳·阿贝拉（Kaitlyn Abellar）表示，她已经卸载了像Grammarly这样的程序的插件。北乔治亚大学的学生马利·史蒂文斯（Marley Stevens）去年在TikTok上发布了一段病毒视频，讲述了她在Turnitin将她的论文标记为AI生成后受到惩罚的经历。史蒂文斯表示，在一次纪律听证会确定她作弊后，她被置于学术缓刑一年。她坚称自己是用Grammarly的标准拼写检查和语法功能独立完成作业的。

“这是一个出于好意的学生，她以负责任的方式使用Grammarly，却被第三方技术标记为错误。我们无法控制Turnitin的运作，他们明白他们有错误标记，”Grammarly教育部门负责人珍妮·麦克斯韦（Jenny Maxwell）说。这一事件促使Grammarly开发了一种检测工具，帮助学生识别文本是手动输入、从其他来源粘贴还是由AI模型撰写的。“这几乎就像你的保险政策，”麦克斯韦说。

对于一些教育工作者和学生来说，当前的系统感觉不可持续，因为它给教师的两侧带来了压力，并且人工智能已经成为常态。

马里兰大学的英语教授亚当·劳埃德说：“无论我们喜欢与否，人工智能将成为未来的一部分。将人工智能视为我们需要排除在课堂之外或劝阻学生使用的东西是错误的。”

劳埃德更倾向于依靠直觉，而不是使用他学校提供的Turnitin。“我了解我的学生的写作，如果我有怀疑，我会进行开放的讨论，”他说，“而不是自动指责他们。” —与 丹尼斯·卢**下一篇阅读: 为什么OpenAI与一个模糊的创意人开战