米拉是比利时阿特维尔德应用科学大学国际商务专业的学生。她最近收到了对她的一篇论文的反馈,她震惊地发现,她的导师指出,她的论文中有40%是由机器人写的。这些反馈让她感到困惑,于是转向Twitter寻求帮助。

“我只知道我没有使用人工智能,这让我担心自己的工作质量,”米拉告诉《每日野兽》(the Daily Beast),为了保护她的身份,她的姓氏被隐瞒了。她最后和她的教授讨论了这个问题,告诉他她不知道如何证明她写了这篇论文。他同意再检查一遍,但她还没有收到他的回信。

这对她来说显然压力很大。如果检测器继续标记为40%,她的作业就会不及格,甚至可能整个班级都不及格。这也让米拉更害怕将来写论文。作为一个非英语为母语的人,这让她在学习英语的过程中更加困难

这远不是人工智能探测器发生的唯一一次此类事件。自从聊天机器人问世以来,学生们纷纷在社交媒体上分享他们的担忧和被不公正地指责使用聊天机器人抄袭作业的经历。多名学生还表示,他们在提交人工智能生成的作业后被错误地标记为退学,因为它影响了他们的成绩和心理健康。

对这项技术的批评导致教育机构、教育工作者和专家们想知道,对于聊天机器人的兴起,以及用来对抗它们的工具,我们需要做些什么。生成式人工智能的指数级增长最初引发了人们对学生如何使用这些工具来生成作业的担忧——这就是为什么检测器变得如此普遍的原因。但这些检测器的缺陷表明,这种遏制人工智能生成工作的方法对教育系统来说可能弊大于利。

马里兰大学的计算机科学家Vinu Sankar Sadasivan是一篇关于人工智能探测器可靠性的预印本论文的合著者,他告诉《每日野兽》,人工智能的快速发展和采用带来了许多巨大的、意想不到的挑战,其中大多数都让教育工作者和学生措手不及。

Sadasivan说:“像ChatGPT这样的强大语言模型的迅速出现,甚至让人工智能社区措手不及。”“不受监管地使用这些模型确实存在恶意后果的风险,比如剽窃。”

他补充说,围绕人工智能的流行和炒作推动了教育机构在完全不了解人工智能探测器如何工作的情况下使用它们,或者它们是否可靠。这导致了老师指责学生抄袭的情况,即使他们没有,正如推特上疯传的帖子所证明的那样。

Janelle Shane是一名人工智能研究员,也是《你看起来像个东西》和《我爱你:人工智能是如何工作的以及为什么它让世界变得更奇怪》一书的作者,她通过自己对探测器的体验,对这个问题有了更复杂的看法。虽然Shane最初喜欢使用这些工具,并发现它们评估文本的方式很有趣,但她告诉《每日野兽》,在看到“这些检测器是如何被使用的,假阳性并不罕见”后,她改变了主意。

“对我来说,在我自己的书中发现假阳性并不难,我知道这是我自己写的,”她说。

当检测器被用于可能对某人的生活产生重大影响的案件时,比如学术欺诈和剽窃,这就变得尤其成问题。在Shane发布了她对人工智能探测器的想法之后,她收到了许多学生的回复,分享了他们自己的经历。

“ChatGPT在会话之间没有任何记忆,但它会给你一个明确的答案,这是荒谬的,”Shane在谈到一个学生分享的特定案例时说。在这个例子中,老师与chatGPT分享了一个作业,并询问生成器是否创建了该内容,chatGPT不可能知道。

Teachers are seen behind a laptop during a workshop on ChatGpt bot organised for by the School Media Service (SEM) of the Public education of the Swiss canton of Geneva, on February 1, 2024.

Fabrice Coffrini通过Getty报道

对于像米拉这样的神经发散性或非英语母语学生来说,这就更成问题了。事实上,斯坦福大学在2024年7月发表在《Patterns》杂志上的一项研究发现,人工智能探测器对后者有明显的“偏见”。Shane进一步指出,有观察表明,人们对神经发散型作家的作品也表现出类似的“偏见”。

普渡大学(Purdue University)用户体验设计副教授Rua M. Williams最近分享说,有人回复他们的电子邮件时,认为这条信息是人工智能写的。威廉姆斯回复他们时指出,这篇文章可能是这样的,因为威廉姆斯患有自闭症。

威廉姆斯在接受《每日野兽》采访时表示:“我确实认为,目前人们,尤其是教师,对人工智能感到恐慌,这让他们更加怀疑自己所读文字的真实性。”“因此,他们更有可能对那些天生使用语言有点不同的人产生怀疑,比如神经分化者和英语为第二语言的人。”

NEOMA商学院数字副院长阿兰·古迪还指出,非英语母语人士经常发现他们的工作被错误标记,因为人工智能检测器的算法是通过评估文本的“困惑度”来工作的。

古迪在接受《每日野兽》采访时表示:“常见的英语单词降低了困惑度得分,使文本很可能被标记为人工智能生成。”“相反,复杂或花哨的单词会导致更高的困惑分数,将文本归类为人类编写的。”

他补充说,由于非英语母语人士使用直截了当的单词,这可能会导致他们的工作被标记为人工智能生成。对于母语非英语的人来说,他们已经在做额外的工作来学习一门语言,这种额外的负担可能会让他们筋疲力尽,并使他们处于进一步的劣势。

阿拉巴马大学荣誉学院(University of Alabama Honors College)的人文学科教授小t·韦德·兰格(T. Wade Langer Jr.)已经从自己的学生身上发现了这一点。他告诉《每日野兽》,他把这些工具作为与学生对话的起点,听取他们对故事的看法,而不是立即相信探测器。他并没有完全排除这种可能性,主要是因为人工智能生成器已经变得非常普遍和流行。然而,他说,“我们的政策是对话,而不是失败。”

他说:“每当学术不端行为的问题被解决时,心理健康就会受到一些压力。”“这就是为什么教育工作者和管理人员必须带着好奇心而不是判断,邀请人们进行对话,以了解和辨别一个人的学术诚信的真相,而不是做出直接的判断。”

A book of poems lies on a screen on which the homepage of ChatGPT up.

盖蒂图片社

像Sadasivan这样的研究人员担心,如果没有对后果的正确理解,这些行为的长期影响将是扼杀创造力,并使进一步的偏见延续下去。然而,这些并不是禁止或移除这项技术的理由,专家们正在推动重新评估这项技术的确切用途。

人工智能正在以教育机构似乎无法赶上的速度发展。这导致了对人工智能探测器等短期解决方案的依赖,但现在它的后果已经暴露出来,批评人士很快指出了依赖它们的危险。随着技术的进步超越了传统教育的步伐,教师将需要跟上——而这可能是以牺牲学生为代价的。这就是为什么专家们正在推动改变目前对人工智能生成器和检测器的认知方式,并确保它们不会以造成伤害的方式使用。

兰格说:“就像教育工作者使用的任何其他资源一样,我认为最大的担忧是把这些资源作为评判学生的试金石或最终标准。”“与评分或判决相比,进行对话需要更多的时间和精力。但教学诚信需要尽职调查,就像学术诚信一样。”