经历了资金的削减和颠簸、融合和再隔离、恐慌和改革、世界大战和文化战争,美国学生始终至少学得很好一件事:如何拿出2号铅笔,在一张印着一排又一排泡泡的纸上写下考试答案。无论你是iPad一代还是婴儿潮一代,你都有可能填写过至少几张(如果不是几百张)由机器评分的选择题表格。长期以来,它们一直是标准化考试字母汤中的关键成分,无论是全国性的(SAT、ACT、TOEFL、LSAT、GRE)还是地方性的(SHSAT、STAAR、WVGSA)。它们被用于每年5万美元的学院和最贫困的公立学校,在那里,经典的绿色或蓝色的答题卡可以伴随每个科目的日常测验。

机器评分,现在是Scantron品牌的代名词,就像纸巾和Kleenex一样,是如此受欢迎,因为它可以为数百万学生提供快速和直接的结果。反过来,这项技术开创了一个选择题测试的时代。为什么英语课不仅包括写文章,还包括从四个潜在主题中选择一篇文章所代表的主题?为什么微积分不仅需要写出证明,还需要从各种预定的数字中选择正确的解?这在很大程度上要归功于Scantron及其同类产品。

但很快,这个国家可能会出现几十年来第一代没有经过训练的人,他们不会本能地填写一系列小气泡,不会留下任何痕迹。明年,SAT考试将全面数字化;ACT、AP考试和许多州考试已经或将会这样做。有一天,在课堂上做小测验也可能不再是在答题纸上冒泡,而是在键盘上打字或敲击平板电脑。自动多项选择评分技术的出现从根本上改变了美国教育,其影响可能超过任何其他单一事物。如今,它的消亡可能会产生同样的效果。

20世纪初的美国学生可能在整个上学期间都没有参加过一次选择题测试。斯坦福大学教育学名誉教授、长期担任联邦教育政策制定者的琳达·达林-哈蒙德(Linda Darling-Hammond)告诉我,在那个时候,评估往往集中在论文、项目、口试和其他作业上,这些作业需要学生花更多时间回答,老师也需要花更多时间评分。这种模式比多项选择题测试更全面,但也容易出现主观性和偏见——部分原因是接受正规教育的孩子少得多。

然而,很快,教师和政府官员开始寻找评估快速增长的学生人数的方法。1900年,大约10%的青少年上过高中;到1940年,大约70%的人这样做了。大学也在考虑如何从大量的申请者中进行选择。马萨诸塞州大学阿默斯特分校(University of Massachusetts at Amherst)的教育历史学家杰克·施耐德(Jack Schneider)告诉我,教育工作者“依靠自己的眼睛和耳朵”来评估学生已不再可行。学校和学区需要数据。

多项选择题考试才说得通。尽管早在1845年就存在一些标准化考试,但它们涉及更多开放式问题。美国的第一次选择题考试是第一次世界大战期间在堪萨斯州进行的一次阅读评估。不久之后又出现了几个其他的测试,包括1917年的军事能力测试——很快就被改编成学生版本——然后是1926年的SAT。每个问题的有限的、固定的答案创造了一种统一的数字表示和分类学生的方式——一些人进入大学,一些人进入职业学校,等等。即使没有机器,管理人员和教师手工批改多项选择题的速度也比阅读论文或几何证明要快得多。

当然,通过多项选择题来评估学生,是假设考试能客观地了解学生的能力。佛罗里达大学(University of Florida)研究美国教育的历史学家塞万·特齐安(Sevan Terzian)告诉我,事实并非如此,相反,许多考试只是证实了围绕种族和阶级的现有偏见。不管准确与否,越来越多的学生入学并参加这些考试,暴露了人类评分的局限性。北卡罗来纳大学教堂山分校(University of North Carolina at Chapel Hill)研究教育和考试的伊桑·赫特(Ethan Hutt)告诉我:“随着许多学生参加这些考试……这一点变得非常重要:能够快速给所有这些考试打分,这样就有可能及时得到分数,这样学生就可以继续学习了。”对于影响大学录取、成绩和毕业的考试来说,速度至关重要。为了提高效率,IBM在1937年发布了第一台自动记分机,它通过感应铅笔记号的电导率来工作。

但真正的突破出现在20世纪50年代,当时ACT的创始人之一埃弗雷特·林德奎斯特(Everett Lindquist)发明了一种光学标记识别系统,该系统至今仍是许多考试评分设备的基础。该技术使用光而不是电来识别标记,而且速度要快得多,与IBM的机器每小时800次的测试速度相比,它每小时可以完成约4000次测试。林德奎斯特在他的专利申请中写道,他的扫描仪可以“在几天甚至几小时内完成所需的评分、转换、分析和报告操作,而不是几周。”换句话说,没有必要有50到100人的工作人员。”

很快,机器分级无处不在。赫特告诉我,在冷战期间,考试分数“就像衡量教育的GDP指标”,在一个教育如此分散的国家,了解一所学校相对于其他学校的地位变得至关重要——在20世纪60年代,由于计算机可以存储和处理大量数据,这一点更容易确定。施耐德说,正是这种“对比较分数的追求,真正导致了对标准化考试的痴迷”。

到1972年Scantron成立时,机器评分已经使多项选择题考试成为美国教育的重要组成部分,而对州范围考试的巨大推动只会增加对评分技术的需求。该公司及其商业模式使这些考试更加普及:Scantron以低廉的价格提供计分机,并通过向学校和学区的垄断市场出售答卷获利。多年来,教师们一直在从标准化考试中借用A/B/C/D格式,但Scantron提供了更小、更实惠的扫描仪,使这样做变得更加容易。截至2019年,Scantron为其所谓的“美国100强学区”中的96个学区提供服务,每年在全球印刷约8亿张纸;他们的扫描仪每小时可以处理15000张纸。已经相信这些测试提供了对能力的中立评估的教师和领导们发现“给这些选择题考试打分的技术非常有吸引力,”特齐安说。

美国教育的几乎每个方面现在都倾向于答题卡和机器评分。这项技术使得《不让一个孩子掉队》(No Child Left Behind)等21世纪的法律得以大规模推广考试,并将学生成绩与资金挂钩。学校在物理上发生了变化,把图书馆、体育馆、礼堂和计算机实验室变成了考试、收集和评分中心;每张纸的价格也高达15到20美分。考试当天,学生们带着几盒2号铅笔(石墨尤其不透明,扫描仪更容易注册),分享考卷表情包,并尝试通过标记多个气泡来作弊;美国两大教师工会之一的全国教育协会(National Education Association)主席贝基·普林格尔(Becky Pringle)告诉我,教育工作者是“为考试而教”,孩子们学会用A/B/C/D的形式来思考。

然而,冒泡式答题纸和错误答案旁边的细红标记的统治地位正开始受到侵蚀。琳达·达林-哈蒙德说,现在许多标准化考试提供了更多的开放式问题,旨在衡量高阶思维。物理答题纸正慢慢让位于电脑屏幕,疫情和远程教育加速了这一转变:全国各地的州考试、大学入学考试和其他评估都在数字化。目前,许多在线考试并没有什么实质性的不同。明年1月,SAT考试将在几十年来首次不再使用气泡纸,但仍将充斥着相同类型的多项选择题。教师手工检查多项选择题答案,在答题机上运行答题卡,或者在屏幕上即时评分,这些都是不同的技术来评估相同类型的考试,并提取相同类型的数据,无论是从石墨还是从光标的点击。

至少目前是这样。美国教育考试服务中心(ETS)负责产品创新和开发的副总裁卡拉·麦克威廉姆斯(Kara McWilliams)告诉我,计算机可以很好地改变美国的考试,因为它允许更多创造性和互动性的问题出现。ETS是一家提供GRE等考试的考试公司。麦克威廉姆斯还管理着该公司的人工智能实验室,该实验室正在使用先进的人工智能模型来创建和帮助评分测试问题。例如,在让主题专家对大量论文进行注释后,经过人类评估训练的人工智能程序可以自己对测试进行评分,其最终输出仍由人类验证。类似地,计算机也可以用于口头评估或外语考试的评分,比如,一个学生被要求将“apple”翻译成西班牙语,他的发音是否正确。就像机器评分允许大规模的多项选择题一样,学生最终可能会回答更多形式自由的问题,写更多的文章,这些文章的评分就像今天的答题卡一样快速和容易。Scantron的一位发言人告诉我,该公司对其“数字解决方案”感到自豪,并“期待在未来50年乃至更长时间内继续发挥影响”。

如果选择题考试的时代真的结束了,评估也不一定会被错过。这种形式不仅固有地简化了问答形式,而且容易产生偏见。反过来,它们引发了数十年的争论,即美国的标准化考试是否比论文和口试等其他考试更具种族主义、性别歧视或阶级歧视。

向计算机的转变可能仍不能使我们摆脱这些争斗。“答题卡”和人工智能是计算机的两个版本,它们能提供快速反馈,据称比老师更客观。然而,比方说,全州范围的数学多项选择题测试的结果,仍然需要转化为如何更好地教育可能落后的学生。尤其是考虑到人工智能模型的许多偏见和不准确性,计算机程序的洞察力也不太可能逃脱人类解释的同样失败。更好的数据仍然取决于教育者如何利用这些数据。