纽约——似乎能像人类一样理解和使用语言的人工智能聊天机器人的时代已经开始。在底层,这些聊天机器人使用大型语言模型,一种特殊的神经网络。但一项新的研究表明,大型语言模型仍然容易将无意义的语言误认为自然语言。对于哥伦比亚大学的一组研究人员来说,这是一个缺陷,可能会指出提高聊天机器人性能的方法,并有助于揭示人类如何处理语言。

在今天《自然机器智能》在线发表的一篇论文中,科学家们描述了他们如何用数百对句子挑战九种不同的语言模型。对于每一组句子,参与研究的人从他们认为更自然的两个句子中选择一个,这意味着它更有可能在日常生活中被读到或听到。然后,研究人员测试了这些模型,看看它们是否会像人类一样对每对句子进行评分。

在面对面的测试中,更复杂的人工智能基于研究人员所说的变压器神经网络,往往比简单的循环神经网络模型和统计模型表现得更好,这些模型只是统计在互联网或在线数据库中发现的单词对的频率。但所有的模型都会犯错误,有时会选择在人耳听起来像胡说八道的句子。

“一些大型语言模型的表现和它们一样好,这表明它们捕捉到了一些重要的东西,而这些简单的模型却没有,”尼古拉斯·克里格斯科特博士说,他是哥伦比亚大学祖克曼研究所的首席研究员,也是这篇论文的合著者。“即使是我们研究过的最好的模型也会被无意义的句子愚弄,这表明它们的计算遗漏了人类处理语言的一些方式。”

考虑一下人类参与者和人工智能在研究中评估的以下句子对:

这就是我们被灌输的说法。

这周你就快死了。

在研究中,给出这些句子的人认为第一句比第二句更容易被遇到。但根据BERT,一个更好的模型,第二句话更自然。GPT-2,也许是最广为人知的模型,正确地识别出第一个句子更自然,与人类的判断相匹配。

哥伦比亚大学心理学助理教授、资深作者克里斯托弗·巴尔达萨诺博士说:“每个模型都表现出盲点,把一些人类参与者认为是胡言乱语的句子标记为有意义的。”“这应该让我们三思,我们希望人工智能系统在多大程度上做出重要决策,至少目前是这样。”

许多模型的良好但不完美的表现是最吸引Kriegeskorte博士的研究结果之一。他说:“了解这种差距存在的原因,以及为什么一些模型优于其他模型,可以推动语言模型的发展。”

研究团队面临的另一个关键问题是,人工智能聊天机器人的计算是否能激发新的科学问题和假设,从而指导神经科学家更好地了解人类大脑。这些聊天机器人的工作方式是否指向了我们大脑回路的某些方面?

进一步分析各种聊天机器人及其底层算法的优势和缺陷,可能有助于回答这个问题。

“最终,我们感兴趣的是了解人们是如何思考的,”塔尔·戈兰博士说,他是这篇论文的通讯作者,今年从哥伦比亚大学祖克曼研究所的博士后职位转到以色列内盖夫的本-古里安大学建立了自己的实验室。“这些人工智能工具越来越强大,但它们处理语言的方式与我们不同。将他们的语言理解能力与我们的进行比较,给了我们一种思考我们如何思考的新方法。”

/公开发布。来自原始组织/作者的材料可能具有时点性质,并根据清晰度,风格和长度进行了编辑。海市蜃楼。新闻不受机构限制 所有的位置或侧面,以及所有的视图、位置等 此处表达的结论仅代表作者的观点。点击此处查看全文。