人们担心人工智能对人类的威胁,但新的研究表明,它可能有助于理解人类是如何发展的。
纽约大学的研究人员通过从儿童的眼睛和耳朵的角度获得的第一人称视频,训练了一个儿童对比学习模型(CVCL)来使用人类语言。
一组研究人员在一个名叫山姆的孩子6个月大的时候给他绑上了一个头戴式摄像机,并在他2岁生日的时候观察了他的视频。
纽约大学的研究人员给6个月大的山姆(见图)安装了一个摄像头,直到他两岁左右,他们用第一人称视角记录了一个孩子的喜好。
摄像机拍摄了61个小时的镜头,约占山姆醒着时间的1%,并用于训练CVCL模型将文字与图像联系起来
这些录像只包含了孩子醒着的时间的1%,总计约60小时的数据,包括吃饭时间、读书时间和孩子玩耍等活动。
他们的研究结果发表在《科学》杂志上,表明聊天机器人模型通过对孩子经历的有限观察来学习单词和概念。
研究人员开始探索人类如何将单词与视觉表象联系起来,比如将单词“球”与圆形、有弹性的物体联系起来,而不是与其他特征、物体或事件联系起来。
CVCL模型链接图像和文本的准确率约为61.6%
纽约大学数据科学和心理学系中心助理教授、该论文的资深作者雷克(Brenden Lake)说,通过使用人工智能模型来研究儿童面临的真正的语言学习问题,我们可以解决关于儿童学习单词需要哪些因素的经典争论——他们是需要语言特定的偏见、天生的知识,还是仅仅需要联想学习才能开始。
“通过学习,我们能学到的东西似乎比我们通常认为的要多。”
研究人员使用视觉和文本编码器来翻译图像和书面语言,让人工智能模型从通过Sam的耳机获得的镜头中进行解释,虽然镜头通常不会直接链接单词和图像,但CVCL机器人能够识别其含义。
该模型使用了一种对比学习方法,通过建立信息来预测哪些图像和文本会一起出现。
研究人员对孩子的视频片段中出现的22个单独的单词和图像进行了几次测试,发现该模型能够正确匹配许多单词和图像。
研究人员使用图像和文本解码器来训练人工智能模型,在训练过程中,匹配的图像和文本更接近,因此CVCL可以学习将单词与图像联系起来
他们的研究结果表明,人工智能模型可以以61.6%的准确率概括它所学到的东西,并且能够在35%的时间内正确识别“苹果”和“狗”等看不见的例子。
纽约大学数据科学中心(Center for Data Science)的研究科学家、该论文的第一作者Wai Keen Vong说:“我们首次证明,一个神经网络接受了来自单个孩子的这种发展现实输入的训练,可以学会将单词与视觉对应的单词联系起来。”
“我们的研究结果表明,最近的算法进步与一个孩子的自然主义经验相结合,有可能重塑我们对早期语言和概念习得的理解。”
研究人员发现,人工智能模型仍然存在缺陷,尽管该测试在理解婴儿如何发展认知功能方面显示出了希望,但由于无法完全体验婴儿的生活,它受到了限制。
一个例子表明,CVCL在学习“手”这个词时遇到了困难,而这个词通常是婴儿在很小的时候就会学习的。
“婴儿有自己的手,他们有很多经验,”王告诉《自然》杂志,并补充说:“这绝对是我们模型中缺失的一部分。”
研究人员计划进行更多的研究,以复制两岁左右幼儿的早期语言学习。
莱克说,虽然这些信息并不完美,但“完全是独一无二的”,是“我们了解一个孩子能接触到的最好的窗口”。