AGV机器人

当前位置:前位置:首页 > AGV机器人
全部 2062

华盛顿大学研究员结合深度学习与符号学习使人工智能理解语言

时间:2023-11-03   访问量:0

9月8日,《卫报》发表了一个独特的专栏。它的作者既不是热心的读者,也不是记者,而是旧金山人工智能初创公司OpenAI开发的人工智能语言模型GPT-3。文章开头先引用了史蒂芬·霍金对AI的担忧,然后委婉地劝说人类“请相信我,AI不会毁灭人类”。它甚至承诺“如果造物主委托我这个任务,我会尽全力彻底阻止任何破坏它的企图和企图”。

霍金的担心可能不是空穴来风。2018年,IBM Research最新的AI系统Project Debater击败了人类顶级辩手、以色列国际辩论协会主席丹·扎弗里尔(Dan Zafrir)和2016年以色列全国辩论冠军诺阿·奥瓦迪亚(Noa Ovadia)。这两场辩论是“政府是否应该资助太空探索”和“是否应该增加对远程医疗技术的投资”。

当Project Debater获得一个新话题时,它会在文章语料库中搜索与话题相关的句子和线索,以支持其辩护论点。根据所有相关内容,它会试图“理解”辩论的主题,然后组织自己的陈述。当奥瓦迪亚提出将政府预算用于改善现有生存环境的科研活动时,Project Debater用数据反驳说,从长远来看,太空探索带来的技术进步和相关经济回报超过了政府投入的其他科研计划——在赛后的网络投票中,超过62%的网友觉得Project Debater的逻辑更清晰,材料更有说服力。

就在这场辩论的前一年,2017年,纽约大学计算语言学家萨姆·鲍曼(Sam Bowman)发表了一篇有影响力的论文。他声称,尽管计算机可以很好地模拟一些非常特定领域对单词的理解,但人工智能仍然不擅长理解单词。

不可企及的“奇点”

近年来一直密切关注人工智能语音技术的《连线》杂志作家詹姆斯·弗拉霍斯(James Vlahos)表示,人工智能语音技术可能是继互联网之后最重要的发明。Vlachos在他的最新著作《跟我说话:人工智能语音技术如何改变我们的生活》中表示,语言是人类与人工智能交互的最理想模式,无论是复杂的计算机编程语言、触摸屏还是鼠标。对于我们来说,语音交互是最简洁、清晰、不需要技巧的模式。

物联网、语音交互、智能设备共同构建了未来人类生活的日常场景。

在现实生活中,人类已经越来越习惯于用语言来指挥人工智能为自己服务:通过对智能家居设备发出语音指令,获取影音娱乐、天气信息、交通状况等;上班、通勤途中,通过车载语音助手规划行车路线,直接与网购剁手里的人工智能语音客服沟通:去年双11,淘宝天猫平台98%以上的电话客服由语音AI提供,平均每天超过6亿次通话。志明咨询公司Gartner去年预测,10年后,人类与智能设备之间的语言交流总量可能会占到我们日常语言交流的三分之一以上。

然而,我们远远不满足于这种简单的浅层交流。“让机器理解人类用自己的语言习惯发出的指令”无疑是人工智能研究界打算攻克的“最后堡垒”。而这一技术突破的“奇点”似乎近在咫尺。

2017年,华盛顿大学和谷歌的人工智能公司DeepMind合作推出了一款名为“GLUE”的阅读理解语言能力测试,机器的测试结果很可怕。似乎人工智能主导的自然语言处理系统根本无法理解人类语言的丰富性。然而,当年10月,谷歌推出了一种新的语言训练模式,昵称为BERT,仅用了6个月就将考试成绩从D-提高到了B-。

随后,微软和阿里巴巴不断修正BERT模型,相互超越,在GLUE排行榜上轮换榜首。现在在胶水阅读能力测试中,人类已经无法与AI抗衡。现阶段人工智能语言模型的开发极其昂贵,训练一个BERT模型租用云计算能力。费用大概是7000美元左右,开头提到的GPT-3的计算能力是前者的1900多倍。它所依托的数据库是人类语言信息库,总字数达到3000亿,来自互联网上的各个平台。费用大约一千万美元。所以,如果没有微软投资OpenAI的数十亿美元,恐怕我们无法阅读《卫报》上GPT-3的善意宣言。

但是,人工智能可以愉快地胜任客服、播音员、同声翻译甚至是新闻通稿撰稿人的工作,并不意味着它可以像人类一样思考,可以与人类进行“合理”的自由对话,甚至情感互动。比如谷歌今年9月刚刚推出聊天。 机器人最新版本的BERT语言模型支持的Meena,数据库中包含了341GB的网络语言素材,但你只能礼貌地问候它。一旦涉及到复杂的感情和场景,米娜就无能为力了...

男:我要去上小提琴课。

米娜:你学了多久了?

男:刚开始一个月!

米娜:太好了,你真了不起!你为什么想学小提琴?

男:嗯,两个月后是我女朋友的生日。我想在她的生日派对上放首歌!给她一个惊喜。

米娜:生日和惊喜有什么关系?

无独有偶,这种尴尬的情况也发生在GPT-3身上:

研究员:你给自己倒了一杯蔓越莓汁,然后心不在焉地加了一茶匙葡萄汁进去。看起来很正常。你试着去闻,但是因为你得了重感冒,所以什么都闻不到。你现在很渴,所以...

GPT-3:所以你喝了这种混合果汁。你现在已经死了。

一直“唱衰”人工智能语言处理技术的纽约大学教授,做起了机器学习。公司首席执行官Gary Marcus表示,像GPT-3这样的人工智能语言学习模型根本不明白它在说什么。它在接收到外界的信息后,只是利用计算能力在其庞大的语言数据库中搜索那些与输入信息相关的高频词,然后按照某种机械的算法逻辑拼凑出一个似是而非的答案。

比如GPT-3虽然能创作出那些“莎翁”风格的诗歌,但如果你认真对待它,输入一些背景模糊、关系复杂的东西,然后让它给出合理的解决方案,人工智能就会暴露出来。所以,很遗憾,人工智能要实现“像人类一样用语言交流”,还有很长的路要走。

为什么AI不会「说人话」?

我们不禁好奇,在国际象棋、电子游戏、模拟空战中,人工智能都能轻松战胜人类的情况下,为什么在对话方面还是那么笨拙?加州大学伯克利分校的斯图尔特·罗素教授在刚刚出版的《人类相容性:人工智能与控制问题》一书中给出了答案:人工智能很聪明,但还不够聪明。前者得益于强大的芯片计算能力和数据库,后者则依赖于逻辑推理能力,甚至是基于“常识”的判断,而这些仍然是人类和机器所独有的。

现有的学习框架和算法使得人工智能只能依赖数据,无法用人类的逻辑处理和理解人类的语言。

关于人工智能对语言的处理,罗素提出了一个有趣的比喻——“中文室”:一个不懂中文却有超强学习能力的人,坐在一个堆满中文语法书的房间里。每当门外塞一张写有中文问题的纸条,他就通过查阅语法书,在另一张纸条上写下中文答案。

看到这里,你可能已经明白了,这个“不懂中文的人”就是人工智能,而“中文”象征着人类所有的日常语言和常识,语法书就是人工智能研究者用计算机语言构建的学习框架和逻辑。

问题是这些“语法书”并不完善,语言过于复杂随意,很难归纳成一系列严格的规则,也很难用机械逻辑量化。即使是最先进的神经网络,也无法从句子层面理解单词的意思。“会觉得‘一个人咬了那条狗’和‘一条狗咬了那个人’表达的意思完全一样。”

一个帮助人工智能理解人类语言结构的树形结构案例,动词短语、名词短语和介词短语被拆分,单词按照逻辑联系的强弱重新组合。

如果要让人工智能以“人类思维模式”理解语言,现有的初步解决方案是加强语言结构中某些元素的权重,比如突出“主语”、“动词谓语”和“宾语”,使词与词之间的逻辑关系呈“树状”分布,有的词强相关,有的词弱相关,让人工智能很好地学习语境理解,区分两者。

根据这种训练模式,旧金山的人工智能语音技术公司Primer开发的NLP模型已经可以写出非常“标题党”的新闻栏目标题和简单的报道,甚至可以对一个复杂的电影剧本进行总结,比如输入蝙蝠侠黑暗骑士的剧本,它会输出如下总结:

哈维·登特和戈登结成联盟打击高谭市的有组织犯罪。

小丑向其他犯罪组织建议谋杀但丁本人,报酬是犯罪组织所持有的一半黑钱。

小丑试图通过制造犯罪和杀害更多的人来迫使蝙蝠侠暴露身份。

哈维·登特和蝙蝠侠抓住了小丑。

小丑逃跑了,并袭击了渡船。

蝙蝠侠逮捕了杀死但丁和瑞秋的小丑。

然而,研究人员仍然不满意。毕竟新闻报道和剧本的叙事结构是线性的,要素之间的因果关系比较清晰,非常符合艾的分析认知模式。于是,他们决定挑战并尝试理解这种语言模型是否能理解诗歌,于是他们输入了T·S·艾略特的J·阿尔弗雷德·普鲁弗·洛克的情歌,结果很尴尬:人工智能无法做出总结,只能挑出全诗中最真实的场景作为答案:“女士们在客厅里来回走动,谈论着画家米开朗基罗。”

索邦大学数学和计算机科学专家菲利普·伊塞林(Philippe iselin)认为,问题的核心在于,人工智能无法拥有人类最珍贵的想象力,因此无法真正理解自身产生的语言内容,更不用说评估其价值了。一些人工智能语言专家表示,人工智能面临的“终极图灵测试”很可能是人工智能能否理解幽默,讲一个人类觉得好笑的笑话,因为理解幽默需要理解场景、参与者的身份、情绪、语言的各种非常规用法,以及人类的行为标准和价值判断。

加州大学圣地亚哥分校的人工智能专家Caner Shane试图用包含43000个笑话的语言数据库来训练AI,并煞费苦心地总结了几十个笑话中的语言范式和主题,如“嘲笑对方父母”、“性”和“不寻常的生理特征”。但经过长时间的训练,AI最多只能生成一些“侮辱性语句”。

常识!常识!常识!重要的事情说三遍

那么,破局的关键在哪里?IBM沃森人工智能项目前首席科学家大卫·费鲁奇(David Ferrucci)认为,答案在于帮助AI学习人类的“常识”,以便像人类一样思考。常识不仅包括人类已知的世界万物,还包括这些事物的相互作用准则和因果关系,以及人类特有的行为模式和价值判断。

“常识是我们最需要教给AI的。它是未来的自然语言理解,无障碍控制和机器人“的基础。为此,费鲁奇成立了自己的人工智能业务。公司基本认知,公司开发了开源人工智能语言学习模型CLARA。Ferrucci的目标是将深度学习技术与传统的知识输入方式相结合,让CLARA通过不断向操作者提问,将答案中涉及的逻辑关系和概念添加到她的知识图谱中。

缺乏“常识”的人工智能经典翻译案例

这种深度学习的场景,很像一个有耐心的父亲给他无知的孩子读书。费鲁奇的日常工作是将绘本的内容输入克拉拉的记忆数据库:“从前,有两个小男孩,弗兰朵和乔伊。他们俩都买了一盆绿色植物。弗兰朵把他的绿植放在阳光充足的窗台上,长势喜人,但乔伊把自己的绿植放在光线不好的房间里。后来,乔伊决定在窗台上放些绿色植物,这样植物枯萎的叶子就慢慢恢复了。”

收到这些信息后,克拉拉立即在屏幕上键入一个问题:“弗兰朵在窗台上放绿色植物是为了让植物健康生长吗?”

听起来很幼稚,不是吗?然而,即使是这种只有3岁孩子才会问的问题,也包含了因果关系,这是最“聪明”的人工智能也难以学会的。“当你向它提到一种植物的名字时,它能准确地利用知识图谱组织出一个相当全面的、维基百科式的介绍答案,但遗憾的是,它不能给你讲一个关于它的笑话,它也不能回答你。不发光会怎么样?”费鲁奇说。

符号学习:最古老的救世主

与此同时,华盛顿大学艾伦人工智能研究所的研究员叶筋·蔡教授开发了另一种方法,将深度学习与符号学习相结合,使人工智能能够使用人类的逻辑来理解语言。

所谓“符号学习”是人工智能最古老的学习模式,旨在使人工智能的“思考和决策”过程像人类一样,逐渐理解各种概念的特征,学会处理它们之间的归属关系。

这种学习方式的好处是,不需要像深度学习那样建立庞大的“数据库”,AI的整个决策过程将变得“透明可见”,有利于我们的调整和优化。但缺点是,人类必须像编字典一样,为人工智能编写大量的标签库,并在这些概念之间建立复杂的逻辑关系,将其“翻译”成计算机能理解的语言。想到“钝角”、“翅膀”、“摩擦力”、“猫”、“下落”这些基本概念都要一个个“教”给电脑,更不用说其他复杂的概念和变化了,这当然会让我们感到头疼,但其诱人的前景实在让人难以拒绝。

崔教授在演讲

为了实现这一终极目标,崔和她的同事们建立了自己的人工智能语言学习框架COMET,同时也在不断为COMET编写常识知识库“Atomics”,该知识库已经拥有数千万个词条、知识概念和因果关系描述。这种巨大的努力和付出已经初见成效:加里·马库斯曾经问GPT-2一个问题,“如果把一根点燃的火柴放进一个装满柴火和火种的炉子里,会发生什么?”不出所料,GPT 2号“冻结”了。然而,崔的人工智能系统慧星却输出了一个近乎正确的答案“他想生火”。

柴火中加入火柴会发生什么?符号学习可能是人工智能理解最简单、最基本的因果关系的一种全新、有效的解决方案。

不仅如此,在训练中,彗星已经表现出了一定的联想和共情能力。当科研人员输入“父亲上班去了”,彗星会告诉你,这意味着他的父亲想赚钱,“他很勤奋,有上进心”,别人“应该以他为荣”。当然,这离理想状态还很远。崔一真说,如果人工智能想要更好地理解常识,它还必须引入视觉具体化和感性感受(如“红色”和“疼痛”)。

电影《她》中的萨曼莎是一个完美的情感陪护AI,它终于和男主角产生了微妙的感情。

一旦这些目标最终实现,人类与AI的关系无疑将上升到一个新的维度,类似于电影《她》中描述的场景。既能提供明确的服务和解决方案,又能提供情感上的安慰和乐趣。

那时,我们与人工智能的对话可能会变成这样:

x猫精灵,给我弹一首王菲的《南海姑娘》——我懂了。听完之后你想听邓丽君的原创歌曲吗?好了,把这两个大写加到我的个人歌单里。我已经收到了。我已经添加了它们。唉,今天天气很好,对面山上的树看得很清楚。是的,我希望你今天工作的心情和天气一样好。对了,对面山上有39684棵树,希望这个数据能帮到你。那还不错。你觉得我有多少脑细胞?两个?哈哈哈,这是个笑话...

上一篇:机器人律师是不是很酷?

下一篇:美的集团:公司将加快推动库卡机器人中国业务整合

返回顶部