一个人独处的时候,我觉得有点孤独。我该怎么办?微软亚洲研究院推出的微软萧冰,或许可以像女朋友一样陪你聊天解闷。萧冰3.0版本不仅具备“评价颜值”、“选择匹配”等功能,还具备基于深度学习技术的强大视觉识别能力。看到一张图后,它能基于情感给出人性化的回复,秒回速度缩短至250毫秒。
不仅有“微软萧冰”和围棋高手“阿尔法狗”,还有从互联网搜索到语言翻译,甚至识别有自闭症风险的基因...任何需要从大量数据中预测未知信息的领域,都是深度学习可以大显身手的地方。那么,什么是深度学习技术呢?它将如何改变人类的生活?
在一万张图片中发现重复的猫
2011年,谷歌实验室的研究人员从视频网站中提取了1000万张静态图片,“喂”给谷歌的大脑,目的是从中发现重复的模式。三天后,谷歌的大脑在没有人类帮助的情况下,从这些图片中找到了“猫”。
这个谷歌大脑是一个使用深度学习技术的大规模神经网络模型,由1000台计算机组成。这件事在当时的科技界引起轰动,被视为深度学习复兴的里程碑。
所谓深度学习,就是由多层神经元组成的神经网络,实现机器学习的功能。这些多层计算机网络和人脑一样,可以收集信息,并根据收集到的信息产生相应的行为。
传统的机器学习方法只能挖掘简单的线性关系,比如1+1等于2。然而,这个世界并不是用这种简单的关系来描述的,比如收入和年龄,性别职业与教育的关系。深度学习的出现改变了这种情况,其灵感来源于模仿人脑神经网络。
科学家发现,人类大脑皮层并不直接从视网膜传输的数据中提取特征,而是让接收到的刺激信号通过复杂的网络模型进行筛选。这种分层结构大大减少了视觉系统处理的数据量,并最终保留了有用的信息。
20世纪60年代,生物学家在研究猫的大脑皮层时,发现其独特的网络结构可以有效降低反馈神经网络的复杂度,进而提出了“卷积神经网络”。利用这种网络结构编写的深度学习程序适应性强,成为人工智能的突破口。
语音识别改变人机交互。
简单来说,深度学习技术是对人脑的模拟,所以可以完成人脑的很多功能。
最广为人知的是视觉功能。我们的相机可以像眼睛一样看世界,却无法像大脑一样理解世界。深度学习正好填补了这个短板。通过深度学习,百度可以准确识别照片中的物体类别,自动对照片进行分类或搜索。有了深度学习,我们可以轻松刷脸支付。通过深度学习,特殊的机器可以探测到一定空间内所有人和车辆的行踪,并及时对可疑和危险的事件发出警报。
同时,深度学习技术也广泛应用于语音识别。在深度学习的帮助下,计算机拥有越来越强大的语音识别能力,这可能会改变仍然以键盘为主的人机交互模式。
深度学习和强化学习的结合正在发生深刻的变化。机器人字段。所谓强化学习是指机器人通过与环境互动中获得的奖惩,可以自主学习更好的策略。前段时间引起人们关注的“阿尔法狗”,就是强化学习的产物。它试图通过与棋手或自己对弈的输赢来寻找更好的对弈策略。
是什么让深度学习实现了超越?
然而,创建一个强大的神经网络需要更多的处理层。但由于硬件限制,前期只能做两三层神经。那么,是什么让深度学习超越了呢?
显然,高性能计算能力的提升是很大的帮助。近年来,GPU(图形处理器)、超级计算机和云计算的快速发展使得深度学习脱颖而出。2011年,谷歌拥有1000台机器和16000个CPU的深度学习模型大约有10亿个神经元。现在,我们可以在几个GPU上完成同样的计算。
“深度学习也有大数据的帮助,就像火箭有燃料一样。”格林深瞳的计算机视觉工程师、清华大学自动化系博士潘政表示,深度学习技术是基于大量的例子,就像儿童收集真实世界的信息一样。而且你喂的数据越多,它就越聪明,不会“消化不良”。因为大数据是不可或缺的,目前在深度学习方面做的最好的是拥有大量数据的IT巨头,比如谷歌、微软、百度等等。
目前,深度学习技术在语音识别、计算机视觉、语言翻译等领域已经超越了传统的机器学习方法,在人脸验证、图像分类等方面甚至超越了人类的识别能力。专家预测,再过几年,我们口袋里的手机也能运行像人脑一样复杂的神经网络。
但就目前的趋势来看,深度学习技术仍然无法取代“坐在后台”监控房间里的人。“比如你和你的朋友在餐厅吃完饭正急着结账,智能摄像头还是很难判断是打架了还是怎么的。可见,逻辑判断和情感选择是深度学习不可逾越的障碍。
一眼就能识别坏人的系统
专注于计算机视觉和人工智能的技术公司Gling Deep Eye将基于深度学习技术的智能识别系统应用于银行安防。监控字段。
考虑到传统光学镜片在识别图像时会失去“深度”维度,Gling Deep Eye专门研发了一套用于银行安全监管的三维传感器。背后是一个奖惩机制训练出来的算法模型,可以主动识别异常。“看到有人接近有人值守的ATM机,而不是旁边空空如也的ATM机,识别他的轨迹,判断他的行为是否正常,这涉及到深度学习。”Gling Deep Eye CEO何博飞表示,如果系统识别出异常,会推送给后台主管。为了教会机器准确判断,需要提供背后几十万的图片数据。
何博飞指出,给这个智能识别系统一张有侧脸或者没有脸的全身照片,它也能以99%以上的准确率快速锁定目标。前提是建立一个6000到15000的样本库。"一旦样本达到百万级别,准确性可能会降低20%或更多."