学术冒险公司拥有上亿用户,证明人工智能在钱景的商业应用是巨大的。
“人工智能突然火了。”徐莉感慨道。35岁的徐莉是商汤科技的首席执行官,也是一名计算机视觉科学家。
过去,徐莉宣扬“深度学习”、“人工智能”和“DeepMind”等术语,这些术语往往不为客户所知。谷歌的深度思维。公司开发的人工智能程序AlphaGo战胜韩国围棋高手李世石后,客户主动询问合作机会。“PPT中大量的专业词汇被AlphaGo用围棋五局普及了”。
2014年,徐莉和他的学术同事共同创立了商汤科技。目前,其核心业务是机器视觉服务,包括图像和视频处理和理解,以及人脸识别。它的技术基础是与AlphaGo同源的深度学习。这个低调的创业公司公司,已经不知不觉地渗透到了大多数人的生活中。
领先一步
对于徐莉来说,AlphaGo赢得比赛并不奇怪。
这两年,每当介绍深度学习的时候,他都会谈到AlphaGo的“创造者”Deep Mind。公司——2014年,谷歌斥资4亿英镑收购一家英国公司。公司。“Deep Mind只有12名员工。创始人是国际象棋冠军。没有具体的产品。它只从事深度学习游戏研究,耗资4亿英镑。当时业内震惊。”
在谈到这次收购时,徐莉听到的最多的评论是“谷歌会乱花钱”。然而,业内学术权威Yoshua Bengio教授当时评论说:“深度学习领域的专家大约有50人,其中12人在Deep Mind,谷歌买下了未来。”AlphaGo证实了Deep Mind的价值。
所谓深度学习,从某种意义上来说,就是对人脑神经细胞的模仿。人脑有大量相互连接的神经细胞,相互传递神经刺激,但计算过程不是一步到位,而是把复杂的东西从一个层次计算到下一个层次。用计算机模仿这个过程,就形成了深度学习。其本质是一个人工神经网络,善于在大量数据的基础上进行判断。
历史上,谷歌进行过一次“猫脸识别”的实验,建立了一个有10亿个节点的神经网络,让它“观看”大量视频。人工大脑独立“学习”了识别猫脸的技能。之前,我没有编写任何程序告诉计算机什么是“猫脸”,我是通过海量的视频和数据完整地分析出一张猫脸的特征。
深度学习的技术起源可以追溯到20世纪80年代。受限于计算能力和数据量,在学术界长期处于边缘地位。2006年后,由于IT技术的进步,其学校开始崛起;随后,微软人工智能首席科学家李征将其应用于语音领域,并取得了重大突破。在2009-2010年期间,李征·邓和他的合作者开发了一套算法,迅速将语音识别的准确性提高到一个新的水平。一个代表性的成果就是自动同声翻译系统,可以将英文演讲实时翻译成中文,并以中文语音输出。
“这项研究改变了人工智能的产业地位,引爆了学术界,深度学习立刻成为热点。”徐莉评论道,“许多研究已经开始朝着深度学习的方向快速前进。像推火车一样,技术的应用范围不断扩大,计算的精度大大提高。”2013年,《麻省理工科技评论》将深度学习列为全球十大突破性技术。
据徐莉介绍,深度学习目前主要应用在三个领域:语音识别、自然语言处理(代表性的例子是“微软萧冰”)和计算机视觉。2010年左右,徐莉当时是香港中文大学博士后,与汤晓鸥教授等。香港中文大学的多媒体实验室里有很多师弟之间的接触,后者是深度学习在视觉领域应用的先行者。
其中,令人信服的成果是,在CVPR、ICCV、ECCV三大计算机视觉学术会议上,前三年关于深度学习的29篇文章中,有14篇来自于。香港中文大学的多媒体实验室,其团队后来成为商汤科技的骨干研究力量。可以说,在深度学习和计算机视觉刚刚联姻的时候,正是学术方向的明智选择和强大的执行力,成就了商汤科技现在的商业价值。
直到现在,商汤科技也一直保持着浓厚的学术色彩,其人才团队多来自麻省理工、斯坦福、香港大学,香港中文大学、清华大学等高校及其实验室,以及谷歌、百度、微软、阿里巴巴等行业的领军人物,包括五位微软研究员、两位A星,聚集了一批中文世界深度学习和计算机视觉领域的专家。200多人公司中国有50多位博士。
“商汤很多科学家都很吃香,我们开出的工资也不比行业巨头高。”徐莉对《21世纪商业评论》(以下简称“21st 21CBR”)记者解释说,“这些科学家愿意来这里,是因为我们由衷地相信,在人工智能这样一个关键领域,中国的原创技术完全有机会走在世界前列。
世界第一
现就职于谷歌的杰弗里·辛顿(Geoffrey Hinton)被称为深度学习领域的先驱。2010年在语音领域取得突破后,他尝试将深度学习引入视觉图像领域,并于2012年参加了ImageNet比赛。
ImageNet竞赛是人工智能领域的权威竞技场。斯坦福大学的中国学者李菲菲收集了一个针对视觉领域的“图像分类和物体检测”的大规模数据集。数据集最初包括一个对1000种图片进行分类的任务,然后增加了200种静态图片对象检测任务。
杰弗里·辛顿(Geoffrey Hinton)首次使用深度学习方法,将图像分类的准确率提高了10%,这在过去需要几年才能实现。这个例子一开,如果你想证明自己在计算机视觉领域的实力,参加ImageNet比赛几乎是必须的。
2014年9月,商汤科技联合创始人秋石博士等人首次进入ImageNet大赛,在大型物体检测比赛中以40.7%的成绩获得世界亚军,仅次于Google的43.9%。
2015年ImageNet大赛增加了一个视频对象检测的任务。视频是一种连续的图像,比静态图像中的目标检测更加复杂,具有更高的商业价值。比如,一旦识别出视频中的所有物体,品牌就可以按物体进行搜索,进行有针对性的品牌植入。
在本次新任务的比赛中,活动主办方选取了30类物体,由商汤科技联合举办。香港由中文大学多媒体实验室组成的团队在28个类别中准确率最高,仅获得两个第二名。商汤科技整体准确率为62%,远高于第二名的51%。最终,商汤科技以11%的压倒性优势领先,夺得冠军。
根据徐莉的解释,ImageNet竞争的结果取决于三个要素:
首先也是最重要的,核心是“造脑”能力。大脑聪明与否决定了最终的手术结果。脑补能力也是评价一个家庭的。公司人工智能的核心技术有没有关键?谷歌收购了Deep Mind团队,脸书招募了学术权威Yann LeCun等人,百度聘请了吴恩达担任首席科学家。本质上是请了“造脑之神”。只要人工网络的设计优越,就会在搜索等商业场景中带来巨大的商业利益,而商汤科技研究团队的高比例正是因为其将“造脑”列为重中之重。
其次是数据,数据量越大,计算结果越准确。因为ImageNet组织者也提供有限的训练数据集,所以这个条件对参赛者来说是平等的。
再次,超算能力是由大数据处理需求决定的。只有计算能力比别人快,才能测试更多的算法模型,选出最好的算法。商汤团队刚成立的时候,一开始没有GPU集群,验证一个结果往往要一个月。2014年5月,在吴恩达的主持下,百度搭建了当时世界上最快的超级计算平台MINWA,拥有144个GPU连接。但现在,商汤科技打造的深度学习超级计算平台DeepLink,拥有国内最大的200个GPU的连接。过去需要一个月的手术现在可以在5-6个小时内完成。
ImageNet大赛夺冠,证明了商汤科技在两大领域的实力。“第一,我们的大脑真的造得很好;二是超算平台能力强。”徐莉相当自豪。
掘金“人脸识别”
深度学习太抽象了。对于普通大众来说,商汤科技最容易理解的一个标签就是人脸识别技术。
2014年下半年,投资机构IDG主动上门游说。香港徐莉等人是当时中文大学多媒体实验室的骨干,在业界颇有经验。他们为什么放弃学术追求去创业?
“学术上转换成工业应用本身就是一种责任。徐莉解释说,香港警察曾经向他们的队伍求助:一些高速行驶的逃逸车辆,监控视频太模糊了。希望他们能恢复出逃车辆的信息。香港警察愿意为这项服务付费。这种做法给了团队很大的成就感。事实上,计算机视觉领域的“四大天王”中有三位(上文提到的杰弗里·辛顿(Geoffrey Hinton)、扬·勒昆(Yann LeCun)、约舒阿·本吉奥(Yoshua Bengio)和吴恩达)已经投身于该行业。
2014年10月,商汤科技团队正式成立。创业之初,团队的主要工作是将学术成果转化为商业解决方案。2015年上半年忙于深耕产品,随着人脸识别和图像处理需求的日益增长,2015年6月,公司业务开始爆发,商汤科技的业务团队一开始只有四五个人。公司(在/在/超过/忙于)忙碌接待被询问客户直到2015年底才开始有针对性的发展行业客户。现在的业务团队负责人此前担任IBM Watson Health大中华区业务总监。
因为商汤科技主营B2B业务,所以大多隐藏在幕后,一直不为人知。事实上,它的服务客户早已达到1亿的规模。
小米是其合作伙伴之一。2015年8月,小米推出操作系统MIUI7,其中发布的宝贝相册是商汤科技联合打造的新卖点。小米云服务负责人范迪安告诉21CBR记者,婴儿相册使用的人脸识别技术主要在于三个核心算法:一是检测照片库中的同一张脸,二是识别这张脸的特征,三是对同一张脸进行聚类。
“在这个过程中,我们必须保证用户的隐私,绝不泄露任何数据。这是相当大的工作量。虽然我们开发了自己的算法,但是我们希望把产品做到一流,所以全方位评估了10多家公司。公司最后我决定把‘人脸识别’,也就是数据特征交给商汤。”范迪安说道。
在线金融搜索服务平台“融360”CEO叶大清也对《21CBR》记者表示,人脸识别技术发展至今,系统识别的准确率已经超过人眼。换句话说,技术比人类的识别更好。在叶大清看来,这正是金融行业所需要的——人工智能在金融行业的应用,可以进行反欺诈,识别骗子,提高效率,降低风险。
因此,2015年5月,融360联合商汤科技推出了一款名为“天机”的风控系统,从用户身份认证、还款意愿、还款能力三个维度进行信用评分,然后根据评分进行放款。机构提出借贷建议。据说分数够的用户可以申请5万元以下的小额贷款,10分钟即可完成审批,最快当天放款。
同时,叶大清认为,新技术是普惠金融发展的重要驱动力。“我们总说普惠金融为更多的人提供金融服务,这是普世的;但是价格掉下来就是‘惠’。毫无疑问,长期使用技术可以降低贷款利率。从这个角度来说,人脸识别技术和大数据风控技术可能会降低融资成本,提高融资效率,促进普惠金融的发展,帮助更多需要金融服务的人。"
在徐莉看来,深度学习近年来变得流行,因为它为行业提供了新的解决方案。“现在深度学习这么强大,一套解决方案可以适应各种行业。这是一把万能钥匙。”
据徐莉介绍,现阶段,商汤科技主要布局以下几个领域:
第一大领域是移动互联网,客户有小米、华为Mate 8发布的智能人脸相册、美图等。公司人脸检测器,人像美颜等。Faceu,Snow等。曾经刷爆朋友圈的,也用了商汤科技的算法。这些产品的应用,每一个都涉及数千万客户。
值得一提的是,商汤科技还与中国移动在线。公司缔结战略合作关系,后者实施的3亿用户实名登记制度计划,依托的是商汤科技在OCR人脸识别领域的技术。
2015年,中国移动全面实行实名认证,主要通过身份证光学字符识别(OCR)和人脸识别两项技术实现。在去年中国移动的两次公开招标中,商汤科技最终在数十家公司中投标。公司赢了。
“在投标过程中,商汤科技提供的技术模块有三个特点:算法识别准确率最高;可以满足客户在不同场景下的图像识别;在最短的时间内,利用数据对实际场景进行人脸识别训练。”中国移动在线公司实名登记系统认证负责人王强新告诉21CBR记者。
王强新表示,通过人工智能技术完成身份验证和实名认证,不仅降低了身份欺诈和防盗的概率,解决了安全问题,还因为系统自动办理业务,给客户带来了极大的便利。王强新透露,在与商汤科技的后续合作中,计划将刷脸识别技术全面应用于10086视频客服等其他数字化服务领域,为客户提供更加便捷、安全的服务体验。
以及包括视频和静止图像的安全。监控是商汤科技的第二大领域。2015年,商汤科技与安全公司东方网力联合成立。公司,带视频监控系统、安全软件、大数据为基础,共同构建智能交通管理系统。
东方网力总经理赵永军表示:“视频技术作为视频的延伸,已经在一个安全的城市运行了很多年。再加上互联网技术的发展,视觉感知正在发生质的变化,在技术和商业模式的探索中会出现新的形式。”
的确,人工智能也为视频行业提供了新的模式和解决方案。今年年初,当网络红人Papi酱火遍网络的时候,再次推动了视频行业的发展。视频行业新贵小卡秀事业部总经理杨旭告诉21st 21CBR记者,经过多次评估和测试,小卡秀选择携手商汤科技,探索如何结合人工智能,打造一款全新的视频游戏。
商汤科技布局的第三大领域是互联网金融,合作伙伴包括银联、京东金融、招商银行等。,涉及实景测试、身份证、OCR等业务。
除了前面提到的融360,另一家合作伙伴借贷宝也采用了商汤科技的算法。借贷宝副总裁翁小七透露,其人像认证系统采用商汤科技的平台,用户无需输入银行卡密码即可进行身份认证。“在APP中采集一张用户的人像照片,与公安部提供的身份证照片进行比对,我们每天有几十万人通过这种活体人像认证,这是目前国内最大的人像认证技术实践。”
事实上,商汤的技术一度被业界怀疑。“有同行误以为我们在后台雇佣了大量人员进行人工筛选。事实上,这完全是大数据处理的结果。我们的技术储备超出了很多同行的想象。”徐莉解释说,在国内人脸识别或图像处理等垂直应用市场,商汤科技当然有竞争对手,但同行大多是基于现有算法从事应用场景的研究。“我们还没有看到像我们这样专注于核心造脑和超算能力的布局。严格来说,很多同行其实都是我们的下游,彼此之间应该有更多的合作。”
商汤科技的团队希望目标像谷歌、脸书一样从事深度学习研究。公司徐莉说:“谷歌和脸书现在都不提供企业级服务,这对我们来说是一个巨大的机会。”