人工智能是当今时代的颂歌。这句话被技术专家、学者、记者、风险投资家反复使用。就像其他从技术领域传播到普通大众的表达方式一样,对于这个术语的使用存在着严重的误解。但这并不是大众不了解科学家处境的又一个案例,这里的科学家经常被大众搞糊涂。某种程度上,它见证了智能技术在硅谷冉冉时代的崛起,这种崛起取悦了所有人,让我们着迷,也以同样的方式恐吓着我们。不幸的是,它分散了我们的注意力。
有这样一种叙事方式来表达当下的时代。想象一个有人类、计算机、数据和生死抉择的故事,但故事的重点不是关于硅芯片的幻想而是别的。14年前,妻子怀孕时做了超声波检查。一位遗传学家指出了胎儿心脏周围的一些白斑。“这是唐氏综合征的标志,”她告诉我们。"这种疾病的风险已经上升到20分之一。"她还告诉了我们一些我们应该知道的事情。患有唐氏综合征的胎儿可以通过羊膜穿刺术进行基因改造。但羊膜穿刺术有风险,手术中杀死胎儿的概率约为1/300。作为一名统计学家,我决定找出这些数据的来源。长话短说,我发现在10年前的一项英国统计分析中,这些白点反映了钙的积累,它们确实是“预测者” 唐氏综合征的。但我也注意到,我们检查中使用的成像机器每平方英寸的像素比英国研究中的高数百个像素。我回去告诉遗传学家,白斑很可能是“假阳性”,但确切地说,应该是一种“白噪声”。她回答说,“啊,这解释了为什么从几年前开始,我们发现唐氏综合征的发病率呈上升趋势;新机时代已经到来。”
我们没有做羊水穿刺,几个月后一个健康的女孩来到了这个世界。但这件事一直困扰着我,尤其是我粗略统计后发现,一天之内有上千人被确诊为这种疾病,很多人选择了羊膜腔穿刺术,很多胎儿因为不必要的原因死亡。这件事反映的不是我个人的医疗,而是一个在某个时间地点考察变量,得出结果,进行统计分析,应用到其他时间地点的医疗系统问题。这个问题不仅仅是数据分析本身的问题,还关系到数据库研究者所说的“来源”。广义上包括数据从哪里来。从数据中得出什么推论?这些推论与当前形势有多大关联?受过训练的人可以根据具体情况回答所有上述问题, 但问题在于设计一个医疗系统,能够解决上述问题,并且在没有仔细的人类监督的情况下被广泛使用。
我也是一名计算机科学家,但我突然意识到,一个基于计算机科学和统计数据的融合,并考虑到人的因素的大规模推理和决策系统的原理问题就在我的脑海里。教育缺乏经验。这些不仅在医疗领域,而且在商业,运输和教育领域也需要的原理的发展,应该至少和让我们眼花缭乱的人工智能系统一样重要。
无论我们是否能很快理解“智能”的问题,我们在为了拓宽人类生活而将计算机与人类结合的道路上确实遇到了麻烦。虽然这个挑战被一些人视为“人工智能”的产物,但也应该简单地将其视为工程学的一个新分支。就像几十年前的土木工程和化学工程一样,这个新学科的目标是将一些关键的想法汇集在一起,以安全的方式为人类带来新的资源和能力。由于土木工程和化学工程是以物理和化学为基础的,所以这门新的工程学科将基于上世纪出现的信息、算法、数据、不确定性、计算、推理和优化等思想。此外,由于新学科所关注的数据是由人类产生并与之相关的, 它的发展需要社会科学和人文科学的支持。
当这个学科的建筑瓷砖已经出现的时候,能够把这些瓷砖粘合在一起的原理还没有出现,所以目前这些瓷砖是以一种特殊的方式结合在一起的。
因此,就像土木工程原理出现之前人类建造房屋和桥梁一样,内部广泛使用的基于机器、人类和环境的推理和决策系统也以某种方式促进了这一领域的发展。早期的建筑和桥梁有时会以不可预知的方式倒塌,造成悲惨的后果。同样,许多早期大规模投入使用的推理和决策系统也暴露出了严重的概念缺陷。
不幸的是,人类不太擅长预测下一个严重缺陷会是什么。目前,我们缺乏一门以分析和设计为原则的工程学科。
最近那些关于这个话题的对话,往往把“AI”当成一个智能通配符,让人很难推断出新兴技术的范围和后果。我们来看看历史上和最近“人工智能”都是用来指什么的。
现在大多数被称为“人工智能(AI)”的东西,在过去的几十年里都被称为“ML(机器学习)”,尤其是在公共领域。“机器学习”是一个融合了统计学、计算机科学等学科思想的算法领域。它被用来处理数据,进行预测和帮助决策。就机器学习对现实世界的影响而言,确实是有用的,而且这种影响不仅仅是在近期。事实上,当时的机器学习在90年代有着密切的工业关联性,在世纪之交,它像亚马逊一样有远见。公司已经在公司这项技术在商业中用于解决欺诈预防和物流链预测的关键后端问题,并为消费者建立创新服务,包括推荐系统。随着数据库和计算资源在未来20年的快速发展, 机器学习已经成为亚马逊和其他国家显而易见的方式。公司提供帮助,威尔公司决策依赖于大规模数据。一种新的商业模式在那时出现了。“数据科学”一词用来指一种现象,它反映了机器学习算法专家需要与数据库和分布式系统专家建立合作,以创建一个优秀的具有扩展性的机器学习系统,也反映了与这个系统相关的更大的语境和社会范围。
在过去的几年中,思想和技术融合的趋势被更名为“人工智能(AI)”。这种观念重塑行为值得我们认真研究。
回顾历史,“人工智能”一词出现在20世纪50年代末。它被用来指一个具有人类智能水平的软件和硬件实体的令人兴奋的愿望。我们将用“模仿人类的AI”来表达这种愿望,强调人工智能实体至少在精神上应该是人类的一员,如果不是身体上的,无论这意味着什么。在很大程度上,这是一项学术事业。虽然运筹学、统计学、模式识别、信息论、控制论等相关学术领域已经存在,并且往往受到人类智能(以及动物智能)的启发,但应该说这些领域大多集中在“低级”信号和决策事项上。比如,一只松鼠可以感知到它所生活的森林的三维结构,并在树枝间来回跳跃,这会给相关领域带来启发。“人工智能” 意味着关注不同的事物,它更关注人类对于“推理”和“思考”的“高级”和“认知”能力。然而,60年后,我们仍然很难在高级推理和思维上有所突破。现在所谓的“人工智能”的应用主要出现在与低级模式识别和运动控制相关的工程领域,以及专注于发现数据的现有模式并做出预测,然后监控假设和决策的统计领域。
事实上,著名的“反向传播”算法早在20世纪80年代初就被大卫·鲁梅尔哈特(David Rummelhardt)重新发现,并被公认为20世纪五六十年代控制论领域首次出现的“人工智能革命”的核心。这项技术早期的应用是为阿波罗飞船推向月球提供推力。
自20世纪60年代以来,技术有了很大的进步,但这种进步并不是建立在追求模仿人类人工智能的基础上。相反,就像阿波罗飞船的情况一样,这些想法隐藏在幕后,总是作为专注于解决具体工程挑战的研究人员取得突破的结果而出现。虽然公众一直对这些进步视而不见,但他们在文献搜索、文本分类、防欺诈检查、推荐系统、个性化搜索、社交网络分析、规划、诊断和A/B测试等领域的研究和系统建设都取得了巨大成功。这些进步是谷歌、网飞、脸书和亚马逊。公司为…的发展提供动力。
人们可以简单地将所有这些称为“人工智能”,这确实是实际发生的事情。这样的标签可能会让那些发现自己突然变成“人工智能研究者”的优化者或统计研究者大吃一惊。但除了研究者的标签问题,更严重的问题是,使用这种单一的、定义不清的简称,并不能让人对相关的智力和商业问题有清晰的认识。
在过去的二十年里,基于模仿人类人工智能的愿望,也就是通常所说的“IA(智能增强)”,技术一直在飞速发展。工业在学术领域取得了重大进展。这里的计算和数据被用来创造提高人类智力和创造力的服务。搜索引擎可以看作是智能增强的一个例子(它增强了人类的记忆能力和事实知识储备能力),也加强了自然语言的翻译(增强了人类的交流能力)。基于计算的声音和图像是艺术家的调色板,是创造力的增强剂。虽然这些服务可能涉及到高级的推理和思考,但主要是执行对人类有用的各种字符串匹配和数值运算。
希望读者能容忍最后一个缩略词的出现。让我们粗略地想象一个“智能基础设施(II)”学科,它是一个包含计算、数据并使人类环境更加支持、有趣和安全的网络。这样的基础设施出现在交通、医疗、商业、金融等领域,对个人和社会的影响都很大。这些技术有时会出现在关于“物联网”的对话中,但“物联网”通常是指将“物”放到互联网上,而不是指向与“物”相关的更大挑战。在这个更大的挑战中,基于“事物”的技术可以分析数据流,发现关于世界的事实,并与人类和其他“事物”进行交互,而不仅仅是简单的比特。
我们可以想象我们生活在一个基于数据流和数据分析流的“社会规模的医疗系统”中。医生和医疗设备被放置在人体内或人体周围,因此他们可以帮助诊断和提供护理。这个系统的信息集成了人体细胞、DNA、验血、环境、遗传学以及与之相关的大量信息。药物关于治疗的科学文献。它关注的不仅仅是一个医生和一个病人,而是所有人类之间的关系,就像现在的医学试验可以基于一组人体(或动物)实验而应用于其他人类一样。就像现在的银行系统专注于金融和支付领域一样,医疗系统专注于保持技术的相关性、来源性和可靠性。虽然人们可以预见到这个系统的很多问题,包括隐私、问题、安全,但这些问题也应该被视为挑战,而不是障碍。
那么,我们面临的一个关键问题是:通过研究人类人工智能的典型模仿来专注于更大的挑战,是最好的还是唯一的方法?一些最受欢迎的关于机器学习的成功故事实际上发生在模仿人类人工智能的领域,如计算机视觉、语音识别、游戏和机器人技术等领域。因此,也许我们应该等待这些领域的进一步进展。有两点需要说明。第一,虽然人们在报纸上看不到这一点,但模仿人类人工智能的成功其实是有限的,我们离实现这一抱负还很远。不幸的是,对在模仿人类人工智能方面取得的有限进展的兴奋和恐惧导致了其他任何工程领域的过度繁荣和媒体关注的曝光。
第二,更重要的是,这些领域的成功对于解决重要的智能增强和智能基础设施问题来说既不充分也不必要。从充分因素来说,想想自动驾驶汽车。要实现这项技术,需要解决一系列工程问题,而这些问题可能与人类拥有(或缺乏)的能力无关。整体交通系统(第二类)可能更接近于当前的空中交通管制系统,而不是那些不专心向前驾驶的人类驾驶员的集合。它将比现在的空管系统复杂得多,尤其是当大量数据和自适应系统建模被用来影响深入决策时。首先需要解决的就是这些挑战,专注于模仿人类人工智能会分散我们的注意力。
就必要性而言,有时人们认为模仿人类人工智能的愿望已经包括智能增强和智能基础设施。因为模仿人类的人工智能系统不仅可以解决人工智能面临的经典问题(如图灵测试所体现的),也是解决智能增强和智能基础设施相关问题的最佳选择。关于这个问题的辩论几乎没有任何历史先例。土木工程有没有因为期待一个人工木匠或者瓦工而有了很大的进步?化学工程是人工化学家陷害的吗?更有争议的是,如果我们的目标是建立一个化工厂,是否需要先创造一个人工化学家,然后再研究如何建立一个化工厂?
一个相关的论点是,人类的智能是我们已知的唯一一种智能,我们应该把模仿它作为前进道路上的第一步。但事实上,人类并不擅长某些推理,我们有着与生俱来的缺点、偏见和局限。更重要的是,我们还没有进化到实现智能基础设施必须面对的大规模决策局面,更不用说解决智能基础设施的不确定性问题了。有人可能会说,人工智能系统不仅会模仿人类的智能,还会“纠正”它,大规模处理问题。但我们现在已经到了科幻的程度,科幻前提下的自娱自乐不应该成为我们面对重要的智能增强和智能基础设施的主要策略。我们需要根据各自的优势来解决以上两个方面, 而不是把它们放在模仿人类人工智能的议程上。
不难发现,在智能基础设施体系中,与算法和基础设施相关的挑战并不是人工智能研究的中心主题。它需要管理在全球范围内快速变化和不一致发展的分布式知识库的能力。这样的系统必须具备云交互处理及时、分布式决策的能力,还必须处理一些长尾现象,即某些个体数据很多而大多数个体数据很少。还必须解决不同行政力量和商业竞争边界造成的数据共享困难。最重要的是,智能基础设施系统必须将激励和价格和计算相关的基础设施领域引入其他经济要素。这样,系统不仅可以提供服务, 而且可以用来创造市场。音乐、文学、新闻等领域迫切需要这样的市场出现,从而通过数据分析将生产者和消费者联系起来。这些变化也必须在道德、法律和社会不断发展的背景下进行。
当然,典型的模仿人类人工智能还是会引起极大的关注。然而,当前狭隘的人类技能,如数据收集和“深度学习”基础设施的部署,应转向更开放的主题。这些主题包括将意义和推理引入执行自然语言的处理系统,推断和显示因果关系的需要,开发计算能力的可追踪不确定性的需要,以及开发制定和追求长期目标的系统的需要。这些都是模仿人类人工智能的经典目标,但在当前关于“人工智能革命”的争论中,很容易忘记这些问题并没有得到解决。
智能增强仍然发挥着非常重要的作用,因为在可预见的未来,计算机在抽象现实世界方面无法与人类抗衡。我们需要那些有思想的人与计算机互动来解决最紧迫的问题。我们希望计算机能让人类的创造力发展到一个新的水平,而不是取代它。
约翰·麦卡锡(John mccarthy)显然创造了“人工智能”这一术语,以区别于诺伯特·维纳(norbert wiener)的萌芽研究。维纳创建了“控制论”来表达他对智能系统的看法,从而将运筹学、统计学、模式识别、信息论和控制论联系起来。麦卡锡则强调它与逻辑的联系。一个有趣的反转是,在麦卡锡建立的术语学旗帜下,维纳的理论议程在当今时代占据了主导地位。
但我们需要超越麦卡锡和韦纳所持有的特定历史观。
我们需要认识到,目前关于人工智能的公开对话集中在一个狭隘的行业圈和学术圈,这使得我们对人工智能、智能增强和智能基础设施所面临的挑战和机遇视而不见。
涉及的范围不是关于科幻梦或者超人类机器噩梦的实现,更多的是随着技术在日常生活中越来越明显和有影响力,人类理解和塑造技术的需求。要理解和塑造,需要倾听各行各业的声音,而不仅仅是专注于技术层面的对话。只专注于模仿人类的人工智能,可能会导致听到的声音范围有限。
尽管工业它将继续推动许多方面的发展,学术界将继续发挥重要作用,而不仅仅是提供一些最具创新性的技术概念。然而,我们也迫切需要计算和统计领域的研究人员与其他学科的研究人员一起做出贡献,特别是社会科学、认知科学和人文科学。
另一方面,人文和自然科学在我们前进的道路上是不可或缺的,我们不应该假装我们所谈论的已经超出了我们为一个前所未有的规模和范围的项目所做的努力。我们不想建立一个系统来帮助医疗、交通选择和商业机会,却发现它并不真正起作用,所犯的错误会以人类的生命和幸福为代价。正如我所强调的,在以数据为中心和以学习为中心的领域,还没有一门工程学科。有些领域虽然令人兴奋,但也不能算是工科。
此外,我们应该接受这样一个事实,我们正在目睹的是一个新的工程学分支的诞生。“工程”常被学术界或其他地方引用为狭义,有冷酷无情的机器含义,也有人类将失去控制的负面含义。但是我们需要一门工程学科。
在今天的时代,我们真的有机会构思一些新的东西,包括以人为中心的工程学科。
我拒绝给这个新兴学科命名,但是如果通过占位符命名继续使用“AI”这个缩写,那么我们就需要意识到这种方法的缺点。让我们开阔视野,放松宣传,认识到未来面临的严峻挑战。