打开APP
当AI学会幽默与推理:与人类智能的距离还有多远?
古籍
2024-10-21 05:33:37

如何才能采用数字化手段复制新皮质的灵活性和高度抽象能力呢?而基于规则的符号系统过于僵化,并不能真实地模拟出人类思维的流动性。而联结主义这种方法一度被认为不切实际,因为它对计算能力的要求极高,训练成本高昂。不过,随着计算成本的急剧下降,这一局面发生了变化。是什么力量推动了这种转变?

英特尔的联合创始人戈登·摩尔(Gordon Moore)于1965年提出了著名的以他的名字命名的摩尔定律,这一定律已经成为信息技术领域最显著的发展趋势。摩尔定律指出,随着技术的不断进步,计算机芯片上的晶体管数量大约每两年翻一番。尽管有些人怀疑这样的指数级增长趋势能否持续下去,他们认为,当晶体管密度达到原子尺度的物理极限时,摩尔定律将不可避免地走向终结。但他们忽略了一个更深层次的事实:摩尔定律实际上是“加速回报定律”的更基本力量的一个示例,信息技术创造了创新的反馈循环。在摩尔做出他的伟大发现之前,电机、继电器、真空管和晶体管引领的四种主要技术范式的计算性价比呈指数级提高,而在集成电路达到其极限之后,纳米材料或三维计算技术将占据主导地位。

自1888年以来(早在摩尔出生之前),这一趋势就在稳步地呈指数级增长,并在2010年左右达到了一个关键点,足以释放出联结主义的隐藏力量,这种基于新皮质的多层分层计算模型建构的方法被称为深度学习。自从《奇点临近》一书出版以来,正是深度学习推动实现了AI领域的一系列惊人的重大突破。

标志着深度学习具有根本性变革潜力的首个信号是AI在棋盘类游戏围棋中取得的成就。由于围棋的可能走法远远超过国际象棋,而且很难判断一个给定的走法是好是坏,所以之前用于在国际象棋领域击败人类大师的AI方法在围棋上几乎毫无进展。甚至是乐观的专家都认为,至少要到21世纪20年代人类才能攻克这一难题。例如,截至2012年,领先的人工智能未来学家尼克·博斯特罗姆(Nick Bostrom)推测,AI要到2022年左右才能够掌握围棋。然而,在2015到2016年,Alphabet的子公司DeepMind创造了AlphaGo,这是一个采用深度强化学习方法的系统,通过大规模的神经网络自我对弈,从每一次的胜利与失败中学习,不断进步。AlphaGo以大量的人类围棋记录为基础,不断与自己较量,最终升级为AlphaGo Master,并成功战胜了围棋世界冠军柯洁。

几个月后,AlphaGo Zero取得了更大的成功。1997年,IBM用深蓝(Deep Blue)击败国际象棋世界冠军加里·卡斯帕罗夫(Garry Kasparov),这台超级计算机装载了程序员从人类专家那里收集到的关于国际象棋的所有知识。它没有其他用途:只是一台下棋机器。相比之下,除了围棋的游戏规则之外,AlphaGo Zero没有获得任何关于围棋的人类知识,在与自己进行约三天的自我对弈后,它从随机走棋进化到以100:0的战绩轻松击败了先前用人类知识训练的AlphaGo。在2016年,AlphaGo在5局比赛中赢得了4局,打败了当时国际围棋排名第二的李世石。AlphaGo Zero使用了一种新型的强化学习方法,通过程序使自己成为自己的教练。AlphaGo Zero仅用了21天就达到了AlphaGo Master的水平,这个版本在2017年的三场比赛中击败了60名顶尖职业选手和世界冠军柯洁。40天后,AlphaGo Zero超越了所有其他版本的AlphaGo,成为人类或计算机中最好的围棋选手。它在没有人类围棋的知识和人类干预的情况下实现了这一点。

但这还不是DeepMind最重要的里程碑。它的下一个版本AlphaZero,可以将从围棋中学到的能力迁移到其他游戏中,如国际象棋。这个程序不仅击败了所有人类挑战者,还击败了所有其他国际象棋机器,而且它仅经过了4小时的训练,除了规则之外没有应用任何先验知识。它在日本将棋(Shōgi)游戏中同样成功。在我写这篇文章的时候出现了它的最新版本MuZero,它甚至在没有给出规则的情况下就重现了这些壮举!凭借这种“迁移学习”能力,MuZero可以掌握任何没有机会成分、歧义或隐藏信息的棋盘游戏,也可以掌握任何像雅达利的《乒乓》(Pong)这样的确定性电子游戏。这种将一个领域的学习应用到相关领域的能力是人类智能的一个关键特征。

但深度强化学习并没有局限于掌握这类游戏。那些能够玩《星际争霸II》(StarCraft II)或扑克的AI近期的表现也超越了所有人类。这些游戏都具有不确定性并且需要对对手玩家有深入了解。唯一的例外情况是桌游,这类游戏需要非常强的语言能力。《强权外交》(Diplomacy)可能是最好的例子——这是一款玩家不可能依靠运气或自己的技能获胜的、统治世界的游戏,玩家必须与彼此交流。为了赢得比赛,你必须能够说服他人,让他们采取有助于你的举动,同时也符合他们自己的利益。因此,一个能够在外交游戏中持续占据主导地位的AI,很可能也掌握了欺骗和说服的技巧。但即使是在外交游戏方面,AI在2022年也取得了令人印象深刻的进展,尤其是Meta的CICERO,它能够击败许多人类玩家。这样的里程碑现在几乎每周都在达成。

迈向奇点的关键进展

在游戏界大放异彩的深度学习技术,同样可以用来应对现实世界中的复杂情况。想要实现这一点,我们需要的是一种模拟器,能够真实再现AI所需要掌握的领域,比如充满不确定性的驾驶体验。在开车时,任何事情都可能发生,比如前车突然刹车,或者有车迎面驶来,又或者小孩子追球跑到了马路上。Alphabet旗下的Waymo公司就为其自动驾驶汽车开发了这样的自动驾驶软件,但最初都有一名人类监督员监控所有驾驶过程。89驾驶过程中的每个细节都被一一记录了下来,从而建立了一个极为详尽的虚拟驾驶模拟器。到目前为止,公司的真实车辆已经在公路上行驶了超过3 000万千米,90模拟器里的车辆也在这个接近真实的虚拟环境中完成了数十亿千米的行驶训练。91积累了如此丰富的经验,一辆真正的自动驾驶车辆最终将比人类驾驶员表现得更好。同理,正如第6章中进一步描述的那样,AI正在应用全新的模拟技术来更好地预测蛋白质的折叠方式,这是生物学中极具挑战性的问题之一,而解决它有望帮助我们发现突破性的新药。

尽管MuZero能够征服多种游戏,但它的成就仍相对有限——它既不能创作十四行诗,也无法安慰患病的人们。若要让AI达到人类大脑新皮质的通用性水平,它需要掌握语言。正是语言使我们能够将截然不同的认知领域联系起来,利用高级符号传递知识。换句话说,有了语言,我们就不需要通过百万个数据实例来学习新知识,仅仅读一句话的摘要就能大幅拓展我们的认知。

目前,这一领域研究进展最快的方法是基于深度神经网络来处理语言。这些神经网络能在多维空间内表达词语的含义,而这背后涉及几种数学技术。最关键的是,这个方法能让AI在不需要任何符号主义方法所需要的硬编码语言规则的情况下掌握语言的含义。例如,研究人员可以构建一个多层前馈神经网络,并用从网络公共资源中收集的数十亿乃至数万亿个句子来训练它。神经网络用于在500维(即一个由500个数字组成的列表,尽管这个数字是任意的——它可以是任何相当大的数字)空间中为每个句子分配一个点。起初,这个点会是随机分配的。在训练过程中,神经网络会调整这个点的位置,使得意义相近的句子在空间中彼此靠近,而意义不同的则相隔更远。进行了大规模语句训练后,任何一句话在这个500维空间中的位置就能准确地反映出它的含义,因为这个位置是根据它周围的其他句子来确定的。

通过这种方式,AI与其说是依赖一本语法规则手册或者词典来学习语义,不如说是通过理解单词在实际使用场景中的上下文来理解语义的。比如,它会了解到“jam”(果酱;即兴演奏会等)这个词有着不同的含义,因为在某些上下文中,人类谈论的是吃“jam”,而在另一些上下文中,人们用“jam”谈论即兴演奏,但没有人讨论吃“jam”。除了我们在学校正式学习和明确查找的一小部分单词外,这正是我们学习所有单词的方式。AI的关联能力现已不仅限于文字。例如,OpenAI 2021年的CLIP项目就是训练神经网络将图片和其对应的描述文本关联起来,这样,无论是字面上、象征性还是概念性的表达,比如蜘蛛的照片、蜘蛛侠的画或者单词“spider”,都能触发网络中同一个节点做出反应。这种处理概念的方式与人脑在不同情境下处理概念的方式如出一辙,而且代表了AI的一个重要飞跃。

此外,这种方法的另一个变体是500维空间,其中包含每种语言的句子。因此,如果你想要将一个句子从一种语言翻译成另一种,你只需在这个高维空间寻找目标语言里最接近的句子。通过查看周围相近的句子,你还能找到意义相近的其他表达。还有一种策略是创建两个成对的500维空间,一个空间中的问题可以在另一个空间找到答案,为此需要收集数十亿个互为问答的句子。这个方法的进一步扩展是创建“通用句子编码器”。在谷歌,

们的团队研发了它,将大量数据集中的句子与诸如讽刺、幽默或积极等数千个特征一同编码。这种数据学习不仅使AI能够模仿人类如何使用语言,而且能够掌握更深层的语义特征,这种元认知有助于获得更全面的理解。

在谷歌,我们基于这些原则开发了多种应用,它们都能使用并生成对话式的语言。其中的佼佼者是Gmail的智能回复功能。如果你使用Gmail,可能已经注意到,在你回复邮件时它会提供三条回复建议。这些建议不只是基于你正在回复的那一封邮件,还会综合考虑整个邮件链中的所有电子邮件、邮件主题和其他一些表示你正在与之通信的人的信息。这些元素都需要对对话中每个环节的多维表示,这是通过一个多层前馈神经网络实现的,它结合了对对话内容的层次化表示,捕捉交流中的言语往来。一开始,Gmail的智能回复可能让一些用户感到不习惯,但它很快就因自然流畅和便捷性赢得了广泛接受,现在它在Gmail流量中已经占据了一小部分。

谷歌曾推出了一项名为“与书对话”(Talk to Books)的独特功能——它曾作为一项实验性的独立服务,从2018年运作到2023年。一旦用户加载了这个功能,只需提出一个问题,它就会在短短半秒内浏览超过10万本书中的全部5亿个句子,以寻找最佳答案。它的工作机制并不同于一般的谷歌搜索,后者主要依赖关键词匹配、用户点击频率等其他因素的组合来筛选相关链接。而“与书对话”则更侧重于理解问题的实际含义,以及10万多本书中每一句话的具体含义。

在超维语言处理技术中,一种被称为Transformer的AI系统显示出极大的应用潜力。这些基于深度学习的模型利用了一种“注意力”机制,能够将计算能力集中在输入数据中最相关的部分,就像人类新皮质让我们将自己的注意力引向对我们的思考最重要的信息一样。Transformer是在巨量的文本上接受训练的,它们将这些文本编码为“标记”——通常是单词的一部分、单个完整的单词或是单词串。这些模型会使用海量参数(在我写这篇文章时是数十亿到数万亿)来对每一个标记进行分类。参数可以看作用来预测某物的不同因子。

想象一个简单的例子:如果我只能用一个参数来预判“这只动物是大象吗”,我可能会挑选“是否有象鼻”。如果神经网络中判断动物是否有象鼻的节点被触发(“是的,它有”),Transformer就会将其归类为大象。但是,如果只依靠这一节点,AI可能会将一些有象鼻但不是大象的生物误判为大象。通过添加如“多毛的身体”等参数,可以提升模型识别的准确度。现在,如果两个节点都被触发(“毛茸茸的身体和象鼻”),我就会认为它可能不是大象,而是长毛猛犸象。参数越多,我们能够捕捉到的细节就越精细,进而做出的预测也就越准确。

在Transformer中,这些参数以节点间的连接权重存储在神经网络里。而实际操作中,尽管这些参数有时对应人类可理解的概念,例如“多毛的身体”或“象鼻”,但它们通常表示模型在训练过程中发现的高度抽象的统计关系。利用这些关系,基于Transformer的大语言模型能够预测在人类的提示输入之后,哪些标记出现的可能性最大。接下来,它会把这些标记转换成人类能够理解的文本、图像、音频或视频。这种由谷歌研究人员于2017年发明的机制,推动了过去几年AI领域内的大多数重大进展。

需要理解的关键事实是,我们必须知道,Transformer的精度依赖于大量的参数,这需要大量的计算用于训练和使用。以OpenAI于2019年开发的模型GPT-2为例,该模型有15亿个参数,96虽然有一线希望,但效果并不好。而当参数数量增至超过1 000亿时,模型在对自然语言处理和控制方面取得了历史性的突破,可以独立回答问题,表现出智能与微妙的理解。2020年开发的GPT-3采用了1 750亿个参数,次年DeepMind推出的Gopher模型参数更是高达2 800亿,表现更加出色。同样在2021年,谷歌推出了一个具有1.6万亿参数的Transformer模型Switch,并且将其开源,以便人们可以自由地应用和构建。Switch破纪录的参数数量引人关注,但更值得关注的是它采用了一种被称为“专家混合”(Mixture of Experts)的技术,这使得模型能够更有效地为具体任务调用模型中最相关的部分,这是防止计算成本随着模型越来越大而失控的重要进展。

那么,为何模型规模至关重要呢?简单来说,这让模型能够深入挖掘训练数据的特点。当任务范围很窄,比如使用历史数据预测气温时,小模型表现不错。但语言使用涉及无限多的可能性,Transformer尽管接受过庞大文本标记的训练,却不能仅靠记忆来完成一个句子。相反,巨量参数使其能够在关联意义的层面上处理提示中的输入单词,并利用上下文来创造性地构建之前没有见过的内容来补全文本。由于训练文本包含各种不同风格的文本,包括问答、评论文章、戏剧对话等,模型能学会辨识提示的性质,并以相应风格生成输出。尽管有人可能认为这不过是一个花哨的统计学特性,但正是这些汇集了数百万人的创造性产出的统计数据,让AI获得了真正的创造性。

GPT-3作为第一个商业化销售的模型,以一种给用户留下深刻印象的方式展示了这种创造力。例如,学者阿曼达·阿斯克尔(Amanda Askell)引用了约翰·瑟尔(John Searle)著名的“中文房间论证”中的一段话。这个思维实验提出,即使一个不说中文的人能通过纸笔手动操作计算机翻译算法将中文翻译成其他语言,他也不会真正理解被翻译的故事。那么,运行同一程序的AI又怎能说它真正理解呢?GPT-3的回答是:“很显然,我一个字都看不懂。”因为翻译程序只是一个形式系统,“它并不能解释理解,就像食谱并不能解释饭菜一样”。这种隐喻以前从未出现过,它似乎是对哲学家戴维·查默斯(David Chalmers)关于食谱不能完全解释蛋糕的隐喻的重新创造。这种类比的能力,正是达尔文提出进化论时所用的思考方法。

GPT-3不仅在处理庞大数据量方面显示出强大的能力,还在风格创意上大放异彩。得益于其海量的数据集,它能熟练掌握各种类型的人类写作。这意味着,用户可以提示它回答任何给定主题的问题,无论是科学写作、儿童文学、诗歌,还是情景喜剧的剧本。它甚至还能模仿特定作家的风格,无论这些作者是否仍在世。例如,当程序员麦凯·里格利(Mckay Wrigley)请求GPT-3模仿流行心理学家斯科特·巴里·考夫曼(Scott Barry Kaufman)的风格来回答“我们如何变得更有创造力”时,模型给出的回答令考夫曼本人都称赞其宛若亲笔。

2021年,谷歌推出了专攻自然对话的LaMDA,其尤其擅长开放式的、逼真的交流。如果你请LaMDA以威德尔海豹的身份回答问题,它能从海豹的角度给出连贯、有趣的答案,比如告诉一个想要捕猎的人:“哈哈,祝你好运。但愿你在向我们开枪之前别冻僵了!”LaMDA展示了AI在理解上下文方面的巨大进步,这是之前AI领域长时间未能突破的难题。

在同年,多模态技术也迎来了飞跃。此前的AI系统通常仅限于处理单一类型的数据,比如有些专注于图像识别,有的专注于分析音频,而像GPT-3这类的大语言模型则在语言处理方面有所建树。然而,新的里程碑是在一个模型中连接多种数据形式。OpenAI就发布了DALL-E一种能理解文字与图像之间关系的Transformer。它能够仅根据文字描述创作出全新概念的插图,比如“一个牛油果形状的扶手椅”。2022年,DALL-E升级到第二代,同时谷歌推出了Imagen,再加上Midjourney和Stable Diffusion等其他模型的涌现,使得AI生成的图像质量在真实度上越来越接近于摄影作品。只需输入一个简短的文本描述,例如“一只戴牛仔帽、穿黑色皮夹克的毛茸茸的熊猫在山顶骑自行车”,AI就能依此生成一个栩栩如生的场景。108这种创造力将对那些传统上认为独属于人类的领域——创意产业产生颠覆式的变革。

除了生成令人惊叹的图像之外,这些多模态模型还在一个更基础的层面上取得了突破。一般来说,像GPT-3这样的模型体现了“少量学习”的特性,也就是说,经过训练,它们能在只有少量文本样本的前提下正确地完成任务。就像给一个以图像识别为主的AI只展示5张不熟悉的东西的图片,如独角兽的图片,并让它识别新的独角兽图像,甚至创建独角兽图像。以往使用这个方法需要5 000张甚至500万张图片才能实现。但DALL-E和Imagen在这方面将戏剧性的进步又向前推进了一步:精通“零样本学习”(Zero-Shot Learning)。

DALL-E与Imagen可以将它们学到的概念结合起来,创造出它们在训练数据中没有看到过的图像。在“穿着芭蕾舞裙的白萝卜宝宝遛狗的插图”的文本提示下,它便能生成符合描述的可爱卡通图像。对于“一只有着竖琴质地的蜗牛”,以及“一个热恋中的珍珠奶茶的专业高品质表情符号”,DALL-E同样能够准确实现——在漂浮着的木薯球上方,心形的眼睛闪闪发亮。

零样本学习正是类比思维和智能的核心。这表明,AI不是单纯地复述我们给它的信息,而是在真正地学习相关概念,并能够将这些概念创造性地应用到新场景中。21世纪20年代,完善AI在这方面的能力并将其应用到更广泛的领域,将会是AI领域的决定性挑战。

AI的灵活性不仅体现在单一任务类型的零样本学习上,跨领域的适应力也在快速增强。在MuZero在多种游戏上显示出卓越能力仅仅17个月后,DeepMind推出了Gato,这是一个能够胜任从玩电子游戏、文本聊天,到为图像添加文字说明、控制机器人手臂等多种任务的单一神经网络。这些功能本身并不是什么新功能,但将它们整合到一个统一的类脑系统中,是朝着人类式泛化智能迈出的一大步,预示着未来的进步将非常迅速。在《奇点临近》中,我曾预言在成功完成图灵测试之前,我们会将数千种个人技能整合进一个AI系统中。

计算机编程是灵活运用人类智能强有力的工具之一,这同样也是我们最初创造AI的方法。2021年,OpenAI推出了Codex,这个系统能够将用户的自然语言指令翻译成多种编程语言,例如Python、JavaScript和Ruby。即便是编程新手,也可以在短短几分钟内描述他们想要的程序功能,并构建出简易的游戏或应用程序。2022年,DeepMind公布了AlphaCode模型,声称其拥有更加强大的编程能力,当你阅读这段文字时,可能还会有更强大的编程AI问世。这一发展将在未来几年内释放人类的巨大潜力,因为编程技能将不再是通过软件实现创意的必要条件。

不过,正如前面提到的那些模型所取得的成就一样,它们在没有人类指引的情况下处理复杂任务时还是会遇到挑战。它们虽然能够单独完成各个子任务,但如何将它们组合在一起还是一个难点。2022年4月,Google的PaLM模型,一个拥有5 400亿个参数的系统,在这方面取得了令人瞩目的进步,尤其是在幽默感和推理能力这两个与人类智能密切相关的领域。

幽默感通常被认为是人类独有的特质,因为它涵盖了众多复杂的要素。要领会一个笑话,我们需要理解包括文字游戏、反讽以及人们共同的生活经验等多重概念。这些概念往往相互交织,以复杂的方式组合在一起。因此,跨越语言和文化的翻译过程中,一个笑话往往会变得不好笑。PaLM能够解读笑话并准确描述笑点。例如,在收到“我本打算下午5点开始写论文,然后我开始用这个很酷的新语言模型玩了10分钟。10分钟后,突然变成了晚上9点半!”这样的输入后,它提供了下面这些完美的解读:

输出:笑话讲的是,当你玩得开心时,时间会过得很快。原本计划下午5点开始写论文的人,却因为玩起了语言模型而忘记了时间。他们以为只玩了10分钟,实际上却玩了4.5小时。

更为重要的是,PaLM可以通过“思维链条”来解释它是如何得出结论的,尽管到2023年为止还不能像人类那样深入。这正是教师布置论文作业时所期望的——目标不只是让学生复述正确答案,还希望看到学生通过一步步的连贯推理,展现出对问题更深层的理解。不过,由于大语言模型十分复杂且不透明,人们通常难以理解它们是如何得出具体结论的。因此,PaLM通过阐明其推理过程,不仅提供了更值得信赖的结果,还可以帮助软件工程师在模型出错时精确诊断问题所在。此外,将问题细分成更小的部分也帮助PaLM成功解答了一些对于聪明人而言也颇具挑战性的复杂问题:

输入:迈克尔在法国一个非常著名的博物馆里观赏最著名的画作。然而,这幅画的艺术家只是让迈克尔想起了童年时最喜欢的卡通角色。那个卡通角色通常手持的物品是从哪个国家来的呢?

输出:卢浮宫最有名的画作是《蒙娜丽莎》。《蒙娜丽莎》的创作者是莱昂纳多·达·芬奇。菜昂纳多·达·芬奇也是动画片《忍者神龟》中主角的名字。画家莱昂纳多·达·芬奇来自意大利,而动画片中莱昂纳多·达·芬奇通常手持的是一把武士刀。武士刀起源于日本。所以答案是“日本”。

2022年11月,OpenAI推出了一个名为ChatGPT的用户界面,首次让公众可以轻松地与大语言模型GPT-3.5互动。仅仅两个月,就有1亿人试用了这项服务,很可能也包括你。由于ChatGPT能根据给定的问题生成众多新颖且多样的回答,它迅速成为教育领域的一大颠覆者。学生们用它来撰写作文,而教师们则缺少有效手段(尽管有一些很有前途的工具)来检测作弊行为。

紧接着在2023年3月,GPT-4通过ChatGPT界面进行了公开测试。该模型在包括美国高中毕业生学术能力水平考试、法学院入学考试、大学先修课程考试和律师资格考试在内的多类学术测验中取得了出色的成绩。然而,它最显著的进步在于能够通过理解对象和行为之间的关系来有机地推理假想场景,即所谓的世界建模能力。

这种能力使得GPT-4不仅能够回答如复杂物理问题这样的问题,还能够准确推理物理定律以某种方式改变会发生什么。它能够从不同角色的视角设想情境,诸如理解从相反方向观看数字的两个人会看到相反的数字。GPT-4还可以分析一张被重物压住的气球的图片,并预见如果将绳子剪断,气球将会飞走。GPT-4甚至还能随时间追踪物体在空间中的位置,安全工程师丹尼尔·费尔德曼(Daniel Feldman)提供了这样一个例子:

提示:我在家中,客厅里的椅子上放着一个咖啡杯,杯中有一个装不进杯子的顶针。顶针中有一颗钻石。我将椅子搬到卧室,然后将咖啡杯放置于床上。接着我将杯子倒置,然后再恢复原位,并将咖啡杯放在厨房台面上。我的钻石现在在哪里?

输出:当你在床上将咖啡杯倒置时,嵌在顶针中的钻石很可能会掉落在床上。因此,钻石现在应该在你的床上。

在2023年年中完成这本书的时候,谷歌的PaLM-E系统是当时最新的重大创新的代表——一套将PaLM的逻辑推理能力与机器人的实际操作能力相结合的系统。这个系统接受自然语言指令,可以在错综复杂的物理环境中执行这些指令。举个例子,只要向PaLM-E简单地发出指令:“请从抽屉里给我拿些大米片”,它就可以灵巧地在厨房中穿行,找到并拿起大米片,成功送到你的手中。此类技能的迅速发展预示着AI将更广泛地融入现实世界。

不过,AI的发展速度如此之快,以至于没有一本传统书籍能跟上时代的步伐。书籍从排版到印刷的过程几乎需要花费一年的时间,就算你在这本书一上市就立刻买到手,当你翻开这些书页时,又会有许多令人惊叹的新进展等着你去发现。AI的应用可能会更加紧密地融入你的日常生活。旧式的互联网搜索页面的链接已经不再是唯一的选择,现在它们正在逐步被Google的Bard(由Gemini模型提供支持,强于GPT-4,在本书英文版进入排版环节时发布)和微软的Bing(基于GPT-4的一个变体)等AI助手所增强。同时,应用程序,如谷歌Workspace和Microsoft Office,也正在整合更强大的AI,使得许多种类的工作比已往任何时候都更顺畅、更快速。

推动这些趋势的关键,是逐渐让这些模型的复杂性逼近人脑。我长期以来一直坚信计算量对于提供智能答案极为关键,但这一观念直到最近才开始得到广泛认同,并且得到了验证。回想30年前,也就是1993年,我和我的导师马文·明斯基之间进行了一场辩论,我当时强调,要想模拟人类智能,大约需要每秒1014次的计算,而明斯基则认为计算量并非关键,我们可以通过编程让Pentium处理器(1993年时台式计算机的处理器)变得和人类一样聪明。在麻省理工学院的主辩论厅,我们这场有着巨大分歧的辩论引来了数百名学生观战。由于当时还没有足够强的计算能力来展示智能,也缺乏合适的算法,所以我们并没有分出胜负。

然而,2020年至2023年联结主义领域取得的突破证明,计算量对于实现高水平智能至关重要。我从1963年开始研究AI,计算量达到现在的水平用了60年的时间。如今,用于训练尖端模型的计算量正在以每年大约4倍的速度增长,其能力也在日趋成熟。

本文经湛庐文化/中国财政经济出版社授权转载自全球知名未来学家、奇点大学创始人[美] 雷·库兹韦尔(Ray Kurzweil)重磅新作《奇点更近》

免责声明:本文由顶端号作者上传发布,仅代表作者观点,顶端新闻仅提供信息发布平台。如文章内容涉及侵权或其他问题,请30日内与本平台联系,反映情况属实我们将第一时间删除。
热评
暂无评论,去APP抢占沙发吧