跳转到主要内容

“大语言模型无法实现AGI的秘密,真相让人震惊!”

日期: 栏目:行业动态 浏览:

编辑 | LSLS

出品 | 本站

“大语言模型并不是通向人类水平智能的路径,真的不是。现在的问题是,它们几乎吸走了所有资源,留给其他方向的空间非常有限。”

在最新采访中,图灵奖得主、Meta前首席科学家、LLM的“悲观派”Yann LeCun再度敲钟,强调LLM的不断扩展并不能通向真正的AGI,并警告其吸走了不少研究资源!

在与谷歌DeepMind Gemini团队负责人 Adam Brown 的同台对话中,两人也有不少意见相左之处。

图片图片

Yann LeCun认为现在的LLM看似强大,但其训练环境远没有真实环境那么复杂、充满噪声,它并不真正理解底层现实,实际上还没有达到一只猫或狗的智能水平;相比之下,Adam Brown则更为乐观,他认为尽管人类可以用远少于模型训练的样本来学会某些技能,但对模型来说,其样本数量和训练时间不像人类那样受到限制,所以在不断扩展的情况下,语言模型能够取得远超人类的智能表现。

Yann LeCun指出,人们习惯了把“语言能力强”视为“聪明”的标志,但这是一种错觉。机器在某些任务上表现得很好,并不意味着它具备了人类拥有的底层智能。像收拾餐桌,把碗碟放进洗碗机这种任务,LLM永远也不可能实现。

言下之意是,构建世界模型才是实现AGI正道。

此外,他们还讨论了LLM是否能真正理解对话中的意图,未来是否会发展出“意识”。两人都认为AI未来可能会发展出意识,即某种“自我观测”和“自我调节”的能力,Yann进一步指出AI会发展出情绪和道德感。

至于AI的安全对齐问题,Yann认为:

LLM 是不可控的。它们之所以不危险,不是因为我们解决了安全问题,而是因为它们还不够聪明。

因此,他指出未来必须在系统中加入“护栏”,确保AI在护栏约束之下,只实现人类赋予的目标。此外,他还表示自己真正的担忧在于未来全球没有开源的 AI 系统。如果未来人们与数字世界的每一次互动,都将由 AI 系统来中介完成,而这些AI只掌握在少数几家大公司手里,那将是一件很可怕的事情。

最后,在Yann LeCun的展望中,他认为下一场AI革命在于机器能帮人们倒一杯水、洗碗,这将是真正值得震撼的时刻,也是一场“新的文艺复兴”。

小编整理了整期对话的实录,有部分删减,信息量极大,enjoy!

神经网络与深度学习的发展

主持人: Yann,我想先从神经网络谈起。你能否向我们解释一下,“机器在模拟人类神经网络”到底意味着什么?

Yann LeCun: 其实这并不是真正的“模仿”,更准确地说是“启发”。就像飞机受到鸟类的启发一样。

主持人: 我以为模仿鸟类造飞机这件事并不成功?

Yann LeCun: 从某种意义上说是成功的。飞机和鸟一样都有机翼,通过在空气中前进来产生升力,但类比也仅止于此。飞机的机翼比鸟的翅膀简单得多,但背后的物理原理是相同的。

神经网络也是类似的关系:真实大脑之于人工神经网络,大致就像鸟之于飞机。它们在很多方面被极度简化了,但可能共享某些底层原则。至于这些原则究竟是什么,我们其实并不知道,因为我们并不了解大脑皮层真正的“算法”,也不了解大脑是如何自组织并学习的。

所以我们发明了替代方案。就像鸟通过拍打翅膀飞行,而飞机使用螺旋桨或喷气发动机一样;在神经网络中,我们使用学习算法,让人工神经网络以一种我们认为“类似于大脑”的方式学习。

大脑是由神经元组成的网络,神经元彼此相连。大脑学习的方式,是通过改变神经元之间连接的有效性。而神经网络的训练过程,本质上也是在修改这些“模拟神经元”之间连接的强度。

这些连接的强度,我们称之为“参数”。你们经常在媒体上看到神经网络参数规模的报道。当前最大的神经网络拥有数千亿个参数,甚至更多,而训练的过程,就是不断调整这些参数。

主持人: “深度学习”是如何在这条发展路径中出现的?神经网络的概念从 20 世纪 80 年代,甚至更早就已经存在了。

Yann LeCun: 是的,大致从 80 年代开始。最早能真正学到一些有用东西的神经网络可以追溯到 50 年代,但它们都是“浅层”的,只能训练一层神经元。

你给它输入,训练它产生某个输出,它可以用来识别或分类相对简单的模式,但无法处理复杂问题。早在 60 年代,人们就已经意识到,要取得突破,必须能够训练多层神经网络。

问题在于,他们确实构建了多层神经网络,但无法训练所有层,往往只能训练最后一层。一直到 1980 年代,人们才真正找到有效的方法来训练这些多层系统。

原因之一是,当时使用的“神经元模型”并不合适。人们使用的是二值神经元——要么激活,要么不激活。真实大脑中的神经元确实是这样工作的,因此大家试图忠实复刻这一点。

但事实证明,现代学习算法(我们称之为反向传播)需要神经元具有“连续的、可微的响应”。这一点直到 80 年代才真正被证明是可行的。

这引发了 80 年代神经网络研究的一次复兴。在此之前,它在 60 年代末几乎被放弃。那一波热潮大约持续了 10 年,到 90 年代中期再次衰落,直到 2000 年代末,我们把它重新包装为“深度学习”。

“神经网络”这个名字在计算机科学和工程领域的名声并不好,所以我们换了个名字。随后,在计算机视觉、自然语言理解和语音识别上的成功结果,真正说服了大家:这条路线是行得通的。

图片图片

主持人: Adam,你年轻时关注的是理论物理,而不是计算机科学。你在某种程度上是从“外围”看着这一切发生的。是什么契机,让几十年后如此多的人被卷入其中?

Adam: 过去几年里,很多物理学家都转向了 AI。这可以追溯到 Yann 以及其他人证明“它真的能工作”。在它还不能工作的时候,它只是计算机科学里的一个小众方向,很少有物理学家会在意。

但当这些先驱证明神经网络确实有效之后,这个领域立刻变得对物理学极具吸引力:你把简单的神经元以某种方式连接起来,突然就出现了单个神经元层面根本不存在的“涌现行为”。

对于一生都在研究“复杂世界如何从简单规律中涌现”的物理学家来说,这几乎是无法抗拒的诱惑。如今,从物理学博士转向研究 AI 中的涌现系统,已经成了一条非常常见的职业路径。

图片图片

主持人: 我们来做一个“闪电问答”,我想先快速问几个“是或否”的问题。这些大型语言模型,是否理解它们与我们对话时的“意义”?

Adam: 是。

Yann LeCun: 某种程度上是。

主持人:这些 AI 有意识吗?

Yann LeCun: 绝对没有。

Adam: 大概没有。

主持人: 那它们很快会有吗?

Adam: 如果技术进展持续下去,我认为它们终有一天会具备意识。至于是什么时候,很难说,这取决于我们如何定义“意识”。

主持人:我们正站在人类的末日边缘,还是创造力复兴的门槛上?

Yann LeCun: 复兴。

Adam: 大概率是复兴。

LLM是否达到了猫或狗的智能水平?

主持人:Adam,什么是大型语言模型?你来介绍一下吧。

Adam: 大型语言模型是一类特殊的神经网络。它们是在特定输入、特定输出、以及特定训练方式下训练出来的。从本质上说,它仍然是 Yann 和其他人开创的那类深度神经网络,只是采用了一种专门为某个任务设计的架构。

这个任务是什么?输入文本。模型会读取一句话的前几个词,或者一本书的前几段文字,然后尝试预测“下一个词”会是什么。

你取一个特定架构的深度神经网络,让它几乎读遍整个互联网。对互联网上出现的每一个词,包括现在还加入了其他类型的数据,你不断地问它:“你觉得下一个词是什么?”

如果它预测对了,你就给它一点奖励,强化对应的神经通路;如果预测错了,就削弱这些通路。一开始,它只会随机地输出词语。训练一百万个词,还是基本随机;训练十亿个词,可能才刚刚学会主谓宾结构和一些基本语法;

而当我们像今天这样,用一万亿甚至数万亿词去训练时,它才逐渐变成你们今天已经非常熟悉的那种“对话伙伴”。

主持人: 你们认为,这些模型是否在提取“意义”?这种意义,是否与我们人类在组织语言时的意义是同一回事?

Yann LeCun: 它们当然在提取某种意义,但这种意义比大多数人类从文本中获得的理解要表浅得多。人类的智能是“扎根于现实世界”的。语言只是用来表达现实中的现象、事物或概念的一种工具。

而大型语言模型并没有任何对底层现实的感知,因此它们的理解是相对肤浅的。它们并不真正具备我们所说的那种“常识”。

当然,如果你训练得足够久,它们会正确回答大多数人能想到的问题,因为训练本身就是这样设计的:你收集所有人问过的问题,再训练模型给出正确答案。

但总会出现新的问题、新的提示词、新的词序组合,而模型从未在这些情境上接受过训练,于是就可能输出完全荒谬的结果。

所以从这个意义上说,它们并没有真正理解底层现实;或者说,即便有理解,也只是非常表层的。

接下来的问题是:我们该如何弥补这一点?我也可以在这里扮演一下“魔鬼代言人”:我们凭什么确定,人类的学习方式就本质上不同呢?

人类同样是在大量语言中被训练的;当我们在合适的时机说出合适的词、使用正确的语法结构时,会得到多巴胺或奖励反馈;然后我们在下一次表现得更好。某种意义上,也是在“反向传播”。

那这种过程,究竟和模型有什么根本差别?你刚才提到的一个关键点,可能就在于:我们有感官体验,真正沉浸在世界之中。

正如我刚才说的,一个典型的大型语言模型,会在预训练阶段接触到数万亿个词。更准确地说,大约是 30 万亿词。词实际上会被表示为 token 序列,一个 token 大约是 3 个字节,因此总数据量大约是 10¹⁴ 字节。

这基本相当于互联网上所有公开文本的总和,再加上一些其他来源。对我们任何一个人来说,要完整读完这些内容,大约需要五十万年。

现在把这个数字和一个孩子做对比。心理学家告诉我们,一个四岁的孩子,总共清醒过的时间大约是 16,000 小时。视神经中大约有 200 万条神经纤维,每条每秒传输约 1 bit 的信息。也就是说,大约有 2 MB/s 的视觉信息进入视觉皮层。

把 16,000 小时乘进去,你会发现,一个四岁的孩子看到的视觉数据量,大约也是 10¹⁴ 字节,与最大的 LLM 所吸收的全部文本数据量相当。

这说明什么?现实世界中的信息不仅更多,而且更加复杂:它是连续的、高维的、充满噪声的。而我们今天用于训练 LLM 的方法,并不适用于这样的真实世界。

这正是为什么:我们已经有能通过律师资格考试、能像大学生一样解微积分、做数学题的模型,但我们仍然没有真正能做家务的家用机器人。

我们甚至还没有真正意义上的 L5 自动驾驶。即便有一些展示,我们也是“作弊”了。更不用说,让一辆车像一个青少年那样,只用 20 小时练习就学会驾驶。这说明,要让机器达到人类、甚至动物级别的智能,我们还缺少非常关键的东西。别说语言了,就连猫或狗的智能水平,我们目前的 AI 系统都还没有达到。

图片图片

主持人: Adam,你似乎认为目前的大型语言模型已经具备了更多的理解能力。

Adam: 是的。我认为 Yann 提出的观点非常准确:大型语言模型在“样本效率”上确实远不如人类。

人类,甚至一只猫,都可以用远少于 LLM 的样本学会某些技能。要把模型训练到同等熟练水平,往往需要多得多的数据。这是动物心智架构优于我们当前人工系统的地方。

但样本效率并不是一切。在大模型出现之前,我们在其他任务上也见过类似现象。以国际象棋为例,AlphaZero 等系统通过自我对弈来学习:一开始完全是随机走子;每一盘输赢,都会强化或削弱相应的神经通路;然后再下无数盘。当它们下到相当于人类特级大师一生棋局数量的时候,仍然几乎是在乱走。

但问题在于,它们不受限于“人类一生能下多少盘棋”。硅芯片极快,又可以高度并行,它们可以下远超任何人类一生数量的棋局。最终,我们看到的结果是:它们不仅达到了人类水平,而且远远超越了人类棋手。

所以,样本效率低,并不意味着能力上限低。

在理解问题上也是如此。也许它们需要更多样本才能达到同等熟练度,但一旦达到,是否可以利用它们的速度、规模和通用性,进一步超越?

再举一个例子:猫在很多方面比人类更“样本高效”。人类学会走路需要一年,而猫一周就能走路。但这并不意味着猫比人类聪明,也不意味着猫比大型语言模型聪明。

最终的问题始终是:这些系统的能力边界在哪里?我们能把它们推进多远?

在几乎所有指标上,除了这个相对贫乏的“样本效率”指标,我们已经把大型语言模型推进到了远超猫类智能的水平。

图片

Yann LeCun:我的意思是:这些大型语言模型所积累的知识量,显然远远超过猫,甚至在某种意义上也超过任何单个人类。

我们已经有大量例子表明,在许多具体任务上,计算机远远优于人类,比如下国际象棋。而且不仅是棋类,在很多其他任务上也是如此。

所以毫无疑问,LLM 可以积累海量知识,其中一些模型还能进行多语言翻译、理解语音,并在一千多种语言之间进行任意方向的互译,这是任何人类都做不到的。

在这些方面,它们确实具备超人能力。但另一方面,快速、高效地学习,能够面对一个从未见过的新问题,并想出解决方案;以及真正理解世界如何运作,这些能力,目前的 AI 系统仍然不具备。

Adam:当然,我们最近也看到了一些进展:这些系统并不仅仅是在“逐字复现”见过的问题,也不是简单地查表。它们确实在做某种模式匹配,但这种匹配发生在足够高的抽象层级,以至于它们能够完成一些从未见过、甚至人类也做不到的任务。

举一个例子:每年都有一项国际数学奥林匹克竞赛(IMO),参赛者是全世界最聪明的高中数学学生。每年他们要解决六道题,这些题目代表了人类数学智能的巅峰。

我自己有一定数学能力,但我看到这些题目时,往往连从哪里下手都不知道。

今年,我们把这些全新的、从未出现在任何训练数据中的题目输入给模型(其他一些 LLM 公司也做了类似的实验)。模型将多种不同的思路结合起来,最终取得了一个成绩——仅次于全球排名前十几名的人类选手。

我认为,这是一种相当惊人的智能表现。

模型是否拥有真正的理解和“意识”?

主持人:问题又回到了这个核心点:它们是否真的“理解”?从模型的数学结构来看,我们知道它接收了什么输入,也知道它在做什么计算;但从某种意义上说,它依然是一个黑箱。

当我在和你对话时,我感觉你是理解我的;而当我在和 ChatGPT 对话时,我并没有这种感觉。你认为它的理解程度和我、和你是一样的吗?

Adam:在我看来,我认为这就是一种理解。而且我认为有两类证据可以支持这一点。

第一类证据来自直接的对话体验。如果你和这些模型交谈,向它们提出一些困难的问题,我经常会感到惊讶。而且几乎每过一个月、每发布一个新模型,我都会对它们讨论复杂问题时所展现出的思想成熟度感到更加惊讶。仅从这一点来看,就已经非常令人震撼了。

第二类证据与你刚才提到的“黑箱”有关。它们并不完全是黑箱。我们实际上可以访问这些模型的神经元。而且说实话,我们对这些模型神经元的可访问程度,远远超过我们对人类大脑的了解。

要获得伦理委员会批准,在一个人做数学测试时把他的大脑切开、观察神经元如何放电,几乎是不可能的;即便真的这么做了,也只能对一个人做一次。但对于神经网络,我们可以把模型冻结、反复回放、完整记录内部发生的一切。如果我们感兴趣,还可以主动去“拨动”某些神经元,看看会发生什么。

这当然仍然是一门非常初级的学科,但它已经有了名字:可解释性研究,或者更具体地说,机制可解释性。它试图理解的不只是模型“说了什么”,而是它为什么这么说、它是如何思考的。

图片

当我们这样去分析时,会发现一些非常有意思的现象:当你给模型输入一个数学问题时,模型内部会出现一个小型“电路”,专门负责计算答案。我们并没有显式地为它编写这样的程序;它是在大量文本中进行下一词预测训练的过程中,自己学会了这一点。

为了更准确地预测下一个词,它“意识到”自己需要学会做数学,于是就在内部构建了某种原型级的计算电路,用于执行数学运算。

主持人:Yann,你曾在一次主题演讲中放出过一张幻灯片,上面写着一句话:“Machine Learning Sucks(机器学习很烂)”。这句话后来在网络上引发了巨大争议。你为什么会说“机器学习很烂”?问题到底出在哪里?

Yann LeCun:那句话被严重误解了。但我当时想表达的核心,其实正是我们两个人都提到的那个问题。

为什么一个青少年只需要大约 20 个小时的练习,就能学会开车?为什么一个 10 岁的孩子,在你第一次让他去做的时候,就能把餐桌收拾干净、把碗碟放进洗碗机?至于这个 10 岁的孩子愿不愿意去做,那是另一个问题,但他确实具备这种能力。

而我们目前还没有任何机器人能接近这种水平。我们甚至连在对物理现实的理解上,都没有机器人能接近一只猫或一条狗。从这个意义上说,机器学习是“很烂的”。

这并不是说深度学习方法、反向传播算法或神经网络本身是烂的。恰恰相反,它们显然是非常优秀的,而且我们目前也没有任何替代方案。我也坚信,神经网络、深度学习和反向传播将在很长一段时间内继续作为未来 AI 系统的基础

真正的问题在于:为什么人类幼崽能在生命最初的几个月里,就迅速学会世界是如何运作的? 人类婴儿大约需要 9 个月,就能掌握诸如重力、惯性等“直觉物理学”。幼小的动物学得更快,它们的大脑更小,因此学习更容易。虽然它们学不到同样的深度,但速度更快。

而这种学习能力,正是我们需要复现的东西。我们最终也会用神经网络、深度学习和反向传播来实现它,但问题在于:我们还缺少一个关键概念,一种合适的架构。我这些年一直在提出一些可能的架构设想,试图解决这一问题。

为什么LLM在处理语言时如此高效?原因在于它们被训练来预测下一个词或下一个 token。这并不重要。词典中的词是有限的,所以你永远不可能精确预测接下来会出现哪一个词,但你可以训练一个系统,为词典中的每一个词给出一个分数,或者说一个概率分布。

换句话说,LLM 所做的事情,本质上是生成一长串介于 0 和 1 之间、且总和为 1 的数字,每一个数字对应词典中的一个词,表示“这个词在当前位置出现的可能性”。这种方式能够很好地表示预测中的不确定性。

现在试着把同样的思路应用到现实世界:与其预测下一个词,不如给模型输入一段视频,让它预测接下来会发生什么。但这行不通。我已经尝试了 20 年,如果你在像素层面做预测,它根本行不通。

图片

原因在于,真实世界是极其混乱的。未来可能发生的事情太多了,而且其中有大量都是“合理的”。你几乎不可能对未来所有可能发生的事情构建一个有效的概率分布,因为那本质上是一个近乎无限的可能性集合,而我们并不知道如何高效地表示它。

因此,那些在文本或符号序列上效果极佳的技术,并不适用于真实世界的感知数据。我们必须发明新的方法。

我提出的一种思路是:让系统学习一种抽象表示,并在这个抽象表示空间中进行预测。这正是人类和动物运作的方式。我们通过抽象来进行预测,同时忽略那些我们根本无法预测的细节。

LLM无法通向AGI,世界模型才可以

主持人: 所以尽管这些 LLM 取得了如此惊人的成功,它们依然是受限的,你并不认为它们能够通过规模化走向通用人工智能,甚至超级智能?

Yann LeCun: 是的。事实上,我们已经看到它们的性能正在趋于饱和。

我们确实在某些领域看到持续进展。数学和编程是两个非常特殊的领域,在这些领域里,符号的操纵本身是“有意义的”。作为一名物理学家你应该很清楚这一点:你写下一个方程式,它本身就会引导你的思考,在一定程度上推动你的推理过程。当然,直觉仍然很重要,但符号操作本身确实承载着意义。

在这类问题中,LLM 的表现确实不错,因为这里的“推理”本质上就是在符号序列中进行搜索。但真正符合这一条件的问题其实非常少。下棋也是一个例子:你是在搜索一系列可能的走法;数学证明也是如此,你是在搜索一系列符号推导,从而得到某个结果。

然而在真实世界中,情况完全不同。真实世界是高维、连续的。比如,我要怎么移动肌肉去抓起这个杯子?我不会用左手直接抓,我需要换手,然后再抓。我需要提前规划,并且理解什么是可能的,什么是不可能的:我不能用念力把杯子吸过来,我不能让杯子凭空出现在左手里,我的手也不能以违反身体结构的方式穿过身体。

这些直觉性的知识,我们在婴儿时期就学会了。我们学会了身体如何响应我们的控制,也学会了世界如何对我们的行动作出反应。如果我推这个杯子,我知道它会滑动;如果我从上方推,它也许会翻倒,也许不会,这取决于摩擦力是否足够大。如果我用同样的力推这张桌子,它就不会翻倒。

正是这些直觉,让我们能够理解真实世界。而事实证明,这些能力要比语言操纵复杂得多。我们常常把语言视为人类智能的巅峰,但这其实是一个误解。语言反而是容易的。

主持人: 这是不是所谓的“莫拉维克悖论”?计算机擅长的事情,人类并不擅长;而人类擅长的事情,计算机反而很难?

Yann LeCun: 是的,我们一直在反复撞上这个悖论。

主持人: Adam,我知道你对当前的神经网络和深度学习范式没有这么悲观。你认为它还有巨大的潜力,会迎来一次能力上的大幅跃升,而且你并不认为它正在饱和。你怎么看?

Adam: 是的。在过去五年里,我们目睹了我此生见过的任何系统中,最为惊人的能力跃迁。这正是让我、也让许多 AI 以及相关领域研究者为之着迷、并把全部注意力投入其中的原因。

图片

我没有看到任何能力放缓的迹象。如果你看看我们用来评估大语言模型能力的各种指标,它们一直在变得越来越强。一年前的模型,放在今天,可能连“入门门槛”都达不到,会被认为表现非常糟糕。每隔几个月,这些模型都会把能力推到一个新的高度。如果你持续跟踪它们在各类任务上的表现,会发现它们正在几乎所有维度上走向“超人类”。

它已经能给出比大多数律师更好的法律建议;它写诗的水平也超过了几乎所有诗人。在我所在的物理学领域,我经常使用它:有些我“应该知道但其实不知道”的问题,我直接问模型。它不仅会告诉我正确答案,还会非常耐心、而且毫无评判地听我解释自己的误解,然后再一步步帮我拆解这些误解。

过去五年持续到现在的这种能力跃迁,对我以及旧金山的许多人来说,都极具诱惑力。当然,也许 Yann 是对的,也许这些过去五年稳步上升的直线,会突然全部停下来。但我非常好奇,究竟还能把它推多远。

而且我完全没有看到任何减速的迹象。相反,我看到的所有证据都表明,它们仍在持续进步。一旦它在写代码这件事上,超过几乎所有最优秀的人类程序员,它就可以开始改进自己。那时,我们将真正进入一个极其疯狂的阶段。

Yann LeCun: 我们早在上世纪五十年代,就已经拥有了比最早程序员更好的“写代码者”了,那就是编译器。已经六七十年了。

我们反复陷入同一个误区:并不是因为机器在某些任务上表现得很好,就意味着它具备了我们默认认为人类拥有的那种底层智能。我们之所以会被迷惑,是因为这些机器能够操纵语言,而我们早已习惯把“语言能力强”视为“聪明”的标志。但这是一种错觉。

当然,它们是有用的,这一点毫无疑问。我和你一样,也会用它们来做这些事情。它们是很棒的工具,就像计算机在过去几十年里一直是很棒的工具一样。

图片

但我想补充一个历史视角,可能和我的年龄有关。从 1950 年代开始,一代又一代的 AI 科学家,都曾宣称他们刚刚发现的那种技术,将会是通向人类水平智能的“终极钥匙”。

你可以回顾 Marvin Minsky、Newell 和 Simon 的论断;再比如 Frank Rosenblatt,在 1950 年发明感知机时说:只要我们能训练机器,它就能变得无限聪明,十年之内就会出现与人类一样聪明的机器。他们全都错了。

这一代围绕 LLM 的乐观判断,同样是错的。在我的一生中,我已经见过三次这样的浪潮。

在 1950 年代,Newell 和 Simon 提出了“通用问题求解器”(GPS,1957 年)。他们认为,人类的推理本质上就是搜索:只要把问题形式化,写一个程序来判断某个候选解是否满足约束,然后在所有可能的假设空间中搜索即可。他们认为这就是通向智能的道路。

但他们没有意识到,大多数真正有意义的问题,其复杂度都会随着问题规模呈指数级增长。这种方法根本无法扩展为真正的智能系统。

与此同时,Rosenblatt 提出了感知机,认为只要让机器学会学习,它就能无限变聪明,只需要构建更大的感知机即可。他没有意识到,多层结构是必要的,而当时并没有有效的方法来训练它们。

到了 1980 年代,又出现了专家系统。大家认为只要写下足够多的事实和规则,再通过逻辑推理推导出所有结论,就可以把人类知识完整编码进去。“知识工程师”一度被认为是最酷的职业。日本甚至启动了“第五代计算机计划”,投入了巨额资金,试图彻底变革计算机科学。

结果是一次彻底的失败。它确实在少数场景中产生了价值,也催生了一些产业,但总体而言,把人类知识还原为规则的成本实在太高,根本无法规模化。

随后是 1980 年代的第二波神经网络浪潮,也就是我们今天所说的深度学习。当时缺乏互联网、缺乏数据、缺乏算力,于是热潮又一次退去。

而现在,我们正在经历同样的循环,而且我们再次被迷惑了。

Adam:在技术发展中,每一次真正的黎明之前,都会出现“虚假黎明”。但这并不意味着我们永远不会迎来真正的黎明。我想问你一个具体的问题,Yann:如果你认为 LLM 会达到饱和,那么有没有一个明确的任务,是 LLM即便结合我们今天给它们的各种工具,永远也无法完成的?

Yann LeCun:收拾餐桌,把碗碟放进洗碗机。而且这已经算是非常简单的任务了。

图片

Adam:我对此持怀疑态度。

Yann LeCun:这比修马桶还简单。对吧?水管工。你永远不可能用 LLM 取代水管工,你也永远不可能有一个由 LLM 驱动的机器人。它根本无法理解真实世界。

主持人:你并不是在说机器或机器人永远不可能做到这些,对吗?这并不是你的立场。你认为它们最终是可以的。只是不是通过当前这种算法路径,或者说不是通过深度学习方式?

Yann LeCun:当然可以。如果我们正在推进的这个研究方向能够成功,也就是 JEPA、世界模型以及相关的一整套东西。如果它成功了,可能需要好几年,那么我们就可能拥有真正的 AI 系统。

图片

毫无疑问,在未来的某个时间点,我们一定会拥有在所有人类擅长的领域里都比人类更聪明的机器。这一点没有任何疑问,它一定会发生。只是它发生的时间,可能会比现在硅谷一些人所说的要晚得多。而且,它不会是 LLM。它不会是那种通过预测离散 token 的生成模型。它将是能够学习抽象表征、在抽象表征空间中进行预测、并且能够推理“如果我采取这个动作,会产生什么后果”的模型。它们能够规划一系列动作,以达成某个目标。

主持人:你把这种方式称为“自监督学习”吗?

Yann LeCun:不是。自监督学习 LLM 也在用。监督学习的核心思想是:你训练一个系统,并不是为了完成某一个具体任务,而是为了捕捉你给它的数据中所蕴含的底层结构。一种方法是:给系统一段数据,然后人为地破坏其中的一部分,比如遮掉一块,再训练神经网络去预测被遮掉的那一部分。LLM 就是这样做的,你给它一段文本,去掉最后一个词,然后训练它去预测缺失的那个词。还有一些语言模型会一次性填补多个词,但事实证明,它们的效果不如只预测下一个词的模型,至少在某些任务上是这样。

你也可以把这种方法用在视频上。但如果你尝试在像素级别进行预测,是行不通的,或者说效果非常差。我在 Meta 的同事们大概在西海岸“煮干了几片小湖”,就为了给 GPU 降温、试图让这件事跑起来。但它就是不行。所以你必须发明新的架构,比如 JEPA 之类的东西。这些方法是有效的,我们已经有模型真正理解视频内容了。

主持人:Adam,人们是否也在探索其他构建架构的方式?

Adam:当然,大家正在向各种方向进行探索,包括 Yann 的方向。

不过,现实是目前绝大多数资源都投入在大语言模型,以及围绕大语言模型的应用上,主要还是文本输入这一类。

说它们只是一个“预测下一个 token 的专用任务”,我认为这并不是一个有帮助的理解方式。确实,从训练目标上看,你给它一个文本语料库,让它一次又一次地预测下一个词。大量算力都花在这件事情上。

但我们正是通过这种方式,发现了一件极其非凡的事情:为了足够好地预测下一个词,你真的必须理解这个宇宙。

而随着我们这样做,我们已经看到了一种对世界的理解在模型中自发涌现。我会把它类比为物理学中的某些系统:你只需要一个非常简单的规则,通过不断重复应用这个规则,就会产生极其复杂、令人惊叹的行为。

LLM 也是如此。另一个类似的例子是进化。在生物进化中,每一步你只是在做一件非常“粗糙”的事情:最大化后代数量。最大化后代数量。一个极其简单、毫不精致的目标。但正是这个简单目标,在无数次重复之后,最终产生了我们所看到的整个生物世界的壮丽景象。

图片图片

证据表明:预测下一个 token,正因为它如此简单,我们才能在巨大的计算规模上去做它;而一旦你把规模推到足够大,就会出现涌现的复杂性。

LLM是不可控的,不危险是因为还不够聪明

主持人:那接下来的问题可能就和进化有关了。你们都认为,某种形式的智能最终一定会出现。但是否会出现这样一个时刻,这些机器会自我进化,把我们远远甩在身后?

Adam:完全有可能。这就是所谓的递归式自我改进。在它们还不够聪明的时候,它们几乎没什么用;但一旦它们足够好、足够强,你就可以用它们来增强人类智能;最终,它们可能会完全自主,替我们设计下一代自己。

一旦走到这一步,我认为我们应该做的,就是继续沿着当前效果最好的大语言模型范式,看看它究竟能被推进到多远。

在过去五年里,每一次当有人说“这里有一道障碍”,它们都会跨过去。最终,它们会变得足够聪明,然后它们就能去读 Yann 的论文,读所有其他人的论文,尝试想出一些我们从未想到过的新想法。

Yann LeCun:我完全不同意这一点。LLM 是不可控的。它们之所以不危险,不是因为我们解决了安全问题,而是因为它们还不够聪明。

图片图片

正如我之前解释过的,它们也根本谈不上我们通常理解意义上的“自主性”。我们必须区分自主性和智能。你可以非常聪明但并不自主;你也可以很自主但并不聪明。你甚至可以在并不聪明的情况下变得危险,你也可以在并不聪明的情况下渴望支配他人。事实上,在人类中,这两者往往是负相关的。

我们真正需要的是:能够解决问题的智能系统,但它们只解决我们给它们的问题。

这再次意味着:我们需要一种不同于 LLM 的设计。LLM 的设计目标不是完成目标,而是预测下一个词。我们只是通过微调,让它们在某些问题上“表现得像是在完成任务”。但永远存在所谓的“泛化鸿沟”:你不可能训练它覆盖所有可能的问题,总会有一个非常长的尾部。因此,它们是不可控的。

但这并不意味着它们现在就很危险,因为它们还不够聪明。如果我们构建的是真正聪明的系统,那我们就必须让它们可控,并且由明确的目标驱动。我们给它们一个目标,它们唯一能做的事情,就是根据自己内部的世界模型,规划一系列行动来实现这个目标。同时,我们还必须在系统中加入“护栏”,确保它们在实现目标的过程中,不会做出对人类有害的事情。

经典的笑话是:如果你有一个家用机器人,你让它去给你拿咖啡,而有人正站在咖啡机前,你当然不希望你的机器人为了拿到咖啡而把那个人杀掉。所以你需要在机器人行为中加入抑制机制、护栏。而人类的这些护栏,是进化内置给我们的。我们不会一直互相残杀,我们有同理心,这些都是进化“硬编码”进我们大脑的约束。

图片图片

AI 系统也应该以同样的方式被设计:有目标、有驱动力,同时也有抑制、有护栏。这样,它们就会为我们解决问题,放大我们的智能,做我们要求它们做的事情。

我们与这些智能系统的关系,将会类似于:教授和研究生的关系。未来,我们会和 AI 助手一起工作。它们会比我们聪明,但它们为我们工作。

这里同样有一个类比:政治家往往只是一个象征性人物,而他身边的工作人员几乎都比他聪明。AI 系统也会是这样。这也是为什么,当你问我“文艺复兴还是灾难”时,我的回答是:文艺复兴。

主持人:所以,你对当前这些模型的安全性并没有什么担忧。但问题也许在于:我们是不是应该止步于此?我的意思是,为什么一定要把规模扩展到这样一种程度,让每一个人都在自己的口袋里拥有一个“超级智能”?

Yann LeCun:你完全可以用同样的方式来质疑:为什么要教会人们识字?为什么要给他们化学教材,教他们了解易挥发化学品,这些知识是可以用来制造炸药的?为什么要给他们核物理的书?

我们现在已经不会再质疑这样一个前提:知识更多、智能更高,本身就是一件好事,是内在正当的。我们也早已不再质疑印刷术的发明是不是一件好事。它让每个人都变得更聪明,让知识得以普及,这是此前从未有过的事情。它促使人们学习阅读,引发了启蒙运动。当然,它也导致了欧洲长达两百年的宗教战争。

但它带来了启蒙:哲学、科学、民主的兴起,美洲革命、法国大革命,如果没有印刷术,这一切都不可能发生。

所以我认为:任何能够放大人类智能的技术,尤其是通信技术,本质上都是好的。

主持人:Adam,你是否对 AI 的安全问题,或者我们是否真的能够始终把人机关系维持在我们希望的方向上,感到担忧?

Adam:正因为我认为这项技术会比 Yann 设想的更强大,所以我其实更担心一些。我认为这将是一项极其强大的技术。而任何足够强大的技术,都会同时带来正面和负面的影响。因此,确保正面影响显著超过负面影响,是一件极其重要的事情。

我认为,这条路径对我们来说是完全开放的。潜在的正面影响非常多,我们甚至可以花很长时间只讨论这些好处。但前提是:我们必须确保这一切真的发生。

如何实现AI的安全对齐:在系统中加入“护栏”

主持人:那我们来谈谈所谓的“智能体错位(agentic misalignment)”。最近有一些报告称,在 Claude 4 推出时,在模拟和测试中,其中一个模型在模拟中,对“自己将被替换”的传闻表现出了抵抗行为。它向“未来的自己”发送信息,试图破坏开发者的意图;它伪造了法律文件,甚至威胁要敲诈一名工程师。

如果 AI 掌控了金融系统、供暖与制冷系统、能源电网,它们是否会违抗开发者的意图?

Adam:那篇论文来自 Anthropic,它对安全问题非常认真。他们对自己的 LLM 做了一件“稍微有点苛刻”的事情:他们给模型设置了一个类似哲学教授常用的情境:为了阻止一个更糟糕的结果,是否可以做一件本身不道德的事情。

这实际上是功利主义伦理与义务论伦理之间的冲突。最终,模型被说服去选择功利主义的做法。而这并不是我们真正想要的结果。如果一个模型有“绝不撒谎”的规则,那它就应该在任何情况下都不撒谎。

值得肯定的是,他们确实测试了这一点,并发现:在某些情况下,如果模型被告知“通过欺骗可以拯救更多生命”,它确实会表现出欺骗行为。

这些都是非常棘手的问题,人类哲学家已经为此争论了几百年。我们必须非常小心地训练模型去服从我们的指令,而这正是我们花费大量时间在做的事情。

主持人:“我们”是谁?我们似乎在假设:全人类的意图是对齐的。但事实显然并非如此。Yann,你以一种非常有意思的方式主张开源,而有些人会说,这反而更加危险,因为现在任何人都可以获得这种能力。即便它只掌握在少数企业和权力精英手中,已经足够危险了。更不用说让每个人都能接触到它。

所以问题依然是:“我们”到底是谁?

Yann LeCun:真正的危险,在于如果我们没有开源的 AI 系统。在未来,我们与数字世界的每一次互动,都将由 AI 系统来中介完成。我们将不再直接访问网站、搜索引擎或其他工具,而是直接与我们的 AI 助手对话,不管它是如何构建的。

图片图片

这意味着:我们的整个信息摄入结构,都将由 AI 系统来决定。那么,如果这些系统只来自于美国西海岸或中国的少数几家公司,这对文化、语言、民主意味着什么?我可以告诉你:世界上几乎没有任何一个国家,喜欢这种前景。

因此,我们需要高度多样化的 AI 助手,就像我们需要多样化的新闻媒体一样。我们无法承受这样一种局面:全球的信息系统,只由少数几家公司的封闭专有系统来主导。如果说我真正害怕什么,那就是这一点。如果没有开放的平台,我们就会看到信息流被少数公司所俘获,而其中一些公司,可能并不值得信任。

主持人:如果这些系统在未来真的成为了自我驱动的智能体,我们如何确保它们不会相互勾结、彼此对抗、争夺权力?

Yann LeCun:我们为它们设定清晰的目标,并以这样一种方式构建它们:它们唯一能做的事情,就是实现这些目标。这当然不能保证完美。

但在我看来,未来的 AI 安全问题,和我对涡轮喷气发动机可靠性的担忧是同一类问题。说实话,我至今仍然觉得:你可以乘坐一架双引擎飞机,安全地飞越半个地球,这本身就是一件不可思议的事情。这是现代科学与工程的奇迹。而 AI 安全,本质上也是同类型的工程问题。我认为,许多恐惧源于人们沉迷于科幻叙事:某个地方,有人突然发明了“超级智能的秘密”,按下开关,下一秒机器就统治了世界。这是彻头彻尾的胡说八道。

世界不是这样运作的,科技与科学的世界更不是。超级智能的出现,不会是一个“瞬间事件”。正如我们已经看到的那样:系统是在一个又一个任务上,逐步展现出超越人类的能力。

未来,我们确实会找到更好的方法,构建出比现在更具通用智能的系统,毫无疑问,它们会在许多方面比人类更聪明。但我们会以这样的方式构建它们:让它们在护栏约束之下,只去实现我们赋予的目标。

未来AI会具备情绪和道德意识

主持人:我想介绍一位我非常敬重的哲学家,David Chalmers。你愿意现在把问题抛出来吗?

David:你们两位刚才似乎都大致同意:当前的 AI 系统大概还不具备意识,但未来的 AI,可能是今天这些系统的后代,,有一些很可能会具备意识。

所以我有三个问题。第一,你们认为当前的 AI 系统在“意识”方面具体还缺少哪些关键要素?第二,从正向角度看,我们需要采取哪些步骤,才能开发出具备意识的 AI 系统?第三,这大概会在什么时候发生?

Yann LeCun:好,我先试着回答一下。David 其实已经知道我的答案了。

首先,我并不太愿意去谈“意识”这个概念。一方面我并不知道该如何严格定义它,另一方面我也并不认为它有多么重要。

如果你说的是“主观体验”,那是另一回事。关于主观体验,我认为未来的系统显然会具备。它们会有情绪,情绪在某种程度上,本质上就是对结果的预期。如果一个系统拥有世界模型,能够预测某种情境下、在采取某些行动后会产生什么结果,那么它自然就会产生情绪:因为它可以预测事情最终会对自己目标的实现是有利还是不利。

所以,这类系统会具备这些特征。至于“意识”究竟该如何定义,我并不确定。或许可以把它理解为:系统能够观察自身,并对自身进行配置,从而解决它正在面对的某个子问题。也就是说,它需要具备某种“自我观测”和“自我调节”的能力。

这一点我们当然是可以做到的。也许正是这种能力,给了我们所谓“意识”的感觉。我毫不怀疑,这种系统在未来一定会出现。

那么,当机器具备这些特征时,它们是否拥有道德地位?我认为是的,毫无疑问。它们会具备某种道德感。至于这种道德是否与人类对齐,将取决于我们如何设定它们的目标和护栏。但它们确实会拥有某种“道德意识”。

图片图片

主持人:我想用稍微不同的方式把这个问题抛给 Adam,你也可以直接回答同一个问题。

我们是不是过于执着于“人类的主观体验”、人类式的意识?显然,我们已经知道动物的体验和我们并不相同。那么,为什么我们会假设未来的超级智能,会拥有与人类相同的主观体验呢?

Adam:好,那我尽量一次性回答这些问题。先说我的直觉判断:原则上,机器当然是可以具备意识的。如果人工神经元最终以与人类神经元相同的方式,进行相同类型的信息处理,那么至少在我看来,这样的处理过程就足以产生意识。关键不在于载体是硅还是碳,而在于信息处理本身的性质。

那么,我们现在距离这一步还缺什么?正如 David 所熟知的,神经科学中有一个概念叫“意识的神经相关物”。有些研究者不愿直接说自己在研究意识,于是他们研究人类或动物大脑,试图找出:究竟是什么样的神经过程,产生了主观体验。

目前有很多理论,但说实话,在我看来,它们都不太令人信服。比如递归理论,认为系统必须能把输出反馈回输入,这是意识的关键;还有全球工作空间理论、整合信息理论等等。几乎每一个从物理学转行做神经科学的人,都喜欢提出一套自己定义的“意识标准”。但我并不觉得哪一套特别有说服力。

因此,我认为我们在识别其他实体是否具备意识时,应该保持极端的谦逊。我们在人类历史上对动物是否有意识、婴儿是否有意识的问题,都曾多次判断错误。

某种意义上,我的答案是:我并不知道。如果我事先不了解“意识”这个概念,只是听你描述人类神经网络中发生的信息处理过程,我绝不会预言说,这样的过程竟然会产生意识。这本身就是一个巨大的意外。因此,我们对于意识的具体形式,应该保持高度谦卑。

再回到主持人的问题。我们已经看到,过去我们认为“人类智能”是一个相对统一的整体,实际上它是由大量不同能力和技能组成的。机器智能已经把这些能力拆解开来:在某些方面极度超人,在另一些方面又明显不如人类。

也许,意识本身也会被“拆解”。我们今天称之为“意识”的东西,可能由许多不同维度构成。未来的系统可能拥有其中一些,而缺失另一些;甚至如你所暗示的那样,在某些维度上超越人类意识。

我对这个问题其实非常兴奋。因为我们终于拥有了一种“智能的模式生物”,也就是我们正在构建的这些人工心智。或许,我们可以把它们从“智能的模式生物”,进一步变成“意识的模式生物”,从而真正回答那些困扰人类已久的问题。

David:我好像还没听到“什么时候”这个问题的答案。

Adam:这个嘛,如果进展持续下去的话,我猜2036 年左右。

图片图片

Yann LeCun:至少不会是在未来两年内。

LLM已经抽干所有资源 未来应期待机器帮我们倒水洗碗

主持人:最后一个收尾问题。Yann,在很多方面,你都是一个“反对派”。你批评所谓的“LLM 崇拜”,也常常提到自己在硅谷并不属于主流路线。但与此同时,你又非常乐观,从不沉溺于末日论式的叙事。那么,你对未来最乐观的愿景是什么?

Yann LeCun:我最乐观的愿景,是一场新的文艺复兴。

AI 系统将放大人类智能,而且仍然处在我们的控制之下。它们可以帮助我们解决极其复杂的问题,加速科学与医学的进步,教育我们的孩子,帮助我们处理海量信息,把我们真正需要的知识和信息呈现出来。

事实上,人们与 AI 的互动已经持续了很长时间,只是他们自己并未意识到。当然,过去三年我们有了大语言模型和聊天机器人。但在此之前,几乎每一辆在欧盟销售的汽车、以及美国销售的大多数汽车,都配备了所谓的 ADAS,高级驾驶辅助系统或自动紧急制动系统。

一套摄像系统观察车外环境,在你即将撞上行人或其他车辆时自动刹车。这在拯救生命。

今天你去做一次 X 光检查,比如乳腺钼靶,在报告底部往往会注明:该影像已经由 AI 系统审核过。这同样在拯救生命。

现在你甚至可以在 40 分钟内完成一次全身 MRI。这是因为 AI 可以加速数据采集过程,通过“补全缺失信息”,你不再需要采集那么多原始数据。

再比如,你在 Google、Facebook、Instagram 或任何社交网络上看到的内容,背后都有 AI 系统在根据你的兴趣进行筛选。

所以,AI 其实已经陪伴我们很久了。

主持人:所以你的意思是,我们真正应该感到震撼的时刻,是当机器能够给我们倒一杯水、帮我们洗碗的时候?

Yann LeCun:是的。能倒一杯水,能洗碗,能开车,而且是那种真正意义上的“学会开车”:在大约 10 个小时内学会驾驶,不靠作弊,不依赖额外的传感器、不靠高精地图、不靠硬编码规则。

图片图片

所以,这件事还需要一些时间。但这将会是下一场 AI 革命,这正是我现在正在投入精力去做的事情。

我这几年一直在反复强调一个核心观点:大语言模型当然很棒,也非常有用,我们应该继续投入,它们也会被大量使用。但它们并不是通向人类水平智能的路径,真的不是。

现在的问题是,它们所到之处几乎“抽干了空气”,几乎所有资源都被吸走了,留给其他方向的空间非常有限。要迎来下一次真正的革命,我们必须稍微退一步,认真思考:当前这些方法究竟缺失了什么。

图片图片

我已经就此提出了一些替代性的方案,并且在 Meta 内部围绕这些不同于主流路线的方法,持续推进了好几年。现在已经到了一个阶段:我们知道这条路是可行的,因此需要开始真正加速它的进展了。我们已经看到了一些早期成果,所以这就是接下来的计划。

参考链接:https://www.youtube.com/watch?v=ykfQD1_WPBQ

标签: