移动-BitScan - 首页 - 微博


展开讲讲一些关于大语言模型的理解的问题在哪里。

这些评论通常归结为这句话:大语言模型「只不过是把语料中的统计相关性复现出来而已。」但这句话是错的,其错误程度就像是在 AlphaGo 出现的时候说「AlphaGo 只不过是在背诵它见过的棋谱而已」一样。

很多人对大语言模型(或者更一般地说,大神经网络)的理解还停留在两三年前。而过去两年里重要的两个研究方向(并不只有这两个,但它们对下面要说的事最关键)显示出它终于开始初步跳出贝叶斯的陷阱,展现出了一点通用智能的模样。这两者一是思维链条(chain of thought, CoT),二是自发性地结构涌现(英文文献里一般就直接简称为 emergence)。

如果你看过《思考快与慢》这本书,你可能知道传统的大神经网络是标准的快思考模式。输入一个样本,网络直接输出一个答案,没有推理过程,本质上是直觉。人们长期以来对神经网络的诟病也在于此:人之所以区别于动物,是因为人除了直觉之外还会慢思考,也就是逐步推理型的思考。长期以来人们认为神经网络无法实现这样的思考。

但 CoT 恰恰是一个试图复现慢思考模式的工程上的尝试:我也许不能直接教神经网络做推理,但我可以硬性规定它一步一步输出推理环节。打个比方,就像是你的中学老师告诉你「直接写出答案是不给分的,你必须写出过程」。逼着神经网络写出思考过程也许并不等于真的在慢思考,但没关系,既然它输出了整个思维链条的文字版本,那实质上的结果是一样的。(其实人类的学习和这差别也不大,「真正会思考」和「显得像是在思考」这两者的区别有时候只是哲学上的。Fake it till you make it.

一个典型的例子是 Amazon 最近的一篇论文 Multimodal Chain-of-Thought Reasoning in Language Models。你给 AI 的数据是一幅图片,上面画着饼干和薯条,然后问 AI:这两者的共同点在哪里?A:都是软的。B:都是咸的。

AI 并不被训练直接选择 B(这种训练是没有意义的,也无法推广)。AI 被训练的是输出下面这样一段文字:「看看这两样东西。对每个东西,判断它有哪些特性。薯条是咸的,饼干是咸的。软的东西你捏它的时候会变形。薯条是软的,但饼干不是。两个东西的共同特性是咸的。所以选 B。」

因为这是一大段文字,AI 并不会一次性说完。它可以每说一个词就「回过头去看一眼」图案(在比喻意义上),然后把图案的信息和自己已经说出来的部分整合,再预测下一个词是什么。每一次具体的预测仍然是快思考,但逐个词说下来的结果,就是它正确地模拟了慢思考。

Amazon 这个模型的结果在许多测试集上的得分都超过了人类平均水平,你很容易看出来,这种训练下说 AI 只是记住了语料文字的相关性是不公平的。它不可能只是肤浅地死记硬背「什么词后面大概率跟着什么词」。

于是就要说到上面提到的第二件事:emergence。

这是过去两年来人们最大的发现之一。只要神经网络的复杂性和训练样本的多样性超过一定规模,就会有抽象的推理结构在神经网络里突然自发涌现出来。这个过程像所有的复杂性系统一样是非线性的。去年十月份 Google 的一篇论文 Emergent Abilities of Large Language Models 对这个现象做了很好的综述。简单地说:量变导致质变。

(另一方面,由于涌现是非线性的,这也使得要预测它的发展极为困难。如果今天的模型暂时还不能解决某一类任务,你无法估计模型要再扩张多少才能涌现出新的能力去解决这些任务。可能永远不行,可能下一个阈值会超出硬件的能力极限,可能你需要的全新的网络架构。所有这些问题都无法用简单的外推来回答。这种非线性也是人工智能波浪形发展的根源:你会在好几年里觉得一事无成(比如前几年大量声音说大模型已死),接着忽然迎来一个剧烈爆发的增长,然后可能又进入下一个等待期。

但重点在于,今天的大语言模型已经在很多方向上确定无疑地迈过了某个重要的阈值。这使得整个关于模型能力的认知都需要迅速重估。最典型的就是 in-context learning:今天你可以给 AI 看几个例子,然后它就在这些例子的基础上举一反三,针对没见过的样本做出正确的推理,并且这个过程中【不需要】重新训练模型权重。——人们暂时还不知道能冲破多少此前一直卡着的瓶颈,但这个飞跃本身已经打开了一片新天地。

人类自己的进化史上语言的诞生被认为是个重要的节点,这意味着大脑的复杂程度决定性地超越了此前的近亲,然后语言又反过来给大脑的发育带来巨大的压力,迫使它走上了一条所有其他动物都没走过的演化道路。

今天很可能是 AI 演化史上的类似时刻。

https://weibo.com/mygroups?gid=221012010010025640