5.4 规模效应与涌现能力
随着模型参数和数据量的指数级增长,研究者发现了“缩放定律”——模型越大,性能越好。更重要的是,当规模达到临界点时,模型会表现出未被直接训练的“涌现能力”,如上下文学习、代码生成和数学推理。以 GPT-3 为代表的模型的成功,引发了全球性的“规模竞赛”,开启了AI领域对更大、更强模型的探索。
随着 Transformer 架构和预训练范式的确立,研究者开始探索:如果继续扩大模型规模,增加参数数量、训练数据和计算时间会带来怎样的影响?
5.4.1 大就是好
我们可以把参数想象成模型大脑中的“神经连接”。每个参数都是一个可以调整的数值,用来控制信息如何在神经网络中流动和处理。参数越多,模型的“大脑容量”就越大,理论上能够学习和记忆的知识就越丰富。
而训练数据则是用来“教育”模型的资料,就像给学生提供的教科书和参考资料。模型通过阅读海量信息来学习语言规律、知识事实和推理模式。训练数据越多越丰富,模型学到的知识就越广博,一个博览群书的学者肯定比只读过几本书的人更有学问。
2018、2019、2020 年,OpenAI 陆续发布了 GPT 的三个版本,对比来看它们的参数以及训练规模(如表 5-1)。
模型 | 发布时间 | 参数量 | 训练数据****规模 |
---|---|---|---|
GPT-1 | 2018年 | 117M | 40GB |
GPT-2 | 2019年 | 1.5B | 40GB |
GPT-3 | 2020年 | 175B | 570GB (约45TB的原始文本经过预处理后有效数据量大约是这个级别) |
表 5-1 GPT-1、GPT-2、GPT-3规模对比
可以看到从 GPT-1 到 GPT-3,参数量增长了约 1500 倍,训练数据量增长了约 1000 倍。
当研究者们系统地研究模型规模与性能的关系时,他们发现了一个惊人的规律:模型性能与参数量、数据量、计算量之间存在幂律关系,在数学上可以称之为 缩放定律(Scaling Laws),数学公式如下:
我们不去介绍复杂的数学公式,简单来说,这个公式告诉我们:模型越大,效果越好,而且这种关系是可预测的。
使用语言建模任务和 SuperGLUE 基准测试两组数据来看下他们的性能对比(如表 5-2),在语言建模任务中通常使用 困惑度(Perplexity) 来表示其性能,困惑度当然是越低越好。而 SuperGLUE 基准测试是 NLP 领域的重要评测基准,旨在评估大规模预训练语言模型在复杂语言理解任务上的性能。
任务 | GPT-1 | GPT-2 | GPT-3 | 备注 |
---|---|---|---|---|
困惑度 | ≈35 | ≈20 | ≈15 | 数值越低越好 |
SuperGLUE分数 | 约30分 | 约50分 | 约71分 | 人类水平约89分 |
表 5-2 GPT-1、GPT-2、GPT-3性能对比
从这些数据我们可以清晰地看到,随着模型规模的扩大,性能确实在持续提升。
5.4.2 涌现
规模效应最令人震惊的不是性能的线性提升,而是当达到一定规模时产生的质变。
当模型规模达到某个临界点时,会突然出现之前没有的新能力。这种现象被称为 涌现(Emergence),即系统整体表现出的、单个组成部分所不具备的性质或能力。这些能力并不是通过专门训练得来的,而是自发产生的。
涌现能力有几个特点:
- 突发性: 能力不是逐渐增强,而是某个规模突然出现
- 不可预测: 无法准确预测具体能力和出现时间
- 质的跃变: 不是量的改善,而是本质上的新能力
GPT-3 的出现就展示出了令人惊讶的涌现能力。
(1)上下文学习(In-Context Learning)
GPT-3 可以通过给定少量示例,理解并执行新任务,这意味着它无需专门去训练就能够即插即用。
输入:
English: Hello → Chinese: 你好
English: Thank you → Chinese: 谢谢
English: Good morning → Chinese:
输出:
早上好
(2)代码生成
虽然 GPT‑3 主要用自然语言训练,但它展现出了强大的代码生成能力。
# 需求: "写一个Python函数,计算斐波那契数列的第n项"
# GPT-3 回答
def fibonacci(n):
if n <= 1:
return n
else:
return fibonacci(n-1) + fibonacci(n-2)
(3)数学推理
GPT-3 能够进行多步骤的数学推理,分步计算并且一步步的推导出结果,无需显式编程。
输入: "小明有24个苹果,他给了小红1/3,又给了小李1/4。请问小明还剩多少个苹果?"
输出: "小明原有24个苹果
给小红:24 × 1/3 = 8个
给小李:24 × 1/4 = 6个
总共给出:8 + 6 = 14个
剩余:24 - 14 = 10个苹果"
(4)创造性写作
GPT3 还可以生成诗歌和趣味故事,展现出了一定的创造力。
输入: "写一首关于人工智能的诗"
GPT-3输出:
"在数据的海洋里游弋,
在算法的森林中思考,
我是人类智慧的映射,
也是未来世界的探索者。"
5.4.3 涌现能力的影响
GPT-3 展现出强大的涌现能力后,研究者们开始深入研究涌现的临界规模(门槛)。研究发现,不同的涌现能力出现的门槛也有所不同。比如,基础的上下文学习能力可能在 10 亿参数左右就开始发挥作用,而生成代码的能力则更倾向于出现在300–500亿参数区间;复杂数学推理能力通常需要 1000 亿参数及以上才能稳定展现。这种现象类似于物理学中的相变:液态受冷凝固为固态,能力并非渐渐增强,而是一旦“临界温度”触发,质变便会发生。
GPT-3 的成功特别是涌现能力的展现,引发了一场全球性的“规模竞赛”。
全球的头部公司几乎同时开始加入了这场规模竞赛,参数量、训练数据规模好像成为了头部公司能力的体现。Google 的 Switch Transformer 模型参数高达 1.6 万亿;DeepMind 的 Gopher 模型有 2800 亿参数;Meta 的 OPT 系列也达到了 1750 亿;国内的阿里通义、百度文心、腾讯混元等模型也纷纷进入百亿、千亿阵营。
规模增长当然是有代价的,它伴随着巨大的计算成本,GPT-3 的训练超过了 400 万美元,而且大型语言模型的能耗非常之高,只有少量拥有大量资源的团队才能支撑起超大规模模型的训练,技术门槛很高。
当然,面对庞大规模带来的高昂成本与环境压力,部分研究者们也开展了很多效率和可持续性的优化尝试,从而产生了 知识蒸馏、 参数剪枝、 低精度量化、 混合精度训练、 梯度累积、 模型并行,以及 稀疏激活机制 和 混合专家架构 等等技术。这些技术帮助我们在削减资源消耗的同时,让大模型继续保持性能优势。
大模型的涌现能力虽然带来了很多惊喜,但同样也有很多问题存在。因为我们并不清楚涌现能力的具体机制,也难预测下一个临界能力会是什么,更无法精准控制这些能力何时出现。如果认知能力可以涌现,意识是否也可能突然出现?如何确保涌现的能力始终对人类有益?
Last updated on
5.3 代码理解的 Transformer 时代
Transformer 架构的强大能力迅速被应用于代码理解领域,并显示出超越自然语言处理的潜力。模型如 CodeBERT 通过在代码和其对应的自然语言文档上进行双模态预训练,实现了代码搜索和克隆检测等任务的突破。随后的 GraphCodeBERT 进一步引入代码的数据流图,显式地建模程序结构,从而获得更深层次的语义理解能力。这标志着 AI 正从简单地“阅读”代码文本,迈向真正“理解”程序逻辑的时代。
5.5 如何让大模型听话且有用?
进入“大模型时代”后,AI展现出强大的通用能力,但这也带来了新的挑战:如何确保这些庞大而复杂的模型是可控、可靠且负责任的?