AI Evolution

3.1 符号主义时代的智能分歧

在符号主义占据主导地位的时代,连接主义、行为主义和统计方法论等不同的智能理论已悄然萌芽。连接主义试图模拟大脑神经元,但因无法解决“异或”等线性不可分问题而受挫。行为主义则强调通过与环境的直接互动和“试错”学习来塑造智能行为。与此同时,以贝叶斯定理为代表的统计方法论为处理不确定性问题提供了数学基础。然而,由于理论局限、计算能力不足以及符号主义的强势地位,这些思想在当时未能成为主流。

符号主义统治了 AI 领域近 30 年,直到 20 世纪 80 年代中期,专家系统的商业泡沫开始破灭,那些曾经被边缘化的想法才逐渐重新回到了历史舞台。

3.1.1 连接主义的起源与挫折

人是怎么思考的?

想象一下,你的大脑就像一座拥有 860 亿个居民的超级城市,每个居民(神经元)都在以每秒 120 米的速度疯狂地互相发送微信消息(电信号)。这些居民通过错综复杂的社交网络(神经网络)连接在一起,有的是邻居,有的隔着十万八千里,但他们协同工作,创造出了人类的意识、思考、情感和智慧。

既然人类的智能来自这个生物“微信群”的集体智慧,那么不妨大胆假设: 能不能用计算机来模拟这些神经元,创造出人工的智能?

这就是典型的连接主义,这个流派的核心思想是“通过模拟人脑神经元的连接机制来实现智能”。

生物神经元由细胞体、树突、轴突和突触组成(如图3-1左),树突负责接收其他神经元的信号,轴突负责向其他神经元发送信号,突触控制信号传递的强度,而细胞体整合所有输入信号。

早在 1943 年,神经科学家 沃伦·斯特吉斯·麦卡洛克(Warren Sturgis McCulloch) 和数学家 沃尔特·哈里·皮茨(Walter Harry Pitts Jr.) 做了一件前无古人的事:把生物神经元抽象成数学模型,这就是大名鼎鼎的神经元模型(简称“M-P模型”)(如图 3-1 右)。

图 3-1 生物神经元(左)数学神经元M-P模型(右)示意图图 3-1 生物神经元(左)数学神经元M-P模型(右)示意图

把神经元模型进行数学抽象,就变成了这样:

y = f(w₁x₁ + w₂x₂ + ... + wₙxₙ + b)

其中:

  • x 是特征,也可以理解为输入信号(来自其他神经元)
  • w 是权重(突触强度)
  • b 是阈值(激活条件)
  • f 是激活函数(神经元的反应方式)
  • y 是输出结果

举一个例子,假设我们要用人工神经元判断“今天是否应该出门”,应该按照以下步骤进行操作。

  1. 把所有可以影响到今天是否应该出门的特征罗列一下(计算机只能处理数字,无法理解“天气”“心情”等文字描述,所以我们需要给这些特征打分,就像给电影评分一样):
    1. 特征1:天气好坏 (x₁=0.8,今天是大晴天)
    2. 特征2:心情状态 (x₂=0.6,心情还不错)
    3. 特征3:工作紧急程度 (x₃=-0.9,当下有超级紧急的工作,严重阻碍出门)
  2. 权重设置(每个特征的重要程度):
    1. w₁=0.5 (天气对我来说中等重要)
    2. w₂=0.3 (心情对我来说不太重要)
    3. w₃=0.8 (工作对我来说非常重要)
  3. 设定一个阈值(“出门的门槛”,即使所有特征权重算下来都是0分(既不好也不坏),你还需要多少“推力”才会出门?):
    1. b=-0.2 (不爱出门,倾向于不出门,需要额外的0.2分“推力”才能说服自己出门)。

代入公式,最终的结果为:

0.5×0.8 + 0.3×0.6 + 0.8×(-0.9) + (-0.2) = -0.34

最终得分是 -0.34,是负数,说明阻碍出门的特征因素更强,所以决定不出门,在家工作。

这个模型虽然简单,但蕴含着一个革命性的思想:智能可能不需要复杂的符号操作,而是来自简单单元的组合。

1958 年,心理学家 弗兰克·罗森布拉特(Frank Rosenblatt) 基于 M-P 神经元模型,发明了第一个能够学习的人工神经网络模型 —— 感知机,但是它极为简单,只能对数据分类,比如判断“是/否”“对/错”“猫/狗”,也就是说它只能处理线性可分的问题。

那么,感知机是如何学习的?

假如我们想通过考试成绩以及作业完成率判断学生是否通过了课程,按照上面说的神经元抽象公式,随机初始化一组参数。

  • 输入信息。特征 1:考试成绩(x₁=75,满分为 100),特征 2:作业完成率(x₂=80%=0.8,百分比)
  • 权重。考试成绩(w₁=0.4),作业完成率(w₂=0.3)
  • 阈值。b=-10(若加权后大于 0 则通过,反之不通过)

最终的结果为:

0.4×75 + 0.3×80 − 10 = 44

由于最终结果是 44,大于 0,所以机器判断该学生通过了课程。

假设 75分 和 80% 的作业完成率不能通过课程,我们告诉机器结果不正确,这时机器会自动根据规则调整权重以及阈值这两个参数,再次给出结果,如果结果仍然不正确就再次调整参数,这样反反复复的训练无数次,直到感知机模型能够在绝大多数情况下都回答正确。

这就是感知机学习的过程:通过不断犯错、纠正、调整,最终学会正确识别模式。

1958 年,《纽约时报》报道感知机时写道:“这是一个能够行走、说话、看见、写字、自我复制,并且意识到自己存在的机器胚胎。”

这种夸张描述在今天看来好像似曾相识,因为每次人工智能有所突破,媒体总是这么兴奋。不过,当时这看上去确实很厉害。那么为什么这种基于神经网络的感知机模型并没有成为主流呢,甚至未来的几十年里,都是符号主义流派占据主导地位?

这是因为符号主义的领袖 人物马文·明斯基(Marvin Minsky)西摩·帕普特(Seymour Papert) 在 1969 年发表的 《感知机:计算几何学》(Perceptrons: An Introduction to Computational Geometry) 一书,给神经网络判了"死刑"。

明斯基找到了感知机的致命弱点,即无法解决看似简单的 “异或”(XOR) 问题。什么是异或问题?如果大家有编程基础,就会知道异或是一个简单的逻辑运算,它的规则是两个相同输入时输出 0,两个不同输入时输出 1,如表 3-1。

x₁(输入)x₂(输入)y(输出)
000
011
101
110

表 3-1 异或(XOR)函数定义

还用上文中“是否决定出门”为例,假设有两个特征因素需要考虑。

  • A:天气是否晴朗(1=晴天,0=阴雨)
  • B:是否有工作安排(1=有安排,0=没安排)

我们穷举所有可能性进行分类

  • 情况1:阴雨天,没工作安排 (0,0) 不出门 (0)
  • 情况2:阴雨天,有工作安排 (0,1) 出门 (1)
  • 情况3:晴天,没工作安排 (1,0) 出门 (1)
  • 情况4:晴天,有工作安排 (1,1) 不出门 (0)

可以看到,最终的结果是在“晴天但没工作安排”或“阴雨天但有工作安排”时出门,这明显是不对的。

如果用二维平面上的点表示这 4 个输入组合(如 (0,0)、(1,1) 对应输出 0,(0,1)、(1,0) 对应输出 1),我们发现无论如何都无法画一条直线把 “0” 和 “1” 完全分开。

  • 画横线?不行,上下都有 ● 和 ×;
  • 画竖线?不行,左右都有 ● 和 ×;
  • 画斜线?也不行,无论怎么画都会把 ● 和 × 分在同一边。

图 3-2 异或(XOR)线性不可分示意图图 3-2 异或(XOR)线性不可分示意图

这就是 XOR 的线性不可分问题:两类数据在平面上交错分布,无法用任何一条直线分开。

上文介绍了神经元的数学抽象公式,感知机也使用这个公式,基于这个公式,我们代入一下:

y = w₁×天气 + w₂×工作 + b

我们讨论的是异或情况,所以天气和工作都仅有0和1选项,即:

  • (0,0) —— w₁×0 + w₂×0 + b = b < 0(不出门);
  • (0,1) —— w₁×0 + w₂×1 + b = w₂ + b > 0(出门);
  • (1,0) —— w₁×1 + w₂×0 + b = w₁ + b > 0(出门);
  • (1,1) —— w₁×1 + w₂×1 + b = w₁ + w₂ + b < 0(不出门);

从前 2 个条件可以得出 b<0 且 w₂+b>0,所以 w₂>-b>0。

从第 3 个条件可以得出 w₁+b>0,所以 w₁>-b>0。

但第 4 个条件得出的是 w₁+w₂+b<0。

这就产生了矛盾:w₁>0,w₂>0,但 w₁+w₂+b<0 意味着 w₁+w₂<-b,而前面推出 w₁>-b,w₂>-b。

在数学上,这是一个无解的问题,而这就是明斯基的致命一击。异或问题看上去简单,但是它映射了现实世界中大量的复杂问题,明斯基用这个简单例子证明了感知机这种线性模型根本无法处理现实世界的复杂问题。

其实在当时,很多人都清楚在理论上多层神经网络有可能解决异或问题,明斯基也知道,但是明斯基在书中断言:“没人知道如何去训练多层网络,而且可能永远也不会知道。”也正是明斯基的这本书,让神经网络这种连接主义派的研究近乎停滞,人工智能的发展大方向依旧由符号主义派主导。

3.1.2 行为主义的早期探索

几乎在连接主义开始发展的同一时期,另一种人工智能流派——行为主义,也在悄悄发展。行为主义派的想法甚至比连接主义还要“荒谬”,他们认为智能不在于思考,而在于行动。

1938 年,心理学家 伯尔赫斯·弗雷德里克·斯金纳(Burrhus Frederic Skinner) 做了一个实验:

  • 把一只小白鼠放在箱子里;
  • 箱子里有一个杠杆;
  • 按压杠杆会掉出食物。

持续观察小白鼠的行为:

  • 第 1天,小白鼠随意乱动,偶然碰到杠杆,获得食物;
  • 第 2 天,小白鼠开始更多地接近杠杆区域;
  • 第 3 天,小白鼠学会主动按压杠杆;
  • 第 7 天:小白鼠熟练掌握了“按杠杆获得食物”的行为模式。

实验证明,学习不需要理解因果关系,奖励和惩罚就可以塑造行为,而随机探索是发现新策略的关键,这就是“操作性条件反射理论”,这个实验也被称为“斯金纳箱实验”。操作性条件反射理论机制(如图 3-3)。

图 3-3 操作性条件反射理论机制图 3-3 操作性条件反射理论机制

为什么我们说狗更通人性,因为狗是可以被驯化的,而在驯化狗做一件事情的过程中,我们通常会在狗做对了的时候奖励食物、做错了的时候给予惩罚,显然,狗是不可能一次性学会的,它需要反复的试错、奖惩才可以表现的通人性,而这其实也是操作性条件反射理论机制的一种体现。

这种“试错+奖惩”的学习模式经过一些演化应用其实就是早期的强化学习。

1948 年数学家 诺伯特·维纳(Norbert Wiener)《控制论》 反复强调反馈和适应的重要性,他观察到,智能行为不需要复杂的内部表示,而是可以通过简单的感知和行动循环实现。

英国神经生理学家 威廉·格雷·沃尔特(William Grey Walter) 在 1948 年和 1949 年间制造了两个简单的机器乌龟 —— ElmerElsie。它们只有两个传感器(光敏传感器和触觉传感器)和两个马达,但表现出了复杂的行为:

  • 类似昆虫的趋光性(弱光吸引,强光排斥)
  • 模拟“生存本能”(在黑暗中自动寻找光源)
  • 障碍规避(触碰障碍后随机转向继续移动)
  • 社会交互(两只机器乌龟会因为彼此的光源吸引)

这种基于环境的行为响应是控制论的早期实践,通过简单规则可以产生复杂的行为,它的设计给予了后期机器人产业很深的启发。这两个机器人甚至没有内部模型、没有规划算法,但它们的行为看起来很像“智能”。

想象你正在高速上开车保持车道,当车子偏左了,你会向右打方向盘,当车子偏右了,你会向左打方向盘,如此循环下去,你的车子始终在车道中央行驶。没有复杂的路径规划,只有简单的纠错反应,这种简单的纠错反馈循环其实就产生了看似“智能”的行为,这就是 《控制论》 想要表达的,也是行为主义派的核心思想。

虽然随后的几十年里,行为主义在理论以及实践上都有很大的进展,但是直到 20 世纪 80 年代前,行为主义都是一个边缘化的人工智能派系。因为行为主义这种无须世界模型、直接从感知到行动的反应式架构,相比传统的“感知→建模→规划→行动”架构来说,显得不是那么“科学”。当时的计算能力也不足以支撑行为主义做一些复杂性探索,其应用场景仅限于机器人领域,商业价值不够明显。最重要的是,当时的符号主义技术理论频频突破,占据了绝大多数话语权。

3.1.3 统计方法论

符号主义相信“推理”,连接主义相信“模拟”,行为主义相信“行动”,在这三大人工智能流派发展的同时,还有一股重要的技术理论在悄悄发展,它就是“统计方法论”。

与三大流派不同,统计方法论并不是第4个流派,而是一套数学工具和思维方式,它可以被应用到任何一个流派中,为处理不确定性问题提供数学理论基础。

1948 年,数学家克劳德·香农提出了信息论,他发现信息的本质就是减少不确定性。这启发了一些研究者:也许智能的核心不是精确的逻辑推理,而是在不确定性中做出最好的判断。

想象一下,我们要判断明天是否会下雨。

  • 传统符号主义:查阅所有气象规则,如果气压下降且温度上升,则下雨。
  • 统计方法:查看历史数据,过去 100 天中,类似今天这种天气的日子里,有 70 天下雨,所以明天大概率下雨。

这就是统计方法论,用数据说话,让概率决定结果。

早在18世纪,数学家 托马斯·贝叶斯(Thomas Bayes) 就提出了一个简单的数学公式 —— 贝叶斯公式(也叫“贝叶斯定理”),直到 20 世纪贝叶斯公式才重新发挥了作用:

P(结论|证据) = P(证据|结论) × P(结论) / P(证据)

这个公式看上去很抽象,但其实我们每天都在用。假设你收到一封邮件,标题是“恭喜你中奖100万元”,你会怎么判断这是不是垃圾邮件?按照人类的直觉思考,“中奖”这个词汇是经常出现在垃圾邮件里的,因为大概率是骗人的,真正的中奖通知也不会这么写,所以很可能是垃圾邮件。

我们可以按照贝叶斯数学公式来数学化这个例子:

  • P(结论|证据)——在看到某个证据后,我们的结论是对的概率;
  • P(证据|结论)——如果结论是对的,会出现这个证据的概率;
  • P(结论)——在没有任何证据前,结论本身的概率(先验概率);
  • P(证据)——这个证据出现的总概率。

假设所有邮件中垃圾邮件出现的初始概率是 10%,垃圾邮件中出现“中奖”字样的概率是 60%。正常邮件中包含“中奖”字样的概率是 1%。

P(垃圾邮件|"中奖") = 0.6×0.1 / (0.6×0.1 + 0.01×0.9) = 0.87

根据概率统计这封带“中奖”字样的邮件是垃圾邮件的概率为 87%,所以我们可以认为它是一个垃圾邮件。

贝叶斯定理提供了一种科学的方法来处理不确定性,避免直觉判断的陷阱。而我们举的垃圾邮件的例子,就是早期现实中各邮箱平台判定垃圾邮件的真实方法。

统计方法论在三大人工智能流派中都有应用,如符号主义专家系统开始使用“置信度”来表示规则的可靠性,不再是绝对的“真/假”,而变成了可能性;连接主义神经网络的权重更新其实本质上就是统计学习的过程,通过大量数据统计找到最优的连接方式;行为主义强化学习就是典型的统计方法,通过循环试错统计哪些行为能够获得更好的奖励。

统计方法论为后来的统计学习奠定了理论基础,但由于统计概率需要大量的数据支撑,所以早期的计算能力也是统计学习始终迈不过去的“坎”。

3.1.4 被抑制的想法

在 20 世纪 80 年代之前,连接主义、行为主义和统计方法论都没有成为主流,原因也很简单:

  • 计算能力不足
  • 理论基础不够完善
  • 符号主义太过强势

20 世纪 80 年代以前,个人计算机还没有普及,计算机内存基本都以 KB 为单位,计算能力严重不足,进行大规模的数据处理几乎不可能,很多数据的处理太过依赖于人工。

无论是连接主义、行为主义还是统计方法论,理论基础都不是很完善,连接主义没有多层网络训练算法,也就解决不了异或问题。行为主义的强化学习缺乏成体系的理论保证,而统计方法的计算复杂度实在太高。

虽然在当下的我们看来,符号主义几乎是幻想,但在当时符号主义的理论以及实践成果给人一种人工智能就在当下的错觉,政府资金也主要投向符号主义,有了资金就有了人才,学术界大量的人才都是符号主义派别的。直到 20 世纪 80 年代中后期,历史的车轮转动,符号主义的专家系统泡沫逐渐开始破裂,人们发现它并没有想象中那么智能,再加上计算能力的大幅提升,才让这些曾经边缘化的理论开始陆续有了突破性进展。

Edit on GitHub

Last updated on