AI 发展史

人工智能不是突然出现的。



今天看到的 AI,尤其是 ChatGPT、Claude、Gemini、Copilot、Codex 这一类产品,很容易让人产生一个错觉:

AI 是最近几年才爆发的技术。

事实不是这样。

AI 的历史已经超过半个世纪。它经历过多次乐观、失望、降温和重新爆发。每一次爆发都不是凭空出现,而是由三件事共同推动:

  1. 算法变化。
  2. 数据增长。
  3. 计算能力提升。

这三件事只要缺一项,AI 就很难真正进入可用阶段。


一、AI 之前:机器能不能思考

AI 作为一个正式学科诞生之前,人类已经在思考一个问题:

机器能不能表现出类似人的智能?

早期关键背景包括:

  1. 数学逻辑的发展。
  2. 计算机理论的建立。
  3. 神经科学对大脑的初步建模。
  4. 二战后电子计算机的出现。

1943 年,Warren McCulloch 和 Walter Pitts 提出了人工神经元的早期数学模型。这个模型非常粗糙,但它给了后来的神经网络一个起点:神经元可以被抽象成可以计算的结构。

1950 年,Alan Turing 发表《Computing Machinery and Intelligence》,提出著名的“图灵测试”。这不是现代意义上的 AI 系统,但它给出了一个重要视角:

判断机器是否智能,不一定要知道机器内部是否真的“思考”,可以先看它的外部行为是否表现出智能。

这一阶段还没有真正的 AI 工程体系,更多是思想准备。


二、1956:AI 作为学科诞生

1956 年,Dartmouth Summer Research Project on Artificial Intelligence 举行。

这次会议通常被认为是人工智能作为独立研究领域的起点。“Artificial Intelligence”这个术语也在这一时期被正式提出。

早期 AI 的核心信念是:

只要把人类推理过程写成规则,机器就能表现出智能。

这一时期的代表方向包括:

  1. 符号推理。
  2. 搜索算法。
  3. 自动定理证明。
  4. 早期自然语言处理。
  5. 早期游戏程序。

它的技术路线可以概括为:

智能 = 规则 + 逻辑 + 搜索。

例如,解决一个问题时,程序会在可能状态中搜索,按照人写好的规则进行推理,然后得到答案。

这条路线在一些封闭问题上有效。棋类、数学证明、简单规划任务,都能看到成果。

但问题很快出现:

现实世界不是封闭的。

真实语言有歧义,常识很难写成规则,视觉和感知问题也无法只靠逻辑规则解决。


三、1958:感知机与早期神经网络

1958 年,Frank Rosenblatt 提出了 Perceptron,中文通常译为“感知机”。

感知机是早期人工神经网络的代表。它可以根据输入特征学习分类规则,例如判断一个图案属于哪一类。

这条路线和符号主义路线不同。

符号主义认为智能来自规则。
神经网络路线认为智能可以来自数据中的学习。

感知机的重要意义在于:

  1. 它不是完全手写规则。
  2. 它可以从样本中调整参数。
  3. 它展示了“机器学习”的早期形态。

但感知机也有明显限制。

单层感知机只能处理线性可分问题。对于 XOR 这类简单但非线性的问题,单层感知机无法解决。

1969 年,Marvin Minsky 和 Seymour Papert 出版《Perceptrons》,系统分析了感知机的限制。虽然后来的多层神经网络可以解决这些问题,但当时的算法、算力和数据都不成熟,神经网络研究很快进入低潮。


四、第一次 AI 寒冬:期望过高,能力不足

20 世纪 60 年代,AI 研究非常乐观。

很多人相信,只要继续投入几年,机器翻译、通用推理、自动理解语言等问题就能快速解决。

结果并没有发生。

当时 AI 系统的主要问题是:

  1. 只能在小规模演示中工作。
  2. 依赖人工规则。
  3. 缺少常识。
  4. 对真实数据不鲁棒。
  5. 计算资源不足。

机器翻译是典型案例。

早期研究者以为,只要把词典和语法规则写进去,机器就能翻译语言。实际情况复杂得多。语言包含语境、隐喻、习惯表达、世界知识,这些都很难用规则完全覆盖。

当承诺无法兑现,资金支持减少,AI 进入第一次寒冬。

这个阶段说明了一件事:

演示系统和可用系统之间有很长距离。


五、专家系统时代:把专家知识写进机器

20 世纪 70 年代后期到 80 年代,AI 重新升温。

这一次的主角是专家系统。

专家系统的基本思路是:

把某个领域专家的经验写成规则,让计算机像专家一样推理。

典型结构包括:

  1. 知识库。
  2. 推理引擎。
  3. 规则系统。
  4. 人机交互界面。

它的技术路线可以概括为:

智能 = 专家规则 + 推理引擎。

专家系统在一些专业领域有实际价值,例如医学诊断、化学分析、工业控制、金融规则判断。

它比早期纯理论 AI 更接近商业应用。

但它的缺陷也很明显:

  1. 知识获取成本高。
  2. 规则维护困难。
  3. 系统迁移能力差。
  4. 面对例外情况容易失败。
  5. 规则越多,冲突越多。

专家系统本质上还是依赖人工把知识编码进去。

它能处理“明确规则很多”的领域,但处理不了开放世界。

到了 80 年代末,专家系统市场泡沫破裂,很多项目维护成本高于实际收益,AI 再次进入低谷。

这就是第二次 AI 寒冬。


六、统计机器学习:从写规则到从数据中学习

20 世纪 90 年代到 2000 年代,AI 的主线发生变化。

研究重点从“写规则”转向“从数据中学习规律”。

这一阶段的代表方法包括:

  1. 决策树。
  2. 支持向量机。
  3. 朴素贝叶斯。
  4. 隐马尔可夫模型。
  5. 条件随机场。
  6. 随机森林。
  7. 梯度提升树。

它的技术路线可以概括为:

智能 = 数据 + 特征 + 统计模型。

这一阶段的 AI 通常不叫“AI”,更多被称为机器学习。

它不再试图一次性解决通用智能问题,而是解决具体任务:

  1. 垃圾邮件识别。
  2. 搜索排序。
  3. 推荐系统。
  4. 语音识别。
  5. 手写数字识别。
  6. 风控模型。
  7. 广告点击率预测。

这个阶段非常重要。

它让 AI 从实验室逐渐进入互联网工业系统。

但它依然有明显限制:

  1. 需要大量人工特征工程。
  2. 每个任务通常要单独建模。
  3. 模型表达能力有限。
  4. 很难直接处理图像、语音、自然语言中的高维复杂模式。

统计机器学习解决了很多实际问题,但它还不是今天看到的大模型形态。


七、深度学习爆发:特征开始自动学习

2006 年以后,深度学习逐渐复兴。

深度学习的核心变化是:

不再完全依赖人工设计特征,而是让多层神经网络从数据中自动学习特征表示。

真正的爆发点出现在 2012 年。

2012 年,AlexNet 在 ImageNet 图像识别比赛中取得重大突破。它使用深度卷积神经网络,并借助 GPU 训练,大幅提升了图像分类效果。

这件事改变了 AI 研究方向。

从此以后,深度学习开始成为主流。

这一阶段的代表技术包括:

  1. CNN,用于图像任务。
  2. RNN,用于序列任务。
  3. LSTM、GRU,用于长序列建模。
  4. Word2Vec,用于词向量表示。
  5. Seq2Seq,用于机器翻译。
  6. Attention,用于改善序列建模。

它的技术路线可以概括为:

智能 = 大数据 + 神经网络 + GPU。

深度学习推动了很多应用进步:

  1. 图像识别。
  2. 人脸识别。
  3. 语音识别。
  4. 机器翻译。
  5. 自动驾驶感知。
  6. 医学影像分析。

2016 年,DeepMind 的 AlphaGo 以 4:1 战胜李世石。这个事件让大众重新认识 AI。

AlphaGo 的意义不只是“机器会下围棋”。

它代表了几种技术的组合:

  1. 深度神经网络。
  2. 强化学习。
  3. 蒙特卡洛树搜索。
  4. 大规模计算。

这说明 AI 已经可以在复杂搜索空间中达到甚至超过顶级人类表现。

但深度学习时代也有局限:

  1. 模型通常是任务专用的。
  2. 训练需要大量标注数据。
  3. 可解释性差。
  4. 泛化能力有限。
  5. 很多模型只能解决单一问题。

它很强,但还没有成为通用工具。


八、Transformer:大模型时代的基础

2017 年,论文《Attention Is All You Need》提出 Transformer 架构。

这是现代大语言模型的关键基础。

Transformer 的核心变化是:

用 self-attention 替代传统 RNN、CNN 作为序列建模的核心结构。

它的优势包括:

  1. 更适合并行训练。
  2. 更容易处理长距离依赖。
  3. 更适合大规模数据和大模型参数扩展。
  4. 可以统一处理文本序列中的上下文关系。

这一阶段的技术路线可以概括为:

智能 = Transformer + 海量文本 + 大规模预训练。

Transformer 出现后,NLP 进入预训练模型时代。

代表模型包括:

  1. BERT。
  2. GPT。
  3. T5。
  4. RoBERTa。
  5. XLNet。

这一阶段的核心变化是:

模型不再只为一个任务训练,而是先在大规模语料上预训练,再通过微调或提示词适配不同任务。

这带来了一个重要结果:

同一个模型开始具备多任务能力。

它可以做分类、问答、翻译、摘要、代码补全、信息抽取。

这就是 Foundation Model,基础模型。


九、生成式 AI:从模型能力到产品能力

2022 年 11 月 30 日,OpenAI 发布 ChatGPT。

这个节点非常关键。

在 ChatGPT 之前,大语言模型已经存在,但更多停留在研究、API、少数开发者工具中。

ChatGPT 把大语言模型做成了普通人可以直接使用的产品。

它的变化不只是模型本身,还包括:

  1. 对话式交互。
  2. 指令跟随能力。
  3. RLHF 对齐。
  4. 更低的使用门槛。
  5. 更强的通用任务覆盖。

从这个阶段开始,AI 从“模型技术”变成“通用生产力工具”。

生成式 AI 的典型能力包括:

  1. 写作。
  2. 翻译。
  3. 总结。
  4. 编程。
  5. 问答。
  6. 图像生成。
  7. 音频生成。
  8. 视频生成。

这一阶段的技术路线可以概括为:

智能 = 大模型 + 指令对齐 + 产品化交互。

它和之前 AI 最大的不同在于:

过去很多 AI 系统是“专用工具”。
生成式 AI 更像“通用接口”。

用户不需要理解模型结构,只需要用自然语言描述任务。

这直接改变了软件使用方式。


十、多模态:AI 不只处理文字

大语言模型最初主要处理文本。

但现实世界不是只有文本。

人类理解世界依赖文字、图像、声音、视频、动作等多种信号。

所以,生成式 AI 很快进入多模态阶段。

多模态 AI 的目标是让模型处理不同类型的信息:

  1. 文本。
  2. 图片。
  3. 音频。
  4. 视频。
  5. 屏幕。
  6. 文件。
  7. 代码。

典型能力包括:

  1. 看图回答问题。
  2. 识别截图中的 UI。
  3. 分析 PDF。
  4. 根据语音对话。
  5. 生成图片。
  6. 生成视频。
  7. 理解代码仓库。

这一阶段的技术路线可以概括为:

智能 = 大模型 + 多模态输入输出。

多模态的意义在于:

AI 开始接近真实工作流。

真实工作不是纯文本任务。一个开发者可能要看代码、读文档、看截图、跑命令、分析日志。一个设计师可能要看图、改图、写文案、生成方案。一个运营人员可能要读表格、看图表、写报告。

多模态让 AI 从“聊天窗口”逐渐进入实际工作场景。


十一、Agent 阶段:从回答问题到执行任务

当前 AI 的一个重要方向是 Agent。

Agent 不是单纯聊天机器人。

它通常具备以下能力:

  1. 理解任务目标。
  2. 拆分步骤。
  3. 调用工具。
  4. 读取和修改文件。
  5. 执行命令。
  6. 根据结果继续调整。
  7. 输出最终结果。

如果说 ChatGPT 代表的是“对话式 AI”,那么 Agent 代表的是“执行式 AI”。

在编程场景中,Agent 的能力非常明显。

它可以:

  1. 阅读整个项目。
  2. 定位 bug。
  3. 修改代码。
  4. 运行测试。
  5. 查看报错。
  6. 继续修复。
  7. 生成提交说明。

这一阶段的技术路线可以概括为:

智能 = 大模型 + 工具调用 + 环境反馈。

Agent 的本质不是模型突然有了“意识”,而是模型被放进了一个可以行动的系统中。

模型负责推理和生成计划。
工具负责读取环境和执行动作。
反馈负责告诉模型结果是否正确。
人负责设置目标、权限和最终验收。

Agent 阶段的难点也很明确:

  1. 容易跑偏。
  2. 长任务稳定性不足。
  3. 工具调用可能出错。
  4. 权限控制很重要。
  5. 结果需要验证。
  6. 成本和速度仍然是问题。

所以 Agent 不是“完全自动化替代人”,更准确地说,是把 AI 从回答系统推进到执行系统。


十二、AI 发展的几个阶段总结

按技术路线划分,AI 发展可以粗略分成这些阶段:

阶段 时间 核心方法 代表事件 主要限制
思想准备期 1940s-1955 计算理论、人工神经元、图灵测试 McCulloch-Pitts 神经元、图灵测试 没有成熟工程体系
符号主义 AI 1956-1960s 逻辑、规则、搜索 Dartmouth 会议、早期推理程序 依赖手写规则,缺少常识
早期神经网络 1958-1960s 感知机 Rosenblatt 感知机 只能处理简单线性问题
第一次寒冬 1970s 资金收缩、预期回落 机器翻译受挫 承诺大于能力
专家系统 1970s-1980s 知识库、规则引擎 MYCIN、XCON 等专家系统 规则维护成本高
第二次寒冬 late 1980s-1990s 商业泡沫破裂 专家系统市场降温 迁移能力差,成本高
统计机器学习 1990s-2000s 数据、特征、统计模型 搜索、推荐、广告、风控 依赖人工特征工程
深度学习 2006-2016 神经网络、GPU、大数据 AlexNet、AlphaGo 多数模型任务专用
Transformer 与基础模型 2017-2021 Transformer、预训练 Attention Is All You Need、BERT、GPT 训练成本高,推理不稳定
生成式 AI 2022-2024 大模型、指令对齐、对话产品 ChatGPT 爆发 幻觉、成本、可靠性
多模态与 Agent 2024-现在 多模态、工具调用、执行环境 AI 编程助手、文件分析、自动化工作流 长任务稳定性和验证问题

这个划分不是绝对的。

很多技术路线是重叠发展的。

例如神经网络并不是 2012 年才出现,符号推理也没有完全消失。今天的大模型系统里,仍然会结合搜索、工具调用、知识库、规则、评估系统和人工审核。

AI 的历史不是一条直线,而是多条技术路线不断汇合。


十三、为什么这一轮 AI 爆发更强

这一轮 AI 爆发和过去几次不同。

原因主要有五个。

第一,数据规模不同。

互联网积累了海量文本、图片、代码、视频、语音数据。模型可以从这些数据中学习更广泛的模式。

第二,算力不同。

GPU、TPU、分布式训练、推理加速,让训练超大模型成为可能。

第三,模型结构不同。

Transformer 非常适合规模化。模型变大、数据变多、训练更充分后,能力会出现明显提升。

第四,产品形态不同。

ChatGPT 证明了自然语言可以成为通用交互入口。过去 AI 常常藏在系统内部,现在用户可以直接使用。

第五,生态不同。

API、开源模型、云服务、插件、Agent 框架、向量数据库、模型评测、AI IDE,这些工具形成了完整生态。

所以这轮 AI 不只是论文突破,而是研究、工程、产品、商业同时推进。


十四、现在 AI 还没有解决的问题

AI 发展很快,但问题也很清楚。

第一,幻觉。

模型可能生成看似合理但实际错误的内容。它的回答流畅,不代表内容正确。

第二,推理不稳定。

模型可以解决复杂问题,也可能在简单问题上犯错。它不是传统意义上的确定性程序。

第三,长上下文可靠性。

上下文窗口变大,不等于模型能稳定抓住所有细节。重要信息可能被稀释。

第四,成本。

训练和推理都需要大量算力。更强模型通常意味着更高成本。

第五,数据和版权。

训练数据来源、授权、隐私、生成内容版权,仍然是复杂问题。

第六,安全和权限。

Agent 可以执行工具后,风险不只是回答错误,还包括误删文件、泄露信息、执行危险命令。

第七,评估困难。

写作、设计、编程、推理并不总是有唯一标准答案。AI 是否真的完成任务,需要更复杂的评估方式。


十五、一个简短判断

AI 的发展不是从“没有智能”突然跳到“通用智能”。

它经历的是一系列能力扩展:

  1. 先能按规则推理。
  2. 再能从数据中学习。
  3. 再能识别图像和语音。
  4. 再能理解和生成语言。
  5. 再能处理多模态信息。
  6. 再能调用工具执行任务。

从规则系统到大模型,从专家系统到 Agent,AI 的核心变化是:

机器正在从计算工具变成认知工具,再进一步变成执行工具。

但它仍然不是人。

它没有稳定的常识系统,没有真实世界经验,也没有天然的责任意识。

所以当前最现实的使用方式不是把 AI 当成完全自主的主体,而是把它放进可控流程:

  1. 人定义目标。
  2. AI 生成方案。
  3. 工具执行操作。
  4. 自动检查结果。
  5. 人做最终判断。

这也是 AI 从实验室走向日常工作的真正路径。


参考

  1. Dartmouth workshop
  2. First artificial neural network
  3. Deep Blue - IBM
  4. First AI to beat a 9-dan professional Go player
  5. Attention Is All You Need
  6. Introducing ChatGPT - OpenAI