[]
        
(Showing Draft Content)

AI技术发展简史

本页面重点关注AI技术的发展沿革,帮助读者从技术发展的角度加深对AI技术的认识,为引入AI技术做好理论层面的准备。

推荐阅读:有一定软件背景的技术人员,如开发人员、软件项目经理、技术团队管理者、数据治理团队和数字化管理团队等。

一、AI的定义与核心目标

人工智能(Artificial Intelligence,AI)自诞生以来,一直是计算机科学和软件工程领域的重要研究方向。随着计算能力的提升、算法的演进以及数据规模的增长,AI技术在多个行业迅速落地,从早期的专家系统到今天的深度学习和大模型,AI的应用边界不断扩展,影响着软件开发、数据治理和数字化管理等多个领域。

从本质上讲,AI的目标是让机器具备模拟人类智能的能力,包括学习、推理、规划和创造等。早期的AI以符号主义和规则推理为核心,而后逐渐演进为基于统计学习的机器学习(Machine Learning, ML),并最终发展出深度学习(Deep Learning, DL)和大规模预训练模型(如GPT、BERT等)。在此过程中,AI的研究范式也经历了从手工构建知识到数据驱动学习的重大转变。


当前AI技术可以大致分为两大类:判别式AI(Discriminative AI)生成式AI(Generative AI)。判别式AI主要用于分类和预测,擅长识别模式、做出决策,如人脸识别、推荐系统等;而生成式AI则能够学习数据的分布,并生成新的数据,如文本生成、图像合成、代码自动补全等。这两类AI在实际应用中相辅相成,共同推动了智能系统的发展。

二、AI的典型形态与应用场景

AI的典型形态

不论是判别式AI还是生成式AI,AI的建模方式不同,但形态上高度一致。目前,绝大多数AI,都是以可运行的程序或者能嵌入软件的类库的形态存在。

  • 独立运行的程序:参数更多、生成式的AI因为资源占用更高,倾向于以独立软件的形式运行。比如ollama框架,可以加载包括deepseek在内的大多数开源的生成式AI模型。

  • 嵌入软件的类库:参数更少、判别式的AI对资源的占用较少,可以嵌入到软件中运行以降低部署复杂度。比如tenserflow框架,可以加载自行训练的判别式AI模型,再通过pytorch嵌入到其他采用python开发的软件中运行。

不论采用那种部署方式,这些AI都能以接口或服务的形式为用户或其他软件提供服务。这就意味着站在软件开发的角度,我们可以将AI简单的视作一个函数y=f(x),其输入参数x为我们向AI提出的问题,而输出参数y则是AI自主决策的结果。对于AI的使用者(用户或第三方软件)来说,它们无需关注f(x)函数的具体实现,只需要按照这个函数的定义调用即可。

比如,我们想让一个生成式AI写一首描述持续高温的七言绝句,只需要准备输入参数“最近一个月,西安持续高温,给我写一篇描述高温的七言绝句”,然后调用AI这个函数,它就会输出这首诗。这个函数调用过程就是我们使用AI的过程,如图1所示。


AI的输入与输出

(图1 AI的输入与输出)

AI的应用场景分类

除了刚才举例的文学创作,AI能够帮助我们做更多的事情,其应用场景已经渗透到各行各业。如今,行业普遍认为,AI是解决**“非预设规则”问题**的首选技术方案。这里的非预设规则是和预设规则相对应的。以下三个场景可以帮助您快速理解“非预设规则”的含义。

  1. 定时器:每天晚上10点播放闹钟音乐。定时是一种非常简单也很常见的预设规则。

  2. 温度调节器:如果湿度低于20%且人在传感器检测到房间中有人时开启加湿器直到温度高于40%或无人在房间。这里展示的是一个包含有逻辑计算(AND、OR)的规则,在企业软件中,此类规则比比皆是。

  3. 语音控制:如果听到“打开窗帘”时启动开窗帘电机。因为语音是一个复杂的信号,每个人的音色不同、表达习惯不同,再叠加上方言等因素,让我们无法预设每一个人“打开窗帘”的语音。这就是一个非常典型的非预设规则,也可以理解为“无法建立规则”。

    事实上,上面举例的语音控制就是AI的典型应用场景之一,采用的是判别式AI,我们为它输入一段语音,它输出的就是语音对应的文字。

事实上,在AI技术特别是生成式AI技术普及之前,我们通过传统的软件已经解决了绝大多数预设规则问题,而不能预设规则的,我们也通过引入人为参与的方式实现了一定程度上的自动化与智能化。随着AI技术的发展,我们需要重新审视这些易用性较差的软件功能模块以及因为缺乏预设规则而尚未有软件覆盖的应用领域,看看哪些“点”可以通过引入AI技术来实现质的提升。


综合考虑各种因素,被称为AI应用场景的“提升点”可以按照数据流转的框架,简单归纳为以下几个大类:

场景1、预处理

非结构化/模糊输入转化为机器可解析的标准化数据,解决规则难以定义的解析问题。

典型场景:

  • OCR(从模糊/倾斜的发票图片中提取文字,无法用固定模板匹配)

  • 语音转文本(处理带口音、背景噪音的客服录音,规则无法覆盖所有变体)

  • 表面缺陷检测(识别产品外观的未知缺陷类型,无法预先定义所有缺陷规则)

  • 实体识别(从非标准化合同中提取关键条款,条款表述千变万化)

场景2、中间处理

从标准化数据中提取隐藏的语义或逻辑关系,解决规则无法表达的关联性问题。

典型场景:

  • 情感分析(判断用户评论的真实情绪,讽刺/反语等无法用关键词规则识别)

  • 知识图谱构建(从海量文档中发现企业业务实体的潜在关联,规则难以穷举)

  • 语义检索(匹配用户自然语言查询与文档库,超越关键词的字面匹配)

  • 异常根因分析(从运维日志中定位复杂系统故障的隐含因果关系)

场景3、最终决策

基于语义理解动态生成行动或策略,解决规则无法预见的决策问题。

典型场景:

  • 动态定价(实时调整商品价格,需综合市场波动、库存等非固定规则因素)

  • 自动化代码生成(将模糊的自然语言需求转化为可执行代码,无法预设所有转换规则)

  • 风险审批(拒绝高风险交易,需结合用户行为、实时舆情等动态指标)

  • 工单自动分配(根据客服技能、工单紧急度等复杂维度匹配最佳处理人)

需要注意的是,此类场景通常依赖生成式AI,在当前阶段下依然存在较为严重的“可解释性差、稳定性欠佳”等问题,不建议将其目标定义为“帮助用户更好的解决问题”而是“帮助开发者降低工作量和风险”。

应用场景小结

阶段

AI解决的问题

规则引擎的局限

预处理

“这张图片里的文字到底在哪里?”

无法处理布局/质量多变的非结构化输入

中间处理

“这两个看似无关的数据其实存在深层联系”

只能匹配预设的显式规则组合

最终决策

“当前最优策略是什么?”

仅能执行预先编程的静态逻辑

从中不难看出,每个场景都体现 “输入不确定、关联不明确、决策需动态调整” 的AI核心价值。解决这些不确定的问题,这也是我们引入AI技术的初心。

三、AI的起源与早期发展

人工智能的概念虽然在1956年才正式提出,但其理论基础可以追溯到更早的计算理论研究。

20世纪30至40年代,艾伦·图灵提出了图灵机(Turing Machine),如图2所示,证明了计算可以通过一组简单规则实现,这一理论成为人工智能可行性的数学基础。同时,约翰·冯·诺依曼提出了存储程序计算机架构(Von Neumann Architecture),使计算机能够执行复杂的任务,为AI的发展提供了必要的计算平台。在这一时期,人工智能仍然是计算理论的一个远景设想,但已具备早期数学模型的支撑,例如McCulloch-Pitts神经元模型(1943),它模拟了人脑神经元的计算过程,为后来的神经网络研究奠定了基础。此外,克劳德·香农在1948年提出的信息论,为模式识别和机器学习提供了重要的数学工具。

图灵与图灵机的示意图

(图2:图灵与图灵机示意)

1950年,艾伦·图灵在论文《计算机器与智能》中提出了图灵测试,以此作为衡量机器是否具备智能的标准。这一概念引发了关于机器是否能够思考的广泛讨论,并成为后续人工智能研究的重要理论基础。1956年,约翰·麦卡锡(John McCarthy)、马文·明斯基(Marvin Minsky)、克劳德·香农(Claude Shannon)等人(如图3)在达特茅斯会议上正式提出“人工智能(Artificial Intelligence)”这一术语,标志着AI作为独立研究领域的诞生。从此,研究人员开始尝试构建能够模拟人类智能的计算机程序,人工智能进入了符号主义(Symbolic AI)主导的时代。

达特茅茨会议的七位主要科学家

(图3:达特茅茨会议的七位主要科学家)

在20世纪50至70年代,符号主义AI占据主导地位,也被称为基于规则的AI。这一方法认为,智能可以通过符号操作来实现,核心思想是利用逻辑推理构建智能系统。早期的AI程序如Logic TheoristGeneral Problem Solver(GPS) 尝试使用数学逻辑进行自动推理,而LISP语言(1958)的发明则成为AI研究的主要编程语言,特别适用于符号处理。到了1970年代,AI研究者开始构建专家系统(Expert Systems),如DENDRAL(用于化学分子结构分析)和MYCIN(用于医学诊断),如图4,这些系统基于手工编写的规则,在特定领域内模拟人类专家的推理过程,并在商业和工业应用中展现出一定的价值。

MYCIN专家系统架构简图

(图4:MYCIN专家系统架构简图)

然而,随着研究的深入,符号主义AI暴露出诸多问题,导致AI在1970-1980年代进入第一次低谷。符号主义AI高度依赖计算资源,而当时的硬件性能远不足以支持大规模推理运算。面对这些挑战,AI的研究热潮逐渐降温,研究资金减少,许多项目被迫暂停。

尽管如此,AI在这一阶段奠定了许多基础理论,并推动了计算机科学的发展。进入1980年代后,随着机器学习方法的兴起,AI逐渐从符号主义数据驱动的方法转变,开启了新一轮的复兴,为后续深度学习的爆发奠定了技术基础。

四、机器学习的崛起与大模型时代的到来

进入1980年代后,人工智能研究逐渐摆脱早期符号主义的局限,转向数据驱动的 机器学习(Machine Learning, ML) 方法。研究者意识到,与其手工编写规则,不如让计算机从数据中自动学习模式,从而提升AI的泛化能力。基于这一理念,统计学习方法、神经网络以及强化学习等技术相继发展,并推动了AI的广泛应用。

1986年,杰弗里·辛顿(Geoffrey Hinton)等人提出误差反向传播算法(Backpropagation),解决了多层神经网络的训练问题,使神经网络能够学习更复杂的非线性关系。1990年代,支持向量机(SVM)、决策树和贝叶斯网络等统计学习方法崭露头角,在模式识别、语音识别等任务中取得突破。1997年,IBM的深蓝(Deep Blue) 战胜世界象棋冠军卡斯帕罗夫,如图5,展示了AI在特定任务中的强大计算能力。2000年代,随着数据规模的增长和计算资源的提升, 卷积神经网络(CNN)和循环神经网络(RNN) 等深度学习模型开始在计算机视觉和自然语言处理领域展现出卓越性能,AI进入深度学习时代。

IBM深蓝击败人类棋手

(图5:IBM深蓝击败人类棋手)

2012年,辛顿团队在ImageNet挑战赛中使用深度卷积神经网络AlexNet夺冠,证明了深度学习在计算机视觉任务上的强大能力,由此引发AI领域的深度学习革命。2014年,生成对抗网络(GANs)被提出,为生成式AI(详细了解生成式AI与判别式AI的差异)奠定了基础。2017年,Google提出Transformer架构,其 自注意力机制(Self-Attention) 能够高效处理长文本序列,解决了传统RNN难以捕捉长期依赖关系的问题。这一突破成为现代大规模语言模型(LLM)的基础。2018年,Google发布 BERT(Bidirectional Encoder Representations from Transformers) ,提出Transformer的构想,实现了更先进的自然语言理解能力。2022年,OpenAI公司ChatGPT的发布将AI推向公众视野,如图6,展示了大模型在语言理解、对话交互和任务自动化上的巨大潜力。2025年后,以deepseek为代表的开源大模型,进一步增强了AI的能力、降低了私有化部署门槛,使得AI能够理解和生成文本、图像、音频等多种数据类型,并应用于更多场景。

ChatGPT的原理简图

(图6:ChatGPT的原理简图)

至此,AI已经迈入大模型时代,深度学习与大规模数据驱动的模型成为主流并发展至今。当前,AI的发展不仅推动了自动化、智能化应用的普及,也引发了关于伦理、隐私、安全等方面的讨论。随着计算能力的持续提升与算法的不断优化,AI正向更具推理能力、更可控、更高效的智能体方向演进。

五、AI技术发展的挑战依然严峻

当前AI技术虽已取得突破性进展,但在实际落地过程中仍面临多维度的关键挑战。

  • 技术方面,模型可靠性问题尤为突出。大语言模型存在的 AI幻觉(AI Hallucination) 现象,生成的内容符合逻辑但与事实不符,且黑箱特性使得决策过程 缺乏可解释性(Explainability),这导致其生成内容的可信度存疑。

  • 工程化落地方面,模型的抗干扰能力不足。输入数据的细微差别有可能导致AI做出完全错误的判断,进一步加剧了用户对其可解释性的担心。此外,私有化部署的大模型的硬件成本过高、运维方案不完善等问题,阻碍了AI在企业中落地。

  • 投资方面,AGI(通用人工智能)的可行性仍存争议。符号主义AI和大数据驱动AI的技术路线之争仍为结束,虽然后者暂时更受投资人欢迎,但并不能排除前者才是实现AGI的可行路线,这有可能会带来巨大的资源和时间浪费。

上述挑战只是冰山一角,行业需要产学研协同创新:在技术上突破模型可解释性瓶颈,在工程上建立标准化部署方案,在战略层面保持技术路线多样性等。只有通过这种系统性推进,AI技术才能完成从“玩具”到“工具”的变身,真正实现从实验室到产业的价值转化,为人类社会带来可持续的智能变革。

扩展阅读