大模型及Agent发展简史

⏱️ 15 分钟

大模型(大型语言模型)和AI Agent(人工智能代理)这两个概念,但它们是如何一步步发展起来的呢?在这段科技发展史上,有哪些关键的里程碑和重要的技术演进?在这一小节我将带您回顾从早期人工智能探索到当代大模型与Agent技术的发展脉络。 首先,让我们明确一下什么是大模型和Agent。简单来说,大模型通常指的是参数规模极其庞大的人工智能模型,尤其是基于深度学习的大型语言模型(LLM),它们能够理解和生成人类语言。而AI Agent(智能代理)则是指能够自主感知环境、决策并采取行动以实现目标的智能系统。 Agent可以是软件程序,也可以是机器人等物理实体,它的特点是具有一定的自主性和适应性,能够在无人持续干预的情况下完成任务。在接下来的内容中,我们将分别回顾大模型和Agent各自的发展历程,然后看看它们是如何交汇融合,共同推动人工智能的进步。

大模型的发展历程

首先,让我们把时间拨回到20世纪中叶,那是人工智能的萌芽时期。

  • 1950年,英国数学家艾伦·图灵发表了著名的论文《计算机器与智能》,提出了著名的“图灵测试”,用以判断机器是否具有智能。图灵的思想为人工智能奠定了基础。随后,
  • 1956年,在美国达特茅斯学院举办的夏季研讨会上,约翰·麦卡锡、马文·明斯基等科学家正式提出了“人工智能”这一术语,标志着AI作为一个学科的诞生。 langchain-2-1

早期的人工智能主要以符号主义和规则系统为主,研究者们尝试用人工编写的规则让计算机解决问题。例如,1966年,麻省理工学院的约瑟夫·魏泽鲍姆开发了聊天程序ELIZA,它通过模式匹配和简单规则模拟心理医生的对话,成为世界上第一个聊天机器人。ELIZA虽然简单,但展示了计算机理解和生成自然语言的潜力,被视为自然语言处理(NLP)的起点。 langchain-2-2

进入1980年代,统计学习方法开始在NLP领域崭露头角。研究者们尝试让计算机从大量语料中自动学习语言规律,

  • 1988年,IBM的研究团队提出了基于统计的机器翻译方法,为后来的统计语言模型奠定了基础。与此同时,神经网络的研究也在曲折中前进。
  • 1989年,杨立昆等人用卷积神经网络成功识别手写数字,展示了神经网络在实际问题中的潜力。
  • 1997年,霍赫赖特和施密德胡伯提出了长短期记忆网络(LSTM),解决了传统循环神经网络的长期依赖问题,使得神经网络能够更好地处理长序列数据。LSTM的出现被视为深度学习在语言处理领域的重要突破。
  • 2000年代,随着互联网的兴起,数据量爆炸式增长,统计语言模型逐渐取代了基于规则的方法。研究者开始用大规模语料训练模型来预测下一个词的概率。例如,2003年前后,n-gram模型和更复杂的统计模型在机器翻译、语音识别中广泛应用。2010年,斯坦福大学推出了CoreNLP工具包,提供了一系列自然语言处理功能(如句法分析、情感分析等),标志着实用化NLP技术的成熟。
  • 2010年代,是深度学习大放异彩的十年。
  • 2011年,谷歌启动了“谷歌大脑”项目,用大规模神经网络训练词向量,使计算机能够捕捉词语之间的语义关系。
  • 2013年,米科洛夫等人提出了Word2Vec算法,能够将词语映射到连续向量空间,极大提升了模型对语义的理解。
  • 2014年,生成对抗网络(GAN)问世,为生成模型打开了新思路。然而,真正让自然语言处理发生革命性变化的是
  • 2017年。这一年,谷歌团队发表了论文《Attention Is All You Need》,提出了Transformer架构。Transformer摒弃了传统的循环和卷积结构,完全基于注意力机制,能够高效并行地处理长文本序列。这一架构成为后续所有大模型的基础。正如业内所说:“Transformer为大型语言模型的出现铺平了道路”。

有了Transformer这一强大工具,研究者们开始训练参数规模空前的语言模型。

  • 2018年,OpenAI推出了GPT-1模型,参数约1.17亿,这是首个基于Transformer的生成式预训练模型。同年,谷歌发布了BERT模型,参数3.4亿,采用双向编码表示,在多项NLP任务上刷新了纪录。
  • 2019年,OpenAI的GPT-2模型参数增长到15亿,已经能够生成相当连贯的文本段落。2020年,堪称大模型发展史上里程碑式的一年——OpenAI发布了GPT-3模型,参数规模高达1750亿!GPT-3展示了惊人的通用能力,能够在没有明确训练的情况下执行问答、翻译、写作等多种任务,被认为是当时最强大的语言模型。

此后,大模型进入了“军备竞赛”般的快速发展期。各大科技公司和研究机构纷纷推出自己的超大模型:

  • 2021年,谷歌发布了5400亿参数的PaLM模型;英伟达与微软合作的Megatron-Turing NLG模型参数达到5300亿;AI21实验室推出了Jurassic-1模型(参数1780亿);
  • 2022年,谷歌又发布了PaLM的改进版,Meta(原Facebook)则开源了LLaMA系列模型(参数从70亿到650亿不等)。
  • 2022年11月,OpenAI基于GPT-3.5模型推出了对话系统ChatGPT,向公众开放使用,引发了现象级的关注。ChatGPT以其流畅的对话和强大的回答能力,让普通用户第一次直观感受到大模型的威力。
  • 2023年,OpenAI再接再厉发布了GPT-4模型,据报道其参数规模达到约1万亿,是GPT-3的五倍。GPT-4在逻辑推理、多模态处理等方面表现卓越,能够通过律师资格考试等复杂测试,进一步刷新了人们对AI能力的认知。 langchain-2-3

从上述图表可以清晰地看到,大型语言模型的参数规模在短短几年内经历了指数级的增长。这种“大就是美”的趋势,使得模型能够学习到更加丰富的语言知识和世界知识,从而在各种任务上取得前所未有的表现。 当然,大模型的发展也伴随着一些挑战和反思。例如,模型规模的爆炸式增长带来了计算资源和能源消耗的剧增,引发了对可持续性的担忧。此外,大型模型有时会产生不准确或有害的内容,如何对齐(Alignment)模型行为、确保其安全可控,成为研究的热点。但无论如何,大模型技术已经深刻地改变了人工智能的面貌,让我们能够以前所未有的方式与机器交流,并催生出众多创新应用。

AI Agent的发展历程

接下来,我们将目光转向AI Agent的发展历程。Agent的概念其实由来已久。早在人工智能诞生之初,研究者就梦想着创造能够自主行动的智能体。从某种意义上说,所有AI系统都可以被视为Agent——它们感知环境(输入)、做出决策(计算)、并采取行动(输出)。不过,Agent作为一个明确的研究方向,其发展大致可以分为几个阶段:早期规则驱动的Agent、基于知识和推理的Agent、学习型Agent,以及现代自主Agent。

  • 1950-60年代: 人工智能诞生后的最初十年,受限于计算能力,Agent的概念还很朴素。这一时期的程序主要是反应式的,按照预先设定的规则对输入做出反应。例如,我们刚才提到的ELIZA聊天程序(1966年)就是一个早期的Agent雏形:它感知用户的输入(文本),根据简单的模式规则生成回答,从而“采取行动”与用户对话。尽管ELIZA的智能程度有限,但它证明了机器可以通过模式匹配来模拟人类对话,为后来的对话型Agent奠定了基础。

  • 1970-80年代: 这一时期,人工智能的重心转向专家系统和基于知识的推理。所谓专家系统,就是将人类专家的知识编码成规则,让计算机按照这些规则来解决特定领域的问题。例如,用于医疗诊断的MYCIN系统(1970年代)和用于地质分析的PROSPECTOR系统等。这些专家系统可以看作是特定领域的智能Agent:它们感知输入(如患者的症状),利用内置的知识库和推理引擎进行决策,然后给出结论或建议。不过,专家系统的智能局限在狭窄领域,而且依赖人工编写规则,缺乏学习和适应能力。

  • 1980-90年代: 随着计算机硬件和算法的发展,Agent的概念进一步拓展。研究者开始探索自主Agent和多Agent系统。例如,1986年,麻省理工学院的罗德尼·布鲁克斯提出了“包容架构”,主张通过分层的反应模块来构建自主机器人,这种思想影响了后来的机器人Agent设计。1990年代,互联网兴起,出现了各种软件Agent,如网络信息检索Agent、邮件过滤Agent等,它们可以在一定程度上自主运行,代表用户执行简单任务。这一时期还诞生了多Agent系统(MAS)的理论,研究多个智能体如何交互、合作以完成单一个体无法完成的任务。例如,市场上出现了一些智能体协作的实验系统,模拟多个Agent在虚拟环境中合作或竞争。

  • 2000年代: 进入21世纪,机器学习的兴起为Agent注入了新的活力。传统的规则式Agent逐渐被学习型Agent取代。特别是强化学习(Reinforcement Learning)的发展,使得Agent能够通过与环境交互、试错来不断优化自己的策略。1997年,IBM的深蓝超级计算机击败国际象棋世界冠军卡斯帕罗夫,这是AI在博弈领域的重大突破。深蓝虽然主要基于暴力搜索和人类棋艺知识,但已经体现出Agent在复杂决策环境中自主行动的能力。2011年,IBM的Watson系统在美国智力问答节目《Jeopardy!》中击败了人类冠军,这是AI在开放领域问答上的里程碑。Watson可以被视为一个信息检索和问答Agent:它感知自然语言的问题,利用大规模知识库和统计模型进行推理,然后输出答案。Watson的胜利展示了AI Agent处理海量信息并做出准确回应的潜力。

  • 2010年代: 深度学习的突破不仅带来了大模型的繁荣,也推动Agent技术迈向新的高度。2016年,DeepMind公司的AlphaGo程序击败围棋世界冠军李世石,成为第一个在围棋上击败人类顶尖选手的AI。AlphaGo结合了深度神经网络和强化学习,能够通过自我对弈不断提升棋力。这是AI Agent在复杂决策领域的重大胜利,被认为可媲美当年深蓝在国际象棋上的突破。 此后,DeepMind又推出了AlphaZero,可以在不借助人类知识的情况下,通过强化学习掌握围棋、国际象棋和将棋等多种棋类的顶尖水平。这些成果表明,自主学习的Agent已经能够在高复杂度的环境中达到甚至超越人类的表现。 与此同时,在现实世界中,各种智能代理开始走进大众生活。2011年,苹果公司发布了语音助手Siri,随后亚马逊的Alexa(2014年)、谷歌助理等相继问世。这些语音助理可以看作是对话式AI Agent:它们通过语音识别感知用户的请求,利用云端的AI模型理解意图并生成回答,再通过语音合成与用户交互。它们能够执行诸如查询信息、设置提醒、控制智能家居设备等任务,为用户提供便利的服务。 此外,自动驾驶汽车也在这一时期取得长足进展。例如,谷歌的Waymo和特斯拉等公司的自动驾驶系统,可以被视为在物理世界中行动的Agent:它们通过摄像头、雷达等传感器感知周围环境,利用AI模型进行路径规划和决策,然后控制车辆行驶。自动驾驶Agent能够在开放道路环境中实时做出决策,被认为是AI Agent在现实世界的重大应用。

  • 2020年代: 进入最近几年,随着大模型的成熟,AI Agent的发展迎来了新的飞跃。研究者开始将大型语言模型赋予Agent的能力,使其不仅能对话,还能自主执行操作。一个标志性的事件是2023年出现的AutoGPT项目。AutoGPT是一个开源的实验性Agent框架,它利用GPT-4等大模型作为“大脑”,结合工具使用和记忆模块,使AI能够根据用户给定的目标自主地在互联网上搜索信息、执行操作、甚至编写代码,直到完成任务。AutoGPT的出现引发了广泛关注,被视为迈向自主AI代理的重要一步。类似地,还有如BabyAGI、LangChain等框架,探索让大模型驱动的Agent通过链式思考和工具调用,完成复杂的多步任务。

除了单Agent系统,多Agent协作也成为研究热点。研究者发现,让多个Agent分工合作,往往能比单个Agent更高效地解决问题。例如,有实验将多个语言模型Agent扮演不同角色,在模拟的社会环境中互动,以完成需要集体智慧的任务。又如,在软件开发领域,出现了让多个AI Agent分别负责设计、编码、测试,协同完成项目的尝试。可以预见,未来的AI系统可能不是单个“超级大脑”,而是由多个专长不同的Agent组成的智能体团队,彼此交流合作,共同达成目标。

大模型与Agent的融合发展

回顾完各自的发展历程,我们可以看到大模型和Agent这两条脉络并非彼此孤立,而是在近年来逐渐交汇融合,相辅相成。大模型为Agent提供了强大的“大脑”,使其具备了前所未有的语言理解、推理和规划能力;而Agent则为大模型提供了“身体”,让模型能够走出虚拟的文本世界,在真实环境中感知和行动。 一方面,大模型赋能Agent。传统的Agent往往依赖于人工编写规则或小规模的机器学习模型,智能水平有限。而引入大型语言模型后,Agent仿佛获得了一个知识渊博的大脑。大模型掌握了海量的语言知识和世界知识,可以让Agent理解复杂的用户指令,进行推理分析,并生成合理的行动方案。例如,借助GPT-4这样的模型,对话Agent能够进行上下文连贯的多轮对话,客服Agent能够理解客户的问题并提供详尽解答,决策Agent能够根据大量信息做出判断。可以说,“大模型为AI Agent提供了丰富的知识和强大的认知能力”,显著提升了Agent的智能水平和适应性。 另一方面,Agent拓展大模型。大型语言模型虽然聪明,但在诞生之初只能根据输入生成文本,缺乏自主行动的能力。Agent技术的融入,让大模型有了“用武之地”。通过将大模型嵌入Agent架构中,并赋予其访问外部工具和环境的接口,我们可以构建出能够执行实际任务的智能系统。例如,一个整合了大模型的智能助手Agent,不仅可以回答用户的提问,还能调用日历API安排会议、调用搜索引擎查找实时信息、调用智能家居接口控制家电等。在这些过程中,大模型负责理解和决策,而Agent负责执行和反馈,形成一个闭环。这种结合极大地拓展了大模型的应用场景,使其从“纸上谈兵”走向“实战”。正如业内所言:“大型模型赋能Agent,Agent为模型提供数据”——Agent在与环境交互中产生的数据,又可以反过来用于训练和改进大模型,形成良性循环。 值得一提的是,大模型与Agent的融合也催生出新的研究方向,例如“思维链”(Chain-of-Thought)和“工具使用”。研究者发现,让Agent在决策时先通过大模型进行内部的思考推理(即生成思维链),可以显著提高其决策的准确性和可解释性。而赋予Agent调用外部工具(如计算器、数据库、网络搜索)的能力,则可以弥补大模型知识截止和计算能力的不足,使其回答更加可靠。这些都是当前AI领域的研究热点,体现了大模型与Agent技术的深度融合。

现状与未来展望

时至今日,大模型和Agent技术都取得了令人瞩目的成就。在大模型方面,我们已经拥有能够进行对话、写作、编程、翻译等各种任务的通用模型,如OpenAI的GPT系列、谷歌的PaLM 2、Anthropic的Claude等。它们的参数规模动辄数十亿到上千亿,训练数据涵盖互联网上的海量文本,使得模型在语言理解和生成上的表现日益逼近人类水平。在Agent方面,从软件到硬件,各种智能代理层出不穷。小到手机里的语音助手,大到工厂里的机器人和路上的自动驾驶汽车,AI Agent正越来越深入地参与人类社会的运转。 然而,我们也清醒地认识到,现有的大模型和Agent仍有局限。例如,大型模型有时会产生幻觉(即输出看似合理但实际错误的信息),在复杂推理上偶尔出现逻辑漏洞;而AI Agent在动态环境中的可靠性和安全性也有待提高。如何让大模型更聪明可靠,让Agent更自主可控,是摆在研究者面前的重要课题。

面向未来,我们可以预见几个发展趋势:

  • 更大更强的基础模型: 尽管参数规模不是唯一指标,但更大的模型在很多任务上确实表现更好。未来可能会出现万亿级甚至更大参数的模型,训练数据也将涵盖更多模态(文本、图像、音频、视频等),使模型具备更加全面的智能。当然,这需要克服计算和能源的瓶颈,以及解决模型效率和可解释性的问题。
  • Agent更加自主与协作: 未来的AI Agent将朝着更高程度的自主性发展。它们能够在更少人类干预的情况下,持续地感知环境变化,调整策略,完成长期目标。同时,多Agent协作将成为常态,不同专长的Agent组成团队,通过分工合作解决复杂问题。例如,在智能制造中,可能有负责设计的Agent、负责调度的Agent、负责质检的Agent等协同工作,形成一个“AI协作社会”。
  • 人机协同与融合: 未来的AI不太可能完全取代人类,而是更多地作为人类的智能助手和合作伙伴。我们将看到人与AI Agent更加自然地交互合作,共同完成任务。例如,医生有医疗AI助手辅助诊断,教师有教学AI助手个性化辅导学生,程序员有编程AI助手帮忙编写和调试代码。这种人机协同将大幅提升生产效率和生活质量。
  • 伦理与治理: 随着AI Agent越来越强大,其伦理和社会影响也日益凸显。如何确保AI决策的透明和公正,如何避免AI被滥用,如何在法律上界定AI行为的责任,这些都是未来需要解决的问题。各国已经开始制定AI治理框架和法规,例如欧盟的《AI法案》等,以引导AI技术朝着有益的方向发展。未来的AI发展将是技术进步与社会规范同步推进的过程。

回顾大模型与Agent的发展简史,我们仿佛经历了一场激动人心的科技之旅。从图灵测试的提出到如今ChatGPT的风靡,从简单的规则程序到自主行动的智能Agent,人工智能在短短数十年间取得了飞跃式的进步。大模型为机器注入了“智慧”,让它们能够理解和创造语言;Agent赋予机器以“行动”,让它们能够在现实世界中执行任务、与人类互动。两者的结合,正将我们带入一个人机共生的新时代。 当然,人工智能的发展还远未结束。我们目前所取得的成就,也许只是迈向通用人工智能道路上的一小步。未来的AI会如何演变,大模型和Agent又将怎样进一步融合创新,这一切都值得我们拭目以待。在享受AI带来便利的同时,我们也需要保持理性和审慎,确保技术发展与人类福祉同步。