这些架构不仅仅是高级模型——正在出现明确的构建块,这些构建块将使人工智能代理和代理应用程序能够在数字环境中自主行动、动态适应、无缝交互和探索。
随着人工智能代理的能力变得越来越强大,构建者正在汇聚核心组件的共同原则和方法。
我想补充一点:虽然关于人工智能代理、代理发现和代理应用有很多未来的猜测,但我在这里分享的见解和评论都是基于具体的研究论文和我构建的原型的实践经验或者在我自己的环境中进行分叉和测试。
但首先,让我们先了解一些关键概念……从高层次来看,人工智能代理是一个旨在自主或半自主执行任务的系统。暂时考虑一下半自主,智能体利用工具来实现其目标,而人机交互可以成为一种工具。
AI 代理任务的范围可以从安排约会的虚拟助理,到涉及数字环境探索和交互的更复杂的代理。关于数字环境,最突出的研究来自 Apple 的 Ferret-UI、WebVoyager,以及 Microsoft 和其他公司的研究;如下所示……
就像大型语言模型 (LLM) 改变自然语言处理一样,大型动作模型 (LAM) 也有望彻底改变人工智能代理与其环境交互的方式。
在我最近写的一篇文章中,我探讨了大型动作模型 (LAM) 的出现及其对人工智能代理的未来影响。
LAM 的设计超越了简单的语言生成,使 AI 能够在现实场景中采取有意义的行动。
函数调用已成为 AI 代理环境中的关键要素,特别是从模型功能的角度来看,因为它显着地将大型语言模型 (LLM) 的功能扩展到文本生成之外。
因此,大型动作模型出现的原因之一是其主要特征之一是擅长函数调用的能力。
人工智能代理通常需要根据用户输入执行操作,例如检索信息、调度任务或执行计算。
函数调用允许模型为这些任务生成参数,使代理能够触发数据库查询或 API 调用等外部进程。
虽然 LAM 构成了动作主干,但模型编排将更小、更专业的语言模型 (SLM) 结合在一起,以协助完成利基任务。
代理可以串联使用这些较小的模型,编排它们以实现特定的功能,而不是仅仅依赖于大量的、资源密集型的模型——无论是总结数据、解析用户命令,还是根据历史上下文提供见解。
小语言模型非常适合开发和测试,在本地以离线模式运行它们。
由于几个与自然语言处理的需求非常吻合的关键特征,大型语言模型 (LLM) 迅速受到关注。这些特性包括自然语言生成、常识推理、对话和会话上下文管理、自然语言理解以及处理非结构化输入数据的能力。虽然法学硕士是知识密集型的,并且已被证明是强大的工具,但它们并非没有局限性。
法学硕士的一个显着缺点是他们容易产生幻觉,这意味着他们可以产生连贯、上下文准确、合理但实际上不正确的回答。
此外,法学硕士受到培训数据范围的限制,培训数据有固定的截止日期。这意味着他们不具备持续的、最新的知识或针对特定行业、组织或公司的具体见解。
更新法学硕士以解决这些差距并不简单;它需要对基础模型进行微调,这涉及数据准备、成本和测试方面的大量工作。此过程引入了一种不透明、复杂的法学硕士内部数据集成方法。
为了解决这些缺点,引入了检索增强生成(RAG)的概念。
RAG 有助于弥补小语言模型 (SLM) 的差距,为其提供通常缺乏的深入、密集的知识能力。
虽然 SLM 本质上管理其他关键方面,例如语言生成和理解,但 RAG 通过增强其知识库,使它们能够与大型同行相媲美。
这使得 RAG 成为 AI 语言模型领域的关键均衡器,允许较小的模型发挥全面 LLM 的稳健性。
随着人工智能代理获得探索数字环境并与之交互的能力,视觉功能与语言模型的集成变得至关重要。
Apple 的 Ferret-UI 和 WebVoyager 等项目就是很好的例子。
这些代理可以在其数字环境中导航,无论这意味着识别用户界面上的元素还是自主探索网站。
想象一下,人工智能代理的任务是在新环境中设置应用程序 – 它不仅会读取基于文本的指令,还会通过 OCR 识别 UI 元素、映射边界框并解释文本以与其交互,并提供视觉反馈。
人工智能代理处理输入和输出的方式正在发生根本性转变。
传统上,法学硕士使用非结构化输入并生成非结构化输出——简短的文本或回复段落。但现在,通过函数调用,我们正在朝着结构化的、可操作的输出迈进。
当人工智能代理可以构建其输出以与特定功能保持一致时,它可以更有效地与其他系统交互。
例如,人工智能可以调用特定函数来预订会议、发送请求或触发 API 调用,而不是仅仅生成非结构化/对话式文本响应,所有这些都可以更有效地使用令牌。
这不仅减少了处理非结构化响应的开销,而且还使系统之间的交互更加无缝。
人工智能代理现在可以真正成为更大的数字生态系统的一部分。
最后,我们来谈谈工具在AI代理架构中的重要性。
工具可以被认为是人工智能代理与世界交互的机制——无论是获取数据、执行计算还是执行任务。在许多方面,这些工具就像管道一样,将输入从一个阶段传送到另一个阶段,并一路进行转换。
更有趣的是,工具不一定是算法或脚本。在某些情况下,该工具可以是人机交互,人类在关键时刻进行干预以指导或验证代理的操作。
这在高风险环境中尤其有价值,例如医疗保健或金融,其中绝对准确性至关重要。
工具不仅扩展了人工智能代理的功能,而且还充当将各种系统粘合在一起的粘合剂。无论是人类还是数字功能,这些工具都可以让人工智能代理变得更加强大、模块化和情境感知。
当我们站在这个新时代的风口浪尖时,很明显人工智能代理正变得比我们预期的更加复杂。
凭借大型动作模型、模型编排、视觉语言模型、函数调用以及工具的关键作用,这些智能体成为解决问题、探索数字景观和自主学习的积极参与者。
通过专注于这些核心构建模块,我们正在为人工智能代理奠定基础,这些代理不仅更聪明,而且适应性更强、更高效,并且能够以类似于人类解决问题和思维过程的方式行事。