揭秘吴恩达的4种 AI Agent 设计模式

字节跳动技术团队 2024-04-08 09:59:12 61

上周,吴恩达教授在美国红杉 AI 活动上关于 Agent 的最新趋势与洞察,提出了目前有 4 种主要的 Agent 设计模式,分别是:

  • Reflection:让 Agent 审视和修正自己生成的输出;
  • Tool Use:LLM 生成代码、调用 API 等进行实际操作;
  • Planning:让 Agent 分解复杂任务并按计划执行;
  • Multiagent Collaboration:多个 Agent 扮演不同角色合作完成任务;

在 扣子(coze.cn)/Coze (coze.com)上,可以将上述四种模式快捷落地,本文将以汽车行业调研助手、高质量旅行规划助手等实际案例来为大家分享落地思路。

1 Reflection模式

含义:让 Agent 审视和修正自己生成的输出。

背景:大模型的生成有时候会犯懒,可能只会部分执行Prompt导致效果有限。Reflection模式适用于让LLM自行审视和修正自己生成的输出,对生成内容进行多次自我调优,进而生成更加优质的内容。

场景:让 AI 或 LLM 说,写一个行业短评。开始写第一稿,自己阅读生成第一稿,思考哪些部分需要修改,然后,LLM进一步优化生成,可以一遍又一遍地进行。因此,这个工作流程是可迭代的,你可能让模型进行一些思考,然后修改文章,再思考,并通过多次迭代来完成这个过程。

流程图:

editor-photo-183.jpg

Workflow实现简单“行业短评”效果

工作流拆解:

  • 第一步:Start节点,用于接收用户的输入。
  • 第二步: 大模型节点,行业短评Prompt:使用真实数据、案例、SWOT模型,并言简意赅表达。
  • 第三步:基于其生成结果第二步中的大模型的生成结果,复制其Prompt,并进一步提示生成短评,达到审视和修正自己生成输出的效果,提高短评生成质量。
  • 第四步: 输出结果。

示意图参考:

editor-photo-184.jpg

效果:汽车行业调研短评

editor-photo-185.jpg

第一次:大模型对于提示,仅生成比较概括性的短评,使用了真实数据。

editor-photo-186.jpg

第二次:大模型对生成结果进行迭代,生成了详细短评,不仅优化了表达内容,还增加了SWOT分析和案例分析。

editor-photo-187.jpg

2 Tool Use 模式

扣子/ Coze 本身就支持非常丰富的工具调用,欢迎使用!

editor-photo-188.jpg

3 Planning 模式

含义:Planning:让 Agent 分解复杂任务并按计划执行;

背景:大模型的生成依赖于训练数据的实效性,并且有时候会产生幻觉,导致生成的内容效果质量有限。Planning模式适用于让LLM基于计划好的任务步骤,对生成内容进行多次自我调优和加工处理,进而生成更加优质的内容。

场景:我们期望Agent具备类似人的行为的智能体,比如在调研报告场景,他会先使用搜索工具进行检索,筛选质量较高的内容,再进行一些思考,再进行重要信息的总结和整理,最后输出一个质量比较高的报告。

流程图:

editor-photo-189.jpg

Workflow实现Plannning模式的“行业短评”效果

工作流拆解:

  • 第一步:Start节点,用于接收用户的输入。
  • 第二步: 通过“浏览器插件”,把用户的输入作为关键字进行搜索,返回相关的10个网站链接。
  • 第三步: 通过“头条搜索”访问这10个网站的详情内容,并返回。
  • 第四步: 使用大模型对这10个网站的内容进行打分,3分以上推荐引用。
  • 第五步: 通知用户:目前Agent已经完成阅读,正在整理并总结报告。
  • 第六步: 大模型对高分内容进行理解,使用真实数据、案例、SWOT模型等,并言简意赅表达。 第七步: 输出报告。

示意图参考:

editor-photo-191.jpg

效果:奶茶行业调研短评

第一步: Agent完成网站访问和内容抽取后,告知了完成阅读。

第二步: 参考了他访问的一些网站内容,整理并总结了报告,最后打印报告输出。

editor-photo-192.jpg

4 Multiagent Collaboration 模式

使用coze的Multi-agent功能实现高质量旅行规划

第一步:定义3个用于旅行规划场景的专家Agents

  • 目的地推荐专家: 调用搜索等能力,基于用户的需求推荐目的地。
  • 机票酒店专家: 调用机票、酒店的查询工具,根据用户的背景信息和诉求,推荐合适的机票酒店。
  • 行程规划专家: 根据用户的信息和其他专家产出的结果,帮助用户制定完整的行程规划,并将内容输出到PDF中。

第二步:将3个专家Agents排列到画布中,并为他们设置任务交接的条件。

第三步:开始对话

editor-photo-193.jpg

三种模式的对比:

editor-photo-194.jpg

(本文来源字节跳动技术团队,如有侵权请联系删除)

相关资讯
最新资讯
最新问答
实用至上:智能体/Agent 是什么

实用至上:智能体/Agent 是什么

Agent 的起源不做词义追源,仅从大众角度,这个事儿是去年初开始的,也就是 2023 年 2-3 月。标志性事件包括:AutoGPT 等开源项目的发布,这是第一批基于自然语言的 AI 自动化实践:你告诉它一个任务,它就会通过自然语言的自我对话,将这个任务进行拆分、规划并实现。斯坦福小镇一类的项目实践:给予不同的 Bot 以不同的人格,搭配记忆窗口,让它们之间相互对话。发表于 2 月的论文《Toolformer: 大模型可以教自己使用工具》,以及 OpenAI 在 3 月底发布的插件计划:这意味着,大模型从原来的“思想家”,通过对外部工具的使用,变成了实干家。《AI 学会使用工具了》2023年2月14日,报道自赛博禅心现在的 Agent时至今日,对于 Agent 是什么,可能还没有一个标准的定义。一个常见的观点是,Agent 是一种让 AI 以类似人的工作和思考方式,来完成一系列的任务。一个 Agent 可以是一个 Bot,也可以是多个 Bot 的协同。就像是职场里,简单的工作独立完成,复杂的工作协作完成一样。对于每个 Bot 来说,可能会包括:一个大脑:判断和规划行为,这里通常用 GPT-4或同水平的 LLM;眼睛和手:确认信息和使用外部工具,一般是各种插件/action/api;工作纪要:储存已经发生的事,通常的媒介是上下文窗口,或者数据库;行为SOP:明确这个 Agent 的身份、任务、目标和机制。这个 SOP 可能是用户给的,也可能是由其它 Bot 给出的。再具象一点,这里我从 GPTs 里截了个图: 对于 GPTs,通常被认为是由 OpenAI 设计的简化版的 Agent。默认情况下,只能进行单 Bot 交互:一个大脑:在 ChatGPT GPT Store 里,GPT-4 是唯一可选的 LLM;眼睛和手:可以在 Capabilities 里勾选由 OpenAI 提供的第一方能力,也可以通过Actions 来拓展更多的外部能力;工作纪要:一般来说就是对话记录,GPTs 可以回顾之前的对话;行为SOP:存放在 Description, Instructions 以及 Knowledge 里。 OpenAI 的 Agent 演进以 OpenAI 为例,我们看看 Agent 是如何一步步演进的。去年 3 月底,OpenAI 宣布了插件计划,并在 5 月上线了插件商店,这也标志了 OpenAI 揭开 Agent 战局的第一步。在当时 OpenAI 给开发者发送的指引中,给了这样的 Todo:第一步:开发接口,来定义 ChatGPT 可以调用的功能。接口可以是新开发的,也可以是改造现有的第二步:写一份文档,给 ChatGPT 来看,让它知道什么时候去调用接口。当然,这里要遵循一定的格式,然后用自然语言来写。如果你做过 OpenAI API 的开发,可能会觉得这个文档有些熟悉,这不就是 Fuction Call 吗?没错,在 2023 年 6 月 13 日,OpenAI 发布了 Function Call 模式,让大模型可以来调用外部工具,用的就是非常类似的方案。再往后,OpenAI 的相关工作人员做了一系列的 Research,关于 Agent 的最佳实践。同时的,也发布了 Custom Instruction 指令的相关功能。之后,ChatGPT 推出了 All Tools 功能。也就是回答用户问题时,不再需要用户自主的来选择工具,这可以视作是“自动版的Plugin”,覆盖了三款官方工具:Browsing, Advanced Data Analysis 和 DALL·E。时间推移,在2023 年 11 月 6 日的时候,在 OpenAI 开发者大会上,Sam Altman 宣布了 GPTs,这通常被认为是 OpenAI 推出了其第一个正式版的 AI Agent。在最初的版本中,包括以下功能允许用户创建多个 Bot,自定义它们的身份和回答风格。并且这些 Bot 可以分享Bot 可以自有使用三款官方工具:Browsing, Advanced Data Analysis 和 DALL·EBot 也可以通过 Action 的方式(类似 API 的东西),去调用任何的外部能力Bot 可以有自己的数据空间,允许用户对这些数据进行 QA。比如在《我刚弄个贼实用的GPTs》中,我上传了 OpenAI 的开发文档,帮助开发者快速生成 OpenAI 的调用代码同时,在11月06日的时候,OpenAI 也更新了几个影响深远的接口:Function Calling:更新多参数生成功能,可以让一轮对话完成多项任务JSON Mode:让 API 通过 JSON,而非文字,来做出回应Seed:设定随机值,提高一致性Assistants API & Code Interpreter:可以理解为把 ChatGPT 的 Bot,搬到了 API 里Retrieval:简易化知识库构建 在最近 GPTs  体系上线了 GPT Store,有些媒体称其为 OpenAI 的 App Store 时刻,但其实并不相同。在 GPT Store 里,用户可以搜索和使用为各项任务所开发的 GPTs。紧随 GPT Store 上线的,还有 @GPTs 功能,也就是在任何的对话中,你都可以手动的让某个 GPTs 接管这个对话内容,做出更好的输出。值得一提的是,由于 GPT Store 没有开放支付入口,所以目前几乎所有的 GPTs 都是免费的。对此,OpenAI 也承诺了会给头部开发者提供激励:《GPTs 商店,要发钱了!!!》。 其它 Agent 平台之前和 OpenAI 的相关负责人聊过,ChatGPT 的主要定位是“开箱即用的消费级产品”。那这里,自然给“较为复杂的生产级产品”留下了生态空间。这里,我们也来探讨下这类产品。主要的 AI 玩家都会对这方面有所涉足,也各有侧重。比如来传统大厂自字节扣子/coze,百度的灵境矩阵,也比如来自 AI 初创公司的 Dify 等等。 以扣子为例,对比与 GPTs Store,主要的体感区别包括:免费,至少目前是完全免费的有数十个官方插件,对比与 GPTs 里只有3个可以用类似低代码的方式,构建Workflow,并被 Bot 调用可以将捏好的 Bot 发布到其它平台(比如飞书,公众号),同时支持 API其中后两条极为核心。 我的 Agent 的实战一个设计良好的 Agent 可以提供极大的生产力,并创造极高的价值。前几天大火的 Devin,被称为“第一位由 AI 担任的软件工程师”,它可以自主的去学会如何使用不熟悉的技术,自主的生成代码、调试bug和部署应用。Agent 也可以替代现有的很多软件工具,去完成工作中繁琐的任务。举个例子,我正打算开一个专栏,叫做“乘风破浪的少年们”,去讲述和记录那些在这次 AI 浪潮中,登上世界舞台的中国人,用对话的形式。类似这种:《奥特曼专访:关于 GPT-5、Sora、Ilya、Q*、AGI、外星人等等一切》。这里对我来讲的一个很大挑战:我需要整理大量的文字稿,并且把它排版出来,这并不轻松,也很占时间。我希望有一个 Agent 来帮我做这件事情。昨天下午,我和 Owen(沉浸式翻译的作者)去参加了一个 Hackathon,现场有了灵感,并梳理出了这个 Agent 的思路:第一步:将对话音频文件,通过 AI(比如whisper)转化成文字稿第二步:将文字稿用 AI 转化成 QA 问答对,以 json/csv 的方式储存第三步:将 QA 问答对,转化成 HTML(可以导入进微信公众号)我们花了俩小时,用扣子,把这个 Agent 给搓了出来,起名《带带弟弟排版器》,希望大家带带单打独斗的弟弟。也顺道着把我上次参加 OpenAI  的红队活动的笔记,转成了 .csv 然后把这个 .csv 文件丢给了《带带弟弟排版器》 就有了昨天的文章:《我参加了 OpenAI 红队的活动,并带来了一些笔记》同样的,这一篇文章《中学生能看懂:Sora 原理解读》,是用我写的另一个 Agent 完整生成的,包括排版。我相信,在 AGI 来之前,Agent 是一个很棒的替代方案。不过现在还有俩主要毛病:1.不够稳定;2.算力有点贵 (本文来源赛博禅心,如有侵权请联系删除)
2024-04-08 10:11:40 120
ControlNet作者推出AI图像生成图层设计

ControlNet作者推出AI图像生成图层设计

最新的研究进展展示了预训练模型生成透明图像的突破。斯坦福大学的研究人员提出了LayerDiffusion方法,通过学习“潜在透明度”,使得模型可以微调潜在空间,从而转变为透明图像生成器。这项技术备受关注,尤其是在ControlNet作者的最新研究中。例如:头发凌乱的女性,在卧室里。再看一个例子:燃烧的柴火,在一张桌子上,在乡下。他们使用Stable Diffusion技术可以直接生成单个或多个透明图层(PNG),避免了繁琐的抠图过程。用户研究表明,用户更偏好团队本地生成的透明内容,而不是之前的临时解决方案。这一研究成果有望深刻影响透明图像生成领域,为其带来更多创新和进步。论文地址:https://arxiv.org/pdf/2402.17113.pdf
2024-03-06 08:30:00 60
OpenAI正式推出GPT商店

OpenAI正式推出GPT商店

OpenAI于当地时间周三在其官网上宣布了GPT商店和ChatGPT团队订阅服务的正式推出。对于GPT商店,OpenAI在官网表示,该商店将帮助用户发现实用和流行的个性化ChatGPT,面向ChatGPT Plus、团队和企业用户。该商店计划于去年11月6日宣布,但由于管理层变动,CEO萨姆·奥特曼的解雇引发了员工和投资者的不满。董事会的改组和奥特曼的回归对一些计划产生了影响。据OpenAI在其官网公布的消息,已有大量个性化ChatGPT供用户使用。自两个月前宣布GPT商店计划以来,用户已创建了超过300万个个性化的ChatGPT,并积极分享给其他用户使用。GPT商店的推出使用户可以分享和发现实用且流行的ChatGPT,无需编码技能即可轻松创建个性化的GPT。然而,OpenAI在官网上也强调,用户创建的个性化GPT必须符合相关规定,并需要根据最新的使用政策和GPT品牌指南进行评估。为确保符合规定,OpenAI在现有产品的安全措施之外,还构建了一套新的评估系统,包括人工审查和自动审查。OpenAI表示,未来向GPT商店提供个性化ChatGPT的开发者将能够获得相应的收入。在一季度,将启动GPT开发者收入计划,首先将美国的开发者按用户参与度获得报酬,并提供相关标准和细节。与GPT商店同时推出的还有“ChatGPT团队”订阅服务,类似于去年8月推出的ChatGPT企业版。与企业版面向规模较大的公司不同,“ChatGPT团队”是一项适用于任何规模团队的计划,月付费为30美元,年付费为25美元,高于ChatGPT Plus每月20美元的价格。“ChatGPT团队”旨在提供安全、协作的工作空间,以充分利用ChatGPT。订阅该服务的用户可以访问OpenAI的GPT-4、DALL-E 3等先进模型,并使用先进的数据分析工具。与ChatGPT企业版一样,“ChatGPT团队”的用户将拥有和控制其业务数据,OpenAI明确表示不会将相关数据用于训练和对话,模型也不会在用户使用过程中学习。
2024-01-11 11:32:04 177
OpenAI推出用户对GPT进行评级

OpenAI推出用户对GPT进行评级

OpenAI推出备受瞩目的GPT商店,为第三方用户提供了一个创造和分享个性化聊天机器人的机会。最新升级中引入了用户评分和更详细的构建者资料。然而,与之前设想的不同,OpenAI尚未实施根据GPT创作者根据其定制GPT使用频率分享收益的计划。在社交网络X(以前是Twitter)上,OpenAI宣布了GPT商店的更新,附带了一个动态GIF,演示了用户如何为第三方GPT进行评分。在GPT的左上方,用户可以通过下拉菜单找到“发送反馈”选项,打开一个新的互动元素,允许用户给予1-5颗星的评分,并提供一个文本框以向GPT的创建者发送“可选的私人邮件”。同时,还有一个复选框选项,用户可以选择是否留下评分者的电子邮件地址。对于GPT构建者而言,现在他们可以在用户点击其名称时,账户资料中包含更多信息。这些信息包括链接到构建者LinkedIn页面或个人资料的链接、X账户、网站,以及平均评分和总评分数量等数据。还包括“对话”的总数,即使用该GPT启动的会话次数。
2024-02-27 08:10:00 84
OpenAI的Q*模型推进时间表曝光

OpenAI的Q*模型推进时间表曝光

社交平台上流传一份引人瞩目的53页PDF文件,据称揭示了OpenAI公司在2027年前打造人类级别通用人工智能(AGI)的计划和最新进展。文件的发布者Jackson在社交平台上仅有两条推文,其账号注册于2023年7月,而其主页签名“jimmy apples窃取了我的信息”引起了一些关注。根据文件内容,OpenAI在2022年8月开始了一个名为Arrakis或Q*的多模态模型的训练,该模型拥有惊人的125万亿参数。文件还披露了一系列计划,包括GPT-5因推理成本高昂而取消发布,Q*的下一个阶段曾被称为GPT-6,后来改名为GPT-7,并因埃隆·马斯克的诉讼而被搁置。公司计划于2027年发布的Q* 2025(GPT-8)旨在实现完全的AGI。值得注意的是,尽管这份文件在社交平台上引起广泛传播,但OpenAI尚未对其进行回应,因此文件的可靠性尚未明确。有分析认为,Jackson账号的注册时间较短,文件的信息可信度甚至低于1%。与此同时,OpenAI的创始人之一奥尔特曼在社交平台上发布了两条推文,暗示着一场“风暴”正在愈演愈烈。他指出,尽管风暴愈发猛烈,但其中心却保持着平静。奥尔特曼还在推文中提到,在过去几周内,OpenAI已经研发出比GPT-4更强大的技术,超出了人们的预期。然而,这一系列的信息尚待进一步验证。OpenAI的计划和奥尔特曼的推文显示出该公司在推动人工智能领域取得了重大进展,但在信息社交平台上,用户应当对信息的真实性保持谨慎,确保对其进行准确的核实。关注以下公众号,回复【53页PDF】,免费获取文档。
2024-03-06 08:20:00 52
社群
人工智能学堂 加入
扫描二维码
Glen 加入
扫描二维码