实用至上:智能体/Agent 是什么

赛博禅心 2024-04-08 10:11:40 119

Agent 的起源

不做词义追源,仅从大众角度,这个事儿是去年初开始的,也就是 2023 年 2-3 月。标志性事件包括:

  • AutoGPT 等开源项目的发布,这是第一批基于自然语言的 AI 自动化实践:你告诉它一个任务,它就会通过自然语言的自我对话,将这个任务进行拆分、规划并实现。
  • 斯坦福小镇一类的项目实践:给予不同的 Bot 以不同的人格,搭配记忆窗口,让它们之间相互对话。
  • 发表于 2 月的论文《Toolformer: 大模型可以教自己使用工具》,以及 OpenAI 在 3 月底发布的插件计划:这意味着,大模型从原来的“思想家”,通过对外部工具的使用,变成了实干家。

editor-photo-174.jpg

《AI 学会使用工具了》

2023年2月14日,报道自赛博禅心

现在的 Agent

时至今日,对于 Agent 是什么,可能还没有一个标准的定义。

一个常见的观点是,Agent 是一种让 AI 以类似人的工作和思考方式,来完成一系列的任务。一个 Agent 可以是一个 Bot,也可以是多个 Bot 的协同。就像是职场里,简单的工作独立完成,复杂的工作协作完成一样。

对于每个 Bot 来说,可能会包括:

  • 一个大脑:判断和规划行为,这里通常用 GPT-4或同水平的 LLM;
  • 眼睛和手:确认信息和使用外部工具,一般是各种插件/action/api;
  • 工作纪要:储存已经发生的事,通常的媒介是上下文窗口,或者数据库;
  • 行为SOP:明确这个 Agent 的身份、任务、目标和机制。这个 SOP 可能是用户给的,也可能是由其它 Bot 给出的。

再具象一点,这里我从 GPTs 里截了个图:

editor-photo-175.jpg

对于 GPTs,通常被认为是由 OpenAI 设计的简化版的 Agent。默认情况下,只能进行单 Bot 交互:

  • 一个大脑:在 ChatGPT GPT Store 里,GPT-4 是唯一可选的 LLM;
  • 眼睛和手:可以在 Capabilities 里勾选由 OpenAI 提供的第一方能力,也可以通过Actions 来拓展更多的外部能力;
  • 工作纪要:一般来说就是对话记录,GPTs 可以回顾之前的对话;
  • 行为SOP:存放在 Description, Instructions 以及 Knowledge 里。

OpenAI 的 Agent 演进

以 OpenAI 为例,我们看看 Agent 是如何一步步演进的。

去年 3 月底,OpenAI 宣布了插件计划,并在 5 月上线了插件商店,这也标志了 OpenAI 揭开 Agent 战局的第一步。


在当时 OpenAI 给开发者发送的指引中,给了这样的 Todo:

  • 第一步:开发接口,来定义 ChatGPT 可以调用的功能。接口可以是新开发的,也可以是改造现有的
  • 第二步:写一份文档,给 ChatGPT 来看,让它知道什么时候去调用接口。当然,这里要遵循一定的格式,然后用自然语言来写。

如果你做过 OpenAI API 的开发,可能会觉得这个文档有些熟悉,这不就是 Fuction Call 吗?

没错,在 2023 年 6 月 13 日,OpenAI 发布了 Function Call 模式,让大模型可以来调用外部工具,用的就是非常类似的方案。

再往后,OpenAI 的相关工作人员做了一系列的 Research,关于 Agent 的最佳实践。同时的,也发布了 Custom Instruction 指令的相关功能。

之后,ChatGPT 推出了 All Tools 功能。也就是回答用户问题时,不再需要用户自主的来选择工具,这可以视作是“自动版的Plugin”,覆盖了三款官方工具:Browsing, Advanced Data Analysis 和 DALL·E。

时间推移,在2023 年 11 月 6 日的时候,在 OpenAI 开发者大会上,Sam Altman 宣布了 GPTs,这通常被认为是 OpenAI 推出了其第一个正式版的 AI Agent。在最初的版本中,包括以下功能

  • 允许用户创建多个 Bot,自定义它们的身份和回答风格。并且这些 Bot 可以分享
  • Bot 可以自有使用三款官方工具:Browsing, Advanced Data Analysis 和 DALL·E
  • Bot 也可以通过 Action 的方式(类似 API 的东西),去调用任何的外部能力
  • Bot 可以有自己的数据空间,允许用户对这些数据进行 QA。比如在《我刚弄个贼实用的GPTs》中,我上传了 OpenAI 的开发文档,帮助开发者快速生成 OpenAI 的调用代码

同时,在11月06日的时候,OpenAI 也更新了几个影响深远的接口:

  • Function Calling:更新多参数生成功能,可以让一轮对话完成多项任务
  • JSON Mode:让 API 通过 JSON,而非文字,来做出回应
  • Seed:设定随机值,提高一致性
  • Assistants API & Code Interpreter:可以理解为把 ChatGPT 的 Bot,搬到了 API 里
  • Retrieval:简易化知识库构建

editor-photo-176.jpg

在最近 GPTs  体系上线了 GPT Store,有些媒体称其为 OpenAI 的 App Store 时刻,但其实并不相同。在 GPT Store 里,用户可以搜索和使用为各项任务所开发的 GPTs。

紧随 GPT Store 上线的,还有 @GPTs 功能,也就是在任何的对话中,你都可以手动的让某个 GPTs 接管这个对话内容,做出更好的输出。

editor-photo-177.jpg

值得一提的是,由于 GPT Store 没有开放支付入口,所以目前几乎所有的 GPTs 都是免费的。对此,OpenAI 也承诺了会给头部开发者提供激励:《GPTs 商店,要发钱了!!!》。

其它 Agent 平台

之前和 OpenAI 的相关负责人聊过,ChatGPT 的主要定位是“开箱即用的消费级产品”。那这里,自然给“较为复杂的生产级产品”留下了生态空间。这里,我们也来探讨下这类产品。

主要的 AI 玩家都会对这方面有所涉足,也各有侧重。比如来传统大厂自字节扣子/coze,百度的灵境矩阵,也比如来自 AI 初创公司的 Dify 等等。

editor-photo-178.jpg

以扣子为例,对比与 GPTs Store,主要的体感区别包括:

  • 免费,至少目前是完全免费的
  • 有数十个官方插件,对比与 GPTs 里只有3个
  • 可以用类似低代码的方式,构建Workflow,并被 Bot 调用
  • 可以将捏好的 Bot 发布到其它平台(比如飞书,公众号),同时支持 API

其中后两条极为核心

我的 Agent 的实战

一个设计良好的 Agent 可以提供极大的生产力,并创造极高的价值。

前几天大火的 Devin,被称为“第一位由 AI 担任的软件工程师”,它可以自主的去学会如何使用不熟悉的技术,自主的生成代码、调试bug和部署应用。

Agent 也可以替代现有的很多软件工具,去完成工作中繁琐的任务。举个例子,我正打算开一个专栏,叫做“乘风破浪的少年们”,去讲述和记录那些在这次 AI 浪潮中,登上世界舞台的中国人,用对话的形式。类似这种:《奥特曼专访:关于 GPT-5、Sora、Ilya、Q*、AGI、外星人等等一切》。

这里对我来讲的一个很大挑战:我需要整理大量的文字稿,并且把它排版出来,这并不轻松,也很占时间。我希望有一个 Agent 来帮我做这件事情。

昨天下午,我和 Owen(沉浸式翻译的作者)去参加了一个 Hackathon,现场有了灵感,并梳理出了这个 Agent 的思路:

  • 第一步:将对话音频文件,通过 AI(比如whisper)转化成文字稿
  • 第二步:将文字稿用 AI 转化成 QA 问答对,以 json/csv 的方式储存
  • 第三步:将 QA 问答对,转化成 HTML(可以导入进微信公众号)

我们花了俩小时,用扣子,把这个 Agent 给搓了出来,起名《带带弟弟排版器》,希望大家带带单打独斗的弟弟。也顺道着把我上次参加 OpenAI  的红队活动的笔记,转成了 .csv

editor-photo-179.jpg

然后把这个 .csv 文件丢给了《带带弟弟排版器》

editor-photo-180.jpg

就有了昨天的文章:《我参加了 OpenAI 红队的活动,并带来了一些笔记

editor-photo-181.jpg

同样的,这一篇文章《中学生能看懂:Sora 原理解读》,是用我写的另一个 Agent 完整生成的,包括排版。

我相信,在 AGI 来之前,Agent 是一个很棒的替代方案。不过现在还有俩主要毛病:1.不够稳定;2.算力有点贵

(本文来源赛博禅心,如有侵权请联系删除)

相关资讯
最新资讯
最新问答
人工智能是什么

人工智能是什么

摘要:人工智能是一种模拟人类智能的技术,它通过机器学习、深度学习、自然语言处理、计算机视觉等技术手段,实现自动化决策、智能机器人、语音识别、图像识别等功能。本文将从定义、发展历程、应用领域、伦理问题等方面,全面解析人工智能的概念、特点及其应用前景。一、定义人工智能(AI)是一种模拟人类智能,使计算机和机器能够执行类似人类智能的任务的技术。它涵盖了从机器学习、深度学习到自然语言处理等多个领域,通过运用算法和数据处理,实现自动化决策、智能机器人、语音识别、图像识别等功能。二、发展历程人工智能的发展可以追溯到上世纪50年代,当时科学家们开始研究计算机能否像人一样思考。经过几十年的发展,人工智能技术取得了显著的进步,尤其是在大数据、云计算和算法等领域。如今,人工智能已经广泛应用于各个领域,如医疗、金融、交通等。三、应用领域1. 自动化决策:人工智能可以帮助企业自动化决策,提高决策效率和准确性。例如,在金融领域,人工智能可以通过分析大量数据,预测市场趋势,帮助投资者做出更明智的决策。2. 智能机器人:人工智能驱动的机器人可以执行各种任务,如制造、物流、医疗等。它们具有高度灵敏的感知能力和反应速度,能够适应各种复杂环境。3. 语音识别和图像识别:人工智能可以自动识别和理解人类语音,以及识别图像中的内容。这在智能家居、安全监控、自动驾驶等领域具有广泛的应用前景。4. 虚拟个人助理:人工智能驱动的虚拟个人助理可以通过自然语言对话,帮助用户完成各种任务,如查询信息、购物等。四、伦理问题人工智能的发展也带来了一些伦理问题。例如,随着机器学习算法的广泛应用,机器可能会做出比人类更准确的决策,但这也可能导致一些不公平的结果。此外,人工智能武器和自动化战争系统也引发了人们对机器人自主权和道德责任的担忧。因此,我们需要制定相应的伦理规范和法规,以确保人工智能的发展符合人类的价值观和道德标准。总之,人工智能是一种具有巨大潜力的技术,它正在改变我们的生活和工作方式。虽然它带来了一些挑战和伦理问题,但只要我们合理使用和规范管理,人工智能将成为推动社会进步的重要力量。
2024-01-15 09:53:16 116
人工智能的概念是什么

人工智能的概念是什么

摘要:本文从定义、应用、发展历程等方面详细阐述了人工智能的概念。首先,人工智能是通过计算机技术、机器学习、深度学习等技术实现的一种模拟人类智能的技术。其次,人工智能的应用范围广泛,包括但不限于自然语言处理、图像识别、语音识别、机器人等领域。此外,人工智能的发展经历了漫长的历程,从早期的符号逻辑到现在的深度学习,人工智能的技术越来越成熟,为人类带来了巨大的便利和效益。一、定义人工智能(AI)是一种模拟人类智能的技术,通过计算机技术、机器学习、深度学习等手段,实现自动化的决策、推理、理解等人类智慧的特性和行为。简单来说,人工智能是一种使计算机能够像人一样思考、学习、判断的技术。二、应用1. 自然语言处理:人工智能在自然语言处理领域的应用,使得计算机能够理解和处理人类语言,如智能客服、语音识别和翻译等。2. 图像识别:人工智能在图像识别领域的应用,使得计算机能够自动识别和分析图像,如人脸识别、物体检测和识别等。3. 语音识别:人工智能在语音识别领域的应用,使得计算机能够自动将人类的语音转化为文字或指令,如智能家居系统、语音助手等。4. 机器人:人工智能在机器人领域的应用,使得机器人能够自主决策、感知环境、执行任务,如工业机器人、服务型机器人等。三、发展历程人工智能的发展经历了漫长的历程。早期的符号逻辑方法虽然取得了一定的成果,但应用范围有限。随着计算机技术的不断发展,人工智能逐渐转向了数据驱动的方法,如机器学习和深度学习。目前,人工智能技术已经越来越成熟,为人类带来了巨大的便利和效益。四、未来发展未来,人工智能将在更多领域得到应用和发展。例如,在医疗领域,人工智能可以帮助医生更准确地诊断疾病,制定更有效的治疗方案;在交通领域,人工智能可以帮助交通管理部门更有效地管理交通流量,提高交通安全性;在金融领域,人工智能可以帮助金融机构更准确地评估风险,提高投资收益。总之,人工智能是一种模拟人类智能的技术,其应用范围广泛,为人类带来了巨大的便利和效益。未来,随着人工智能技术的不断发展,其应用领域也将越来越广泛。
2024-01-23 10:29:27 79
人工智能的基础是什么

人工智能的基础是什么

摘要:本文从人工智能的定义出发,探讨了人工智能的基础,包括算法、数据、算力、模型和算法设计。文章详细阐述了这些基础要素在人工智能中的应用和重要性,并指出未来的发展将更加依赖于这些基础要素。一、引言人工智能(AI)已经成为当今科技领域的热门话题,其在各个领域的应用也越来越广泛。那么,人工智能的基础是什么呢?本文将从算法、数据、算力、模型和算法设计等方面进行探讨。二、基础要素1.算法算法是人工智能的核心,是计算机程序所遵循的规则和步骤。人工智能算法可以分为两类:监督学习算法和无监督学习算法。监督学习算法需要大量的标注数据,通过训练不断优化模型,以实现特定的任务。无监督学习算法则主要用于数据预处理和特征提取,为后续的监督学习提供更好的数据基础。2.数据数据是人工智能的基石,是机器学习的基础。人工智能需要大量的数据来训练模型,以提高模型的准确性和泛化能力。数据的来源可以是公开的数据库,也可以是企业或个人提供的特定数据集。数据的收集、清洗和处理是人工智能应用中非常重要的一环。3.算力算力是指计算机的计算能力和速度,是人工智能得以实现的基础。随着硬件技术的不断发展,计算机的计算能力和速度越来越快,为人工智能提供了强大的支持。目前,GPU、TPU等专用硬件已经成为人工智能计算的主流。4.模型模型是人工智能的重要组成部分,是机器学习算法的输出结果。人工智能模型可以根据不同的任务和数据类型进行选择和调整。模型的复杂度和精度之间存在一定的关系,需要根据具体的应用场景进行权衡。5.算法设计算法设计是人工智能得以实现的关键,是机器学习算法的核心。算法设计的优劣直接影响到模型的准确性和泛化能力。优秀的算法设计需要考虑到数据的特性、任务的类型以及计算资源的限制等因素。三、总结人工智能的基础包括算法、数据、算力、模型和算法设计等方面。这些基础要素在人工智能中的应用和重要性不言而喻,未来的发展将更加依赖于这些基础要素。只有不断优化和改进这些基础要素,才能推动人工智能技术的不断发展和应用。
2024-01-17 10:55:46 87
生成式人工智能是什么

生成式人工智能是什么

摘要:生成式人工智能是一种基于机器学习算法的技术,它可以根据已有的数据和信息生成新的文本、图像或其他类型的数据。生成式人工智能利用深度学习、自然语言处理、计算机视觉等技术,模拟人类的思维过程,生成符合语法和语义规则的文本,或者根据输入的图像生成新的图像。它是一种非常有前途的技术,已经在许多领域得到了广泛应用,包括广告、娱乐、新闻、医疗、金融等。一、定义与原理生成式人工智能是一种基于机器学习算法的技术,其主要任务是生成新的数据,而不是识别或分类已有数据。它通过深度学习、自然语言处理、计算机视觉等技术,模拟人类的思维过程,生成符合语法和语义规则的文本、图像或其他类型的数据。其核心原理是通过训练数据的学习,不断优化模型,使其能够生成更加真实、自然和有用的数据。二、应用领域生成式人工智能已经在许多领域得到了广泛应用,包括广告、娱乐、新闻、医疗、金融等。在广告领域,生成式人工智能可以生成具有吸引力的广告文案,提高广告效果;在娱乐领域,它可以生成新的电影剧本、音乐作品等;在新闻领域,它可以自动生成新闻报道;在医疗领域,它可以辅助医生进行诊断和治疗;在金融领域,它可以生成新的投资策略和风险评估报告。三、挑战与前景虽然生成式人工智能带来了许多便利和机会,但也面临着一些挑战,如数据隐私、算法偏见等问题。因此,我们需要加强监管和规范,确保生成式人工智能技术的合理使用。同时,随着技术的不断进步,生成式人工智能的应用场景也将越来越广泛,未来的发展前景非常广阔。四、伦理与法律问题由于生成式人工智能技术生成的文本、图像等数据可能涉及到隐私和版权等问题,因此需要加强相关法律法规的制定和实施。同时,也需要加强伦理道德教育,提高人们对生成式人工智能技术的认识和敏感性,以避免滥用和误用。总之,生成式人工智能是一种非常有前途的技术,它正在改变我们的生活和工作方式。我们应该积极探索和应用这一技术,同时也需要关注其挑战和问题,加强监管和规范,确保其合理和安全的使用。
2024-01-22 01:50:25 106
人工智能的核心是什么

人工智能的核心是什么

摘要:本文从人工智能的定义和特点出发,深入探讨了人工智能的核心。人工智能的核心在于算法和数据,其中算法是人工智能的基础,而数据则是算法的燃料。此外,人工智能还需要强大的计算能力和足够的学习资源,以实现更高效和智能的决策。同时,人工智能还强调了对人类情感的理解和尊重,以及对自然世界和生物学的认知,这些都对人工智能的发展至关重要。一、人工智能的定义和特点人工智能(AI)是一种模拟人类智能的技术,它能够通过计算机程序和算法来模拟人类的思维、学习、推理和决策等能力。人工智能具有以下几个特点:1. 自动化:人工智能能够自动执行任务,无需人工干预,大大提高了工作效率。2. 高效性:人工智能能够快速地处理大量数据,并做出准确的决策,从而提高了决策效率。3. 多样性:人工智能的应用领域非常广泛,包括图像识别、语音识别、自然语言处理、机器翻译等。二、人工智能的核心从上述特点来看,人工智能的核心可以概括为算法、数据、计算能力和学习资源四个方面。1. 算法:算法是人工智能的基础,它决定了计算机如何执行任务。不同的算法有不同的优缺点,适用于不同的应用场景。近年来,深度学习算法在图像识别、语音识别和自然语言处理等领域取得了巨大的成功,成为了人工智能算法的主流。2. 数据:数据是算法的燃料,高质量的数据可以提高算法的准确性和可靠性。人工智能需要大量的数据进行训练和学习,以便更好地模拟人类的智能行为。此外,数据也需要进行标注和整理,以便更好地应用于算法。3. 计算能力:强大的计算能力是实现人工智能的关键。随着计算机硬件技术的不断发展,人工智能的计算能力得到了极大的提升。高性能的计算机、服务器和GPU等硬件设备为人工智能提供了强大的计算支持。4. 学习资源:人工智能需要不断学习和积累经验,以便更好地适应不同的应用场景。因此,充足的学习资源是人工智能不可或缺的一部分。目前,互联网上已经积累了大量的数据和知识,为人工智能的学习提供了丰富的资源。三、其他重要因素除了上述三个核心因素外,人工智能还强调了对人类情感的理解和尊重,以及对自然世界和生物学的认知。这些因素对于构建一个真正智能的人工智能系统至关重要。未来的人工智能系统应该能够理解和尊重人类的情感和价值观,并且能够更好地融入自然环境和社会环境中去。此外,生物学和医学等领域的研究成果也为人工智能的发展提供了重要的支持。例如,一些医学研究已经为机器人辅助手术等领域提供了重要的技术支持,未来的医学机器人有望成为医疗领域的重要助手。
2024-01-17 10:56:20 62
社群
人工智能学堂 加入
扫描二维码
Glen 加入
扫描二维码