AINEWS > 资讯 > 正文

文生图大模型Stable Diffusion 3论文发布

AIINNEWS 2024-03-07 08:05:00 81

稳定扩散3技术发布：Stability AI引领文本-图像生成创新

在最新的技术突破中，Stability AI发布了其引领文本-图像生成领域的最新力作——稳定扩散3。本次发布的研究论文详细揭示了支持这一技术创新的底层技术细节。

稳定扩散3的表现超越了同类文本到图像生成系统，例如DALL·E 3、Midjourney v6和Ideogram v1，尤其在排版和提示依从性方面，通过人类偏好评估取得了显著的优势。

Stability AI采用了全新的Multimodal Diffusion Transformer（MMDiT）架构，为图像和语言表示分别使用了独立的权重集合，从而在文本理解和拼写能力方面迈出了坚实的一步。

在早前宣布稳定扩散3早期预览后，如今Stability AI发布了详细的研究论文，该论文将很快在arXiv上公开，并邀请各界人士加入等待列表，参与到这一技术的早期预览中。

性能卓越

以稳定扩散3为基准，Stability AI通过人类评估制作了一份详细的图表，清晰地展示了该技术在视觉美学、提示遵循和排版等方面相对竞品的优势。通过与其他开源和封闭系统进行对比，稳定扩散3在“提示遵循”、“排版”和“视觉美学”等方面均取得了出色的表现。

技术创新解析

为了实现文本到图像的生成，Stability AI采用了MMDiT架构，该架构能够处理文本和图像的多种模态。独立的权重集合为文本和图像表示赋能，提高了整体理解和生成能力。

灵活性与性能的完美融合

稳定扩散3不仅在提示遵循方面取得了显著进展，使得模型能够创造关注各种主题和品质的图像，同时保持图像风格的高度灵活性。

技术细节深挖

通过采用修正流（RF）公式，稳定扩散3实现了数据和噪声在线性轨迹上的连接，从而创造了更为直线的推断路径，减少了采样步骤。同时，引入新的轨迹采样计划，更加注重轨迹中部分的权重，提高了模型对更具挑战性的预测任务的适应能力。

未来发展的趋势

通过对文本到图像合成的缩放研究，Stability AI展示了对模型规模和训练步骤的灵活适应性。验证损失的平滑下降趋势与自动图像对齐度量（GenEval）和人类偏好评分（ELO）之间呈现出强烈的相关性，预示着未来模型性能的不断提升。

Stability AI的稳定扩散3技术的发布标志着文本-图像生成领域的一次创新飞跃。通过独特的技术架构和性能卓越，Stability AI展示了其在人工智能领域的引领地位。随着更多的应用场景的探索，我们有理由期待，Stability AI将在未来为人工智能技术带来更多令人振奋的突破。

论文地址：

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

上一篇：清华大学：宣布为2024级新生提供“AI成长助手” 下一篇：Stability AI与VAST推出快速将单图转3D模型

Stable Diffusion3.0，采用Sora类似架构

Stable Diffusion3.0，采用Sora类似架构

2月22日，Stability AI 公司发布了其最新一代生成式 AI 技术产品——Stable Diffusion 3，采用了与 OpenAI 的 Sora 相似的 diffusion transformer 架构。与之前的版本相比，Stable Diffusion 3 在图像质量、文字书写效果以及支持多主题提示方面都实现了显著的改进。这一消息传来之际，我们了解到 Stability AI 在2月22日正式推出了 Stable Diffusion 3 的新版本，并且开放了提前预览版的申请通道。新版本的 Stable Diffusion 3 不仅在多主题提示、图像质量和文字渲染能力方面有显著提升，而且模型套件的参数范围从800M到8B不等，与 Sora 一样，都采用了 Diffusion Transformer 架构。Stable Diffusion 3 生成的图在质量上实现了巨大的改进，同时支持多主题提示，使用户能够更灵活地引导生成内容。文字书写效果的提升也让用户在使用过程中获得更加自然流畅的体验。这一新版本的发布展示了 Stability AI 不断推动生成式 AI 技术进步的决心，为用户提供更强大、更多样化的文生成工具。申请地址：http://stability.ai/stablediffusion3以下是一些官方示例：提示：史诗般的动漫作品，一位巫师在夜晚的山顶上向漆黑的天空施放宇宙咒语，咒语上写着 "Stable Diffusion 3"，由五彩缤纷的能量组成（Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy）提示：电影照片，教室的桌子上放着一个红苹果，黑板上用粉笔写着 "go big or go home" 的字样（cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk）提示：一幅画，画中宇航员骑着一只穿着蓬蓬裙的猪，撑着一把粉色的伞，猪旁边的地上有一只戴着高帽的知更鸟，角落里有 "stable diffusion" 的字样（a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion"）提示：黑色背景上变色龙的摄影棚特写（studio photograph closeup of a chameleon over a black background

2024-02-27 08:30:00 85

韩国团队提出文生图大模型KOALA

韩国团队提出文生图大模型KOALA

近期，韩国科研团队成功研发出一项备受瞩目的人工智能图像生成技术，其核心是基于KOALA模型。通过创新的知识蒸馏技术，研究人员成功将Stable Diffusion XL模型的庞大参数数量从25.6亿个压缩至仅有7亿个，实现了模型的显著精简。KOALA模型不仅在硬件需求上实现了巨幅降低，而且能够在仅2秒的时间内生成高质量的图像。采用“知识蒸馏”技术将大型模型中的信息巧妙地转移至小型模型，不仅不损害质量和性能，还使得较小的模型能够更迅速地完成图像生成任务。实测结果表明，在给定“一张宇航员在火星卫星下看书的图片”这一提示词的情况下，KOALA模型仅需1.6秒即可完成任务，而相较之下，OpenAI的DALL-E 3模型和DALL-E 2模型分别需要13.7秒和12.3秒。这项研究为提供一种高性价比的图像生成方式，特别适用于资源受限环境，成为Stable Diffusion XL模型的理想替代品。此技术为未来相关领域的技术发展提供了崭新的思路，为人工智能图像生成领域注入了更为强劲的创新力。论文地址：https://arxiv.org/pdf/2312.04005.pdf

2024-03-05 08:00:00 88

位置感知视觉识别Vision Mamba新模型发布

位置感知视觉识别Vision Mamba新模型发布

华中科技大学、地平线以及智源研究院的研究人员最近在视觉领域取得了重要突破，他们提出了一项名为Vision Mamba（Vim）的创新模型。该模型已在arXiv上发布相关研究论文，详细介绍了Vision Mamba块的设计和性能。Vision Mamba集成了双向SSM，以实现对数据依赖的全局视觉上下文建模，并通过位置嵌入实现位置感知的视觉识别。在具体应用中，当将Vim应用于分辨率为1248×1248的图像进行批量推理时，与成熟的视觉Transformer模型DeiT相比，Vim表现更为卓越。其速度提升了2.8倍，同时还节省了86.8%的GPU内存。这意味着Vim在处理大规模高分辨率图像时不仅具备更高的性能，还能更高效地利用计算资源。此外，对于 ImageNet 分类任务、COCO 对象检测任务和 ADE20k 语义分割任务等多个任务，Vim在性能上均实现了显著提高。在与DeiT等成熟的视觉Transformers相比时，Vim不仅加速了任务执行，而且更加高效地利用计算和内存资源。这一结果进一步印证了Vim在视觉领域具有潜在的广泛应用前景，有望成为下一代视觉基础模型的重要候选。项目主页：https://github.com/hustvl/Vim论文地址：https://arxiv.org/pdf/2401.09417.pdf

2024-01-24 08:49:00 133

华为发布首个通信大模型

华为发布首个通信大模型

作者：崔爽来源：科技日报科技日报记者崔爽记者从华为公司获悉，近日，华为在MWC24巴塞罗那期间发布通信行业首个大模型。据了解，针对行业提出的敏捷业务发放、精准用户体验保障、跨领域高效运维的高阶智能化目标，大模型提供基于角色和场景的智能化应用，助力运营商赋能员工、提升用户满意度，提升网络生产力。MWC24巴塞罗那期间，华为以“引领智能世界”为主题，探讨如何促进“网云智”协同创新，推动数智化转型深入发展，加速5G商业正循环，拥抱更繁荣的5G-A时代。同时，华为展示了全系列、全场景的5.5G产品解决方案，包括5G-A、F5G-A、Net5.5G等。MWC24巴塞罗那华为Hall1展区根据最新数据，截至2023年底，全球已有超过300张5G商用网络，超过16亿5G用户。5G进入高速发展期，全球5G用户增长速度是4G同期的7倍。在2023年全球知名机构测试中，华为在德国、奥地利、荷兰等重要城市助力运营商网络体验取得测试第一。据了解，截至目前，华为联合运营商客户在全球20多个城市启动5G-A商用验证和测试。在中东，5G-A已成产业共识，海湾阿拉伯国家合作委员会（GCC）六国均已完成5G-A 10Gbps速率验证以及RedCap（Reduced Capability，5G轻量化）和Passive IOT（无源物联网）等新业务孵化。中国内地，三大运营商已启动全国重点城市的5G-A网络部署，并全面开展联人、联物、联车、联行业、联家庭的五联业务探索；在中国香港，运营商完成C-band+毫米波的5G-A万兆测速验证，并启动发放5G-AFWA业务；在芬兰，运营商在商用网络上完成5G-A技术验证，实现超过10Gbps峰值速率和Passive IoT的技术验证；在德国，运营商通过6GHz多载波突破12Gbps峰值速率。2024是5G-A商用的元年，华为表示，将联手全球运营商积极探索向5G-A时代的演进，构建极致体验、高效协同、绿色低碳、高稳智能的泛在网络，推动数智化转型深入发展，引领智能世界加速到来。据悉，华为企业业务以“引领数智基础设施，加速行业智能化”为主题亮相MWC24巴塞罗那，发布十大行业数智化解决方案，以及系列旗舰产品。华为终端业务携一系列科技新品亮相，展现让科技进一步融入消费者生活、丰富场景化体验的追求，以创新技术打造丰富的个性化生活方式。（主办方供图）(本文来源科技日报，如有侵权请联系删除)

2024-02-29 09:00:00 75

Stability AI与VAST推出快速将单图转3D模型

Stability AI与VAST推出快速将单图转3D模型

稳定性AI与国内3D生成模型公司VAST宣布了一项引人注目的合作，联手推出了TripoSR——一款快速的3D物体重建模型，并开源发布。TripoSR是一款受到LRM启发的人工智能模型，专注于视觉内容生成，满足娱乐、游戏、工业设计和建筑等领域不断增长的需求。该模型具备在极短时间内从单张图像生成高质量3D模型的能力，即使在无GPU的情况下也能运行。在经过英伟达A100的严格测试后，TripoSR表现出色，能够在约0.5秒内生成草稿质量的3D输出，带有纹理网格，明显领先于其他开源图像转3D模型工具，如OpenLRM。为了支持广泛的使用，Stability AI根据MIT许可提供了TripoSR模型的权重和源代码，供商业、个人和研究用途自由下载。在模型的训练过程中，Stability AI采用了多种数据渲染技术，提高了模型的泛化能力。通过精心设计更高质量的Objaverse数据集子集训练数据，TripoSR更接近复制现实世界中的图像分布，进一步提升了泛化性能。此外，模型经过通道数优化、掩模监控和更高效的裁剪渲染策略的多项技术改进，性能更为出色。TripoSR的发布是Stability AI和VAST合作的成果，为用户提供了高效、快速且质量优越的3D物体重建解决方案，将在不同领域展现广泛的应用潜力。项目地址：https://github.com/VAST-AI-Research/TripoSR技术报告：https://stability.ai/s/TripoSR_report.pdf

2024-03-07 08:10:00 99

10分钟前！GPT-4-Turbo 推出了正式版

10分钟前！GPT-4-Turbo 推出了正式版

10 分钟前GPT-4 Turbo 推出了正式版OpenAI 官方发布关于正式版虽然 GPT-4-Turbo 发布已久，但一直以“预览版”的方式提供。而就在刚才，OpenAI 发布了 GPT-4-Turbo 的正式版。主要信息包括：▶ 全面开放，可通过“gpt-4-turbo”来使用此模型，最新版本为“gpt-4-turbo-2024-04-09”▶ 基础能力更新，按官方说法：Majorly improved GPT-4 Turbo model▶ 自带读图能力，无需使用 4v 接口▶ 128k 上下文▶ 训练数据截止至 2023 年 12 月这里查阅接口信息：https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4 价格方面，和之前的 GPT-4-Turbo 保持一致，即：▶ 输入：$10.00 / 100万 tokens▶ 输出：$30.00 / 100万 tokens▶ 读图：最低 $0.00085 / 图这里查阅价格信息：https://openai.com/pricing 频率限制方面，以最高级 Tire 5 为例，官方说明中：▶ 最高并发：10,000 次/ 分钟▶ 最高处理：1,500,000 tokens / 分钟这里查阅相关限制：https://platform.openai.com/docs/guides/rate-limits/usage-tiers?context=tier-five 我看了一下后台，还是老的限制，应该还没改完：▶ 最高并发：3,000 次/ 分钟▶ 最高处理：250,000 tokens / 分钟这里查看你的限制：https://platform.openai.com/account/limits GPT-4 还有哪些版本▶ GPT-4发布于去年的 3 月 14 日（即 0314 版），后续更新 0613 版，支持 8k 上下文，是经典版的 GPT-4。- 输入：$30.00 / 100万 tokens- 输出：$60.00 / 100万 tokens ▶ GPT-4-32k与 GPT-4 同期发布，也是有 0314 和 0613 两个子版本，支持 32k 上下文，是当时上下文最长的模型，但非常贵。- 输入：$60.00 / 100万 tokens- 输出：$120.00 / 100万 tokens另说一下，这个模型是邀请制，至今未公开提供。 ▶ GPT-4-Turbo-Preview （即 GPT-4 Turbo 预览版）发布于去年的 11 月 6 日（即 1106 版），后续更新 0125 版，支持 128k 上下文，并且大幅降价。- 输入：$10.00 / 100万 tokens- 输出：$30.00 / 100万 tokens ▶ GPT-4-Vision-Preview （即 GPT-4 Turbo 的读图版）和 GPT-4-Turbo-Preview 同一时间发布，也包括 1106 版和 0125 版，价格保持一致，但给的用量不多。- 输入：$10.00 / 100万 tokens- 输出：$30.00 / 100万 tokens读图的价格看分辨率：最低 $0.00085 / 图(本文来源赛博禅心，如有侵权请联系删除)

2024-04-11 09:48:42 124

实用至上：智能体/Agent 是什么

实用至上：智能体/Agent 是什么

Agent 的起源不做词义追源，仅从大众角度，这个事儿是去年初开始的，也就是 2023 年 2-3 月。标志性事件包括：AutoGPT 等开源项目的发布，这是第一批基于自然语言的 AI 自动化实践：你告诉它一个任务，它就会通过自然语言的自我对话，将这个任务进行拆分、规划并实现。斯坦福小镇一类的项目实践：给予不同的 Bot 以不同的人格，搭配记忆窗口，让它们之间相互对话。发表于 2 月的论文《Toolformer: 大模型可以教自己使用工具》，以及 OpenAI 在 3 月底发布的插件计划：这意味着，大模型从原来的“思想家”，通过对外部工具的使用，变成了实干家。《AI 学会使用工具了》2023年2月14日，报道自赛博禅心现在的 Agent时至今日，对于 Agent 是什么，可能还没有一个标准的定义。一个常见的观点是，Agent 是一种让 AI 以类似人的工作和思考方式，来完成一系列的任务。一个 Agent 可以是一个 Bot，也可以是多个 Bot 的协同。就像是职场里，简单的工作独立完成，复杂的工作协作完成一样。对于每个 Bot 来说，可能会包括：一个大脑：判断和规划行为，这里通常用 GPT-4或同水平的 LLM；眼睛和手：确认信息和使用外部工具，一般是各种插件/action/api；工作纪要：储存已经发生的事，通常的媒介是上下文窗口，或者数据库；行为SOP：明确这个 Agent 的身份、任务、目标和机制。这个 SOP 可能是用户给的，也可能是由其它 Bot 给出的。再具象一点，这里我从 GPTs 里截了个图：对于 GPTs，通常被认为是由 OpenAI 设计的简化版的 Agent。默认情况下，只能进行单 Bot 交互：一个大脑：在 ChatGPT GPT Store 里，GPT-4 是唯一可选的 LLM；眼睛和手：可以在 Capabilities 里勾选由 OpenAI 提供的第一方能力，也可以通过Actions 来拓展更多的外部能力；工作纪要：一般来说就是对话记录，GPTs 可以回顾之前的对话；行为SOP：存放在 Description, Instructions 以及 Knowledge 里。 OpenAI 的 Agent 演进以 OpenAI 为例，我们看看 Agent 是如何一步步演进的。去年 3 月底，OpenAI 宣布了插件计划，并在 5 月上线了插件商店，这也标志了 OpenAI 揭开 Agent 战局的第一步。在当时 OpenAI 给开发者发送的指引中，给了这样的 Todo：第一步：开发接口，来定义 ChatGPT 可以调用的功能。接口可以是新开发的，也可以是改造现有的第二步：写一份文档，给 ChatGPT 来看，让它知道什么时候去调用接口。当然，这里要遵循一定的格式，然后用自然语言来写。如果你做过 OpenAI API 的开发，可能会觉得这个文档有些熟悉，这不就是 Fuction Call 吗？没错，在 2023 年 6 月 13 日，OpenAI 发布了 Function Call 模式，让大模型可以来调用外部工具，用的就是非常类似的方案。再往后，OpenAI 的相关工作人员做了一系列的 Research，关于 Agent 的最佳实践。同时的，也发布了 Custom Instruction 指令的相关功能。之后，ChatGPT 推出了 All Tools 功能。也就是回答用户问题时，不再需要用户自主的来选择工具，这可以视作是“自动版的Plugin”，覆盖了三款官方工具：Browsing, Advanced Data Analysis 和 DALL·E。时间推移，在2023 年 11 月 6 日的时候，在 OpenAI 开发者大会上，Sam Altman 宣布了 GPTs，这通常被认为是 OpenAI 推出了其第一个正式版的 AI Agent。在最初的版本中，包括以下功能允许用户创建多个 Bot，自定义它们的身份和回答风格。并且这些 Bot 可以分享Bot 可以自有使用三款官方工具：Browsing, Advanced Data Analysis 和 DALL·EBot 也可以通过 Action 的方式（类似 API 的东西），去调用任何的外部能力Bot 可以有自己的数据空间，允许用户对这些数据进行 QA。比如在《我刚弄个贼实用的GPTs》中，我上传了 OpenAI 的开发文档，帮助开发者快速生成 OpenAI 的调用代码同时，在11月06日的时候，OpenAI 也更新了几个影响深远的接口：Function Calling：更新多参数生成功能，可以让一轮对话完成多项任务JSON Mode：让 API 通过 JSON，而非文字，来做出回应Seed：设定随机值，提高一致性Assistants API & Code Interpreter：可以理解为把 ChatGPT 的 Bot，搬到了 API 里Retrieval：简易化知识库构建在最近 GPTs 体系上线了 GPT Store，有些媒体称其为 OpenAI 的 App Store 时刻，但其实并不相同。在 GPT Store 里，用户可以搜索和使用为各项任务所开发的 GPTs。紧随 GPT Store 上线的，还有 @GPTs 功能，也就是在任何的对话中，你都可以手动的让某个 GPTs 接管这个对话内容，做出更好的输出。值得一提的是，由于 GPT Store 没有开放支付入口，所以目前几乎所有的 GPTs 都是免费的。对此，OpenAI 也承诺了会给头部开发者提供激励：《GPTs 商店，要发钱了！！！》。其它 Agent 平台之前和 OpenAI 的相关负责人聊过，ChatGPT 的主要定位是“开箱即用的消费级产品”。那这里，自然给“较为复杂的生产级产品”留下了生态空间。这里，我们也来探讨下这类产品。主要的 AI 玩家都会对这方面有所涉足，也各有侧重。比如来传统大厂自字节扣子/coze，百度的灵境矩阵，也比如来自 AI 初创公司的 Dify 等等。以扣子为例，对比与 GPTs Store，主要的体感区别包括：免费，至少目前是完全免费的有数十个官方插件，对比与 GPTs 里只有3个可以用类似低代码的方式，构建Workflow，并被 Bot 调用可以将捏好的 Bot 发布到其它平台（比如飞书，公众号），同时支持 API其中后两条极为核心。我的 Agent 的实战一个设计良好的 Agent 可以提供极大的生产力，并创造极高的价值。前几天大火的 Devin，被称为“第一位由 AI 担任的软件工程师”，它可以自主的去学会如何使用不熟悉的技术，自主的生成代码、调试bug和部署应用。Agent 也可以替代现有的很多软件工具，去完成工作中繁琐的任务。举个例子，我正打算开一个专栏，叫做“乘风破浪的少年们”，去讲述和记录那些在这次 AI 浪潮中，登上世界舞台的中国人，用对话的形式。类似这种：《奥特曼专访：关于 GPT-5、Sora、Ilya、Q*、AGI、外星人等等一切》。这里对我来讲的一个很大挑战：我需要整理大量的文字稿，并且把它排版出来，这并不轻松，也很占时间。我希望有一个 Agent 来帮我做这件事情。昨天下午，我和 Owen（沉浸式翻译的作者）去参加了一个 Hackathon，现场有了灵感，并梳理出了这个 Agent 的思路：第一步：将对话音频文件，通过 AI（比如whisper）转化成文字稿第二步：将文字稿用 AI 转化成 QA 问答对，以 json/csv 的方式储存第三步：将 QA 问答对，转化成 HTML（可以导入进微信公众号）我们花了俩小时，用扣子，把这个 Agent 给搓了出来，起名《带带弟弟排版器》，希望大家带带单打独斗的弟弟。也顺道着把我上次参加 OpenAI 的红队活动的笔记，转成了 .csv 然后把这个 .csv 文件丢给了《带带弟弟排版器》就有了昨天的文章：《我参加了 OpenAI 红队的活动，并带来了一些笔记》同样的，这一篇文章《中学生能看懂：Sora 原理解读》，是用我写的另一个 Agent 完整生成的，包括排版。我相信，在 AGI 来之前，Agent 是一个很棒的替代方案。不过现在还有俩主要毛病：1.不够稳定；2.算力有点贵 (本文来源赛博禅心，如有侵权请联系删除)

2024-04-08 10:11:40 145

ChatGPT 突然放开了账户限制，面向所有人开放

ChatGPT 突然放开了账户限制，面向所有人开放

大门终于打开。奥特曼 OpenAI 的旗舰产品 ChatGPT 突然宣布：将面向所有人开放，无论你有没有注册账户。从今天开始，访问 Chat.openai.com 将不再要求用户登录，用户将直接进入与 ChatGPT 的对话界面，且界面的模式与采用登录方式的用户一样，你可以与 ChatGPT 尽情聊天。如下图：目前 GPT-3.5 支持所有人使用，而 GPT-4 则只支持 ChatGPT 的付费会员使用。不过，没有 ChatGPT 账户的用户，将无法获得与拥有账户的用户相同的功能，这些功能包括：无法保存或共享聊天记录、使用自定义指令，或者其他通常需要与永久账户关联的功能。当然，ChatGPT 也仍然支持你成为注册用户，然后登录。需要注意的是：正如我前文所述，此前 ChatGPT 的增长已经基本停滞——其流量峰值，出现在了 2023 年的 5 月，此后，再也没有恢复到峰值。也就是说，ChatGPT 突然打开大门，应该是其迫于增长压力和竞争压力导致的。可以预见：很快，ChatGPT 将因此迎来一个陡峭的访问量激增，因为会有大量的人来到 Chat.openai.com 试用 ChatGPT。不过我其实认为，大型通用聊天机器人的用户界面会有天花板。因为随着如 AI 搜索引擎 Perplexity 等各种 AI 机器人的服务越来越完善，甚至包括，像微软公司通过 Windows 操作系统直接把 AI Chat（Copilot）安装在了用户电脑屏幕底部的任务栏上，甚至是直接做进了微软电脑 Surface 的键盘上，未来用户到底会使用哪家服务的竞争将会越来越激烈。(本文来源硅发布，如有侵权请联系删除)

2024-04-08 10:04:57 129

数智员工，重塑一个新未来

数智员工，重塑一个新未来

科技进步不断重塑人类工作的本质，在如今的生成式AI与数字化转型热潮下，数智员工悄然崛起，成为一股不可忽视的力量。IDC报告显示，中国AI数字人市场规模呈现高速增长趋势，预计到2026年将达102.4亿元人民币。数智员工的应用场景非常广泛，包括数据录入和处理、网络营销、客户服务、内部管理和数据分析等。数智员工将出现在哪些全新的生产、生活场景?应该如何更好的迎接“数智员工”新趋势？当数智员工，从一项技术创新的产物，真正成为一个产业，走向大规模的落地应用，未来将如何转化为现实生产力，如何形成完整的商业模式，如何推动下一阶段的创新？3月26日，盛景网联高级合伙人兼AIC人工智能产业孵化器负责人颜艳春，今日人才创始人、董事长兼首席执行官、夸夸菁领创始人胡伟带来了重磅解读，这也是盛景【前沿科技未来产业】系列的第120场直播。今日人才是一家创新驱动的平台型人力资源科技公司，致力于以大数据、云计算、人工智能等技术赋能人力资源行业，通过人才岗位画像、人岗智能匹配、人才智能推荐等方式，实现企业岗位与人才需求的精准适配，让职场不再错配。今日人才也是盛景嘉成投资的优秀企业。颜艳春认为，随着生成式人工智能大模型的超级智力接入每一个人，每一台机器，未来将涌现数千亿的有数基肉身或硅基肉身的机器人问世，集结为未来最庞大的AI劳动力大军。能够提供AI劳动力的公司将成为未来经济中的重要玩家，有潜力进入万亿乃至千亿美元的市值俱乐部。胡伟表示，预计在不久的将来，每个人都将拥有至少一个数智员工助理。数智员工的发展和应用将持续推动社会和经济的变革，当下数智员工行业商业化的成功难题在于对用户需求的精确把握和价值创造。至于大众普遍关心的“数智员工是否会替代人类”的问题，颜艳春和胡伟都给出了否定回答，他们认为，数智员工非但不会替代人类，反而会创造更多的岗位，开创新的工作机会。以下为分享全文，enjoy~今天分享的这篇文章，希望对你有所启发，enjoy~▼主持人： a16Z（安德森·霍洛维茨）基金是全球顶尖的投资机构之一。a16z 合伙人 Martin Casado提出了一个观点，即人类已进入了第三个计算时代。过去微芯片将计算的边际成本降到零，互联网将分发的边际成本降到了零，现在大模型将创作成本亦将降到为零；我对此很感兴趣。您曾经把人工智能大模型比喻成100多年前电力发明一样，将渗透到人类生活的每一个角落和场景，将极大地改变世界。您怎么看待这个问题？颜艳春：我十分同意Martin先生的观点。我认为人工智能之所以将来能超越互联网，因为它是供给端的革命，我们的创作和生产将进入边际成本为0的时代。随着人类不断逼近AGI通用大模型时代，我们将见证一场巨大的生产力革命，带来十倍、百倍乃至万倍的价值创造。未来100年人类创造的新GDP的总和可能超过过去人类1万年的总和，人均GDP将超过人类工业文明时期的10倍，农业文明时期的100倍。智力和价值将成为我们观察人工智能项目颠覆人类生活、文化、经济甚至军事场景的两个重大变量。人工智能创业将遵守三大新定律：Scaling Law（尺度定律）、Huang’s Law（黄式定律），以及DarkLaw（黑暗森林法则）。大力出奇迹，从chatGPT到Sora，Open AI的巨大成功很大程度源于Scaling Law（尺度定律），尺度定律在通用人工智能的重要程度将不亚于摩尔定律。 Open AI的成功验证了尺度定律，即大力出奇迹，产生了巨大的规模效应。我们预测Open AI的chatGPT用户数可能超过100亿，公司价值超过10万亿美金。未来一定将涌现出一大批AI原生、比互联网时代更伟大、像Open AI一样的标志性公司。主持人：这确实很诱人，去年年底您提出了十个大胆的AI革命的十大猜想，可否给我们分享一下？颜艳春：去年，我提出了关于人工智能革命的十个猜想，涵盖三个宏观猜想、三个中观猜想以及四个微观猜想。贫穷限制了我们的想象力，守旧限制了我们的行动力；这些猜想不是想象，只是我们投资的假定和对未来的洞察，需要时间去验证和试错，仅供大家参考。 1.在宏观层面，以未来30-50年的时间尺度，我有三个大胆的猜想：第一个宏观猜想，新文明，人类将进入智业文明时代。这是继农业文明和工业文明之后，人类将开启第三次伟大的新文明。从chatGPT的iPhone时刻到Sora的重磅发布，生成式人工智能（Gen AI）的颠覆者，硅谷初创公司Open AI可谓开天辟地，它不亚于铁器和蒸汽机的发明，结束的不是一个时代，而是一个旧的文明，它必将超越互联网，开启自人类农业文明、工业文明之后的智业文明时代，加速人类的第三次解放。 ChatGPT背后的超级智力爆发后，就像100多年前的电力一样，陆陆续续接入并赋能每一个人，每一台机器，每一个物品，每一个企业，每一个产业，每一个军队，每一个国家。 Gen AI将加速重塑各行各业，加速AI的智力平权，普惠全人类，工业文明的火炬将传递给智业文明。在人类时光的未来长河中，智业文明将如同一颗璀璨的明珠，闪耀着人类智慧的光芒。下一个 100年里，它将给我们带来了巨大的财富和深远的影响，改变了我们的生活方式，推动了人类社会的共同进步和共同富裕。智业文明不仅将给我们人类带来了更大的物质繁荣，还将深刻地改变了人类社会的结构和人们的生活方式。第二个宏观猜想是新上帝，上帝2.0诞生。圣经记载上帝7天造齐了天地万物。生成式人工智能（Gen AI）就是新上帝。生成式人工智能的第一性就是能够准确预测下一个什么东西，从下一个token、下一个时空patch到下一个分子结构、下一个驾驶动作、下一个流行元素。从技术角度来看，基于自注意力机制（self-attentionMechanism）的深度学习模型--transformer架构的各种大模型和agent智能体开发，都有可能在未来获得新的突破，实现对未来趋势的精准预测。这种能力将极大地影响我们对流行趋势、技术发展乃至时空演变的理解。例如，像Sora这样的大模型能够预测下一个流行趋势，仿佛拥有预见未来的能力。所有行业、所有产品和所有app都可能会重新发明一遍，生成式人工智能就像一个新造物主、新上帝，人货场将全部再造，造新人、造新物、造新景，开启一个100万亿美元的超级赛道，特别是零售业将迎来第四次零售革命。第三个宏观猜想，新人类，上千亿机器人军团崛起。上千亿的数字人类和人形机器人等“新人类”可能会大规模诞生，他们将渗透至人类的各个生活、消费、工作以及军事场景中，为人类提供完美的服务。下一个50年，80亿人类的碳基生命、数基生命和硅基生命等三种生命的新化身，将进化为近百亿的碳基人类和上千亿的机器人类，将组成浩浩荡荡的智业文明军团，共同服务于人类征服世界和宇宙的每一个场景。这些新人类，他们和我们人类一道将使人类的整体知识水平得到极大的提升，孕育出更加丰富多彩的文化和艺术，加速涌现新的科技、新材料和太空探索，加速人工智能的平权，普惠给每一个人，每一个，同时智业文明将开启全球化2.0时代，迎来一个更加繁荣共生的全球大航海时代。 2.在中观层面，以未来5-10年的时间尺度，我也有三个大胆的猜想：第一个中观猜想，新模型，万物皆可GPT。今天，全球和中国的头部大模型公司正在加速从单模态向多模态大模型进化的进程。一旦某一天GPT进化为最底层的AIOS人工智能操作系统，它将超越移动互联网时代的操作系统iOS或Android，无限逼近AGI通用人工智能。大模型发展的生态将出现幂次分布：一方面，AGI通用大模型将从百模大战进入春秋战国时代，必将逐渐演进为AIOS操作系统，这将加速物理世界和数字孪生世界的打通，突然涌现奥本海默时刻。另一方面，小模型时代，未来每个行业、每个领域、每个产品、每个企业以及每个个体的人类和机器人类都将拥有自己的大模型。理论上，未来5-5年的长河里，将涌现数万个垂直的行业大模型、数10万个领域大模型，数百万个产品大模型、数亿家企业大模型和上百亿拥有独特人设的个人大模型，这些大模型，都是小规模大模型，我称之为小模型时代。第二个中观猜想，新劳动力， AI人力资源公司崛起。我们期待下一波超越互联网的杀手级AI原生应用甚至超级应用将如雨后春笋般涌现，他们可能不是app，而是被大模型背后的超级智力武装起来的数10亿的数智员工和硅基机器人军团，渗透到各行各业，新的AI劳动力生态和AI人力资源产业集群将加速形成。数百亿拥有数基肉身的数智机器人（数智战士、数智员工）和拥有硅基肉身的人形机器人，将涌入人类大量的军事场景、工业场景、生活场景和消费场景甚至宇宙太空探索的新场景。拥有数基肉身的数智员工（数基机器人）和硅基肉身的硅基机器人，将构成庞大的AI劳动力大军。这预示着能够提供AI劳动力的公司将成为市值达到千亿乃至万亿美元的领头羊，机器人军团的兴起，将为人类提供庞大的高性价比的劳动力人口。这个新时代会带来人类的第三次伟大解放，我们会将机器变得更加类似人类，反过来解放真正的人类。第三个中观猜想，新超级物种，端到端AI原生超级应用涌现。随着通用人工智能（AGI）基础大模型陆续问世、免费开源和全面开放，AI算力基础设施和AGI大模型将变得更好、更快，算力、智力边际成本更低甚至接近零，上万个产业垂直大模型、10万个领域垂直中小模型和杀手级的AI应用将如雨后春笋般涌现，新的AI生态和AIGC产业集群正在形成，拥有十亿乃至百亿级用户的超级应用将诞生。 3.在微观层面，以未来3-5年的时间尺度，我也有四个新的猜想：以上是宏观、中观层面的趋势猜想，微观层面，人们将更关注能看到近期AI给我们能带来哪些实质性收益的趋势。第一个微观猜想，新研发革命，从数据飞轮到PMF飞轮到爆款飞轮。我相信AI将彻底改变研发过程，通过建立AIGC-UGC-PGC的数据飞轮，逐步找到PMF，甚至形成爆款。例如，我们盛景投资的深势科技用自己的大模型帮助宁德时代开发新材料，帮助恒瑞医药开发新药，SheIn的大模型就是一个fashionGPT，能精准预测明天的下一个流行趋势，每天推出7000多个新款，5年将产品爆款率从10%到接近50%。第二个微观猜想，新流量入口，智器时代。手机开创的移动互联网时代将逐步没落。基于手机的app和小程序将不是唯一的流量入口。将大模型的超级智力接入每一个物品后，他们将不再仅仅是一个AI硬件或AI终端，我把他们成为智器，如XR眼镜、AI手表、AI音响、AI玩具、AI冰箱、AI别针，硅基机器人。我们不再需要打开手机中的app，它们将创造出一种新型的对话式的交互革命，甚至带来沉浸式的基于3D空间计算的元宇宙体验，从而成为新的流量入口，这标志着我们将从电器时代进入到一个新的智器时代。第三个微观猜想，新商业模式，从传统的一垂直买卖转向订阅经济模式。这种模式下，企业不仅仅是一次性交易，而是通过提供持续服务来与客户建立长期关系。例如，通过订阅服务，AI技术可以创建个性化体验。比如，过去一垂直卖跑步机或跑鞋的老板，可以签约各种明星，每一用户都可以订阅AI跑友服务，每天一起跑步，只需收取每天1-3元的订阅费。最后，第四个微观猜想，新全球化，产业大航海时代来临。中国、东南亚、巴西等地区产业集群带6000多家工厂，大量的过剩产能输出到全球市场，从单打独斗发展成为全球最大的快时尚产业共同体，去年GMV突破400亿美金。这是中国企业家创造新的世界品牌的摇篮，也是升级为世界级企业家的新机遇。主持人：大模型时代，投资人看什么领域的都有，为什么您很关注数智员工这个赛道呢？颜艳春：在宏观猜想中，我认为下一个30-50年的时间长河中，在人类的大量场景中，将会涌现上千亿的数基或硅基的人形机器人，为我们工作，我认为这是一个巨大的人口爆炸。未来会出现大量的提供AI人力资源的公司，数百亿的数智员工和机器人将会陆陆续续上岗，比如AI销售、AI客服、AI招聘、AI司机、AI模特、AI主播、AI医生、AI营养师、AI孙子、AI爷爷、AI跑友、AI老师、AI伴侣、AI创业导师、AI董事等，这是一个万亿美金的AI劳动力市场。 RaaS，Robotas a Service，机器人即服务。未来很多公司的本质是人力公司，它们卖的是工作，而不是软件和硬件。例如，今日人才创始人去年开发AI劳动力公司夸夸菁领，开发的AI数智员工一开始也很笨，也需要接受入职培训，但自主学习能力很强，现在效能相当于5-10名HR部门的人力资源专员，展示了生产力的巨大提升。今日人才现在已经开始向B站、比亚迪等多家企业供应第一批AI数智员工，月薪不菲。 OpenAI的GPT store，现在应用超过300万，不要看成是Apple的app store应用市场，而应该看成一个全新的AI劳动力市场。在这个市场中，每个AI应用背后代表着一种特定能力的机器人或数字实体，它们可以执行创造性工作，减少人类的重复性劳动。盛景母基金投资的UiPath，原来只是一个RPA软件公司，通过AI赋能，不仅市值飙升，现在市值接近130亿，也开始在财务、人力资源、供应链、IT等多个后台、中台部门替代传统白领工作。亚马逊在物流部门大规模部署了75万台机器人，每个月还在增加1000台机器人，展示了AI劳动力接管蓝领工作的巨大潜力。同时，预计将有更多四足或双足机器人被部署于工业、商业以及家庭场景，进一步拓展AI的应用领域。我们认为对于每一个企业，每一个产业平台，数字员工可以给每个公司节约人力，哪怕100人的工厂节约50人，这就是一个非常大的价值创造。我们的财务、人力资源、供应链、IT部门，会有大量的工种被接管，而这种接管也不是刚刚开始，而是在加速。数智员工的本质是机器人，这将为人类社会带来前所未有的第三次解放，使人们从繁琐重复的工作中解脱出来。 2B市场需要更多“效率型”的机器人，帮助提高企业的运营效率和生产力；2C市场则需要更多“杀时间型”的机器人，主要提供陪伴、聊天、康养等服务，满足人们的情绪价值和精神陪伴。 IDC报告指出，2024年，45%的重复工作任务将通过使用由AI、机器人流程自动化（RPA）提供支持的“数智员工”实现自动化。数智员工将接管90%的人类工作，财务、人力资源、供应链、IT部门的大量员工会因为AI的加入而加速解放。主持人：现在很多人认为，数智员工和机器人将导致大面积的人类失业，您如何思考这个问题？颜艳春：这是一个新文明的结构性变迁。工业文明把人变成机器，智业文明把机器变成人。表面看起来，工业文明让99%靠农村土地吃饭的农民失业了，但他们快速地涌入到城市，在轰鸣的工业流水线上和繁忙的写字楼里，找到了更好的工作，收入是原来的10倍。这一次，智业文明也可能让99%靠工厂和办公室吃饭的工人、白领失业了，但他们每个人也将在智业文明的新流水线上重新找到自己的工作或生命的意义。虽然AI劳动力的发展可能会夺取了人类的很多工作，但它们的主要目的是提高生产力。未来，人类可以将更多的精力投入到创造性、创新性的工作中，实现更大的价值。这一切预示着，未来人类、数字人类以及更高级的人工智能将共同组成一个巨大的劳动力军团，不仅改变物质文明，也将极大丰富人类的精神文明。随着AI技术的发展和普及，未来的经济形态将是基于AI劳动力的服务和创造力，从而引领人类社会进入一个新的文明时代。数智人类和硅基人类将带来劳动力的根本性变革，人们对于未来工作的担忧，与农业文明向工业文明过渡时期农民的担忧相似。当时，许多农民转向城市工作，找到了收入远超过农业劳动的职业。这一历史转变给我们的启示是，尽管技术进步会导致某些职业的消失，但它也会创造出新的就业机会和提升生活质量。在未来，每个人可能都能通过AI创建出数十甚至数百个数字分身，这些分身可以承担各种工作，从而极大地提高个人的生产力和创造力。例如，未来明星可以训练自己的AI分身成为运动教练，陪伴粉丝跑步、聊天和唱歌，从而为粉丝提供更加个性化和丰富的体验。这种方式，个人的经济收入可能因为AI的劳动力而显著增加，使得人们只需少量工作便可获得以往难以想象的收益。比如肖战可以武装100万个AI肖战，每一个他的粉丝都可以订阅AI肖战每天一起跑步，只需收取每天1元的订阅费。随着AI技术的发展，我们将迎来智业文明时代——AI和机器人不仅将在物质生产中发挥作用，还将在精神文化领域中提供服务，从而为人类社会带来全方位的劳动力支持。可以预见，将有越来越多的公司将自身定位为“劳动力公司”，专注于提供各种形式的AI劳动力服务。未来，每个人、每个企业、每个国家、每个军队都可以低成本训练并武装一个高智商或高情商的机器人或AI劳动力团队，收获这个万亿美金的AI劳动力市场的巨大红利。主持人：我很好奇，您为什么选择了数智员工这个赛道？您在这个领域有什么隐形资产（指资源、积累等）吗？胡伟：创业初期，我主要从事人才业务，这一选择受到在华为15年工作经验的影响。华为在这15年内从一万多人发展到18万人，我深刻认识到，人才是企业发展的核心。无论是腾讯、百度、阿里，还是国有企业和顶尖民企，成功的企业都非常重视人才招聘。因此，创业前几年我致力于建立人才平台，服务不同公司的招聘需求，深入理解人才市场。随着美国GPT大模型的发布，计算机获得了类似人脑的思维能力，这标志着AI技术的一个重大突破。突然之间，AI拥有了以往不具备的能力，这让我意识到，我们应该尝试利用这一技术，创建“数智员工”。过去的AI技术水平相当于5到6岁儿童的智商，不足以完成工作任务；但如今，AI的能力已经大大提高。我认为，作为一家创业公司，我们应该迅速行动，抓住这一新兴市场的机会。幸运的是，我们遇到了愿意与我们进行协同创新的客户，他们提供了场景、时间、数据和业务支持。一年的努力让我们更加确信，投身数智员工领域是正确的选择，是进入一个全新时代的大门。我们坚信，数智员工将像智能手机一样普及，成为人人必备的数字助理，每家公司都会拥有在不同岗位工作的数智员工。通过半年到一年的不懈努力，我们已经取得了一些市场进展，坚定不移地选择了数智员工作为我们的战略方向。主持人：我看到您的客户都是很知名的，比如新能源巨头比亚迪，您是如何发现比亚迪的需求、如何满足这些需求的呢？胡伟：在过去几年的创业过程中，比亚迪成为了我们的一个重要战略客户，特别是在人才招聘方面。比亚迪对基层人员的需求量巨大，这意味着有大量的、重复性的招聘工作需要完成。了解到这一点后，我们开始与比亚迪进行合作，定制和开发‘’数智招聘助理”，以提高招聘效率。我们对比亚迪招聘人员的工作习惯和行为进行了深入研究，并将这些拆解成可操作的SOP流程，让数智员工来辅助人类员工，使他们能够更高效地工作。早期的试点成功后，我们收到了积极的用户反馈，并根据用户的具体需求和特征进行了持续的优化和迭代。数智员工的特点包括能够长时间在线、具有学习和记忆能力，以及得益于背后的大模型，具备更高的智能。这些特点使得数智员工在质量和效率上能够超越传统的人类员工，为客户提供更优的解决方案，实现降本增效。此外，随着数字化招聘的发展，我们能够在校招领域通过AI技术，识别并挖掘那些可能被忽略的优秀学生，无论他们来自何种背景或学校。这不仅扩大了企业的人才筛选范围，也为那些来自非顶尖学校的优秀学生提供了机会，体现了数智员工在招聘过程中的独特价值和重要性。主持人：在这个接触和实施过程中，有没有什么是和您想象的不一样的？胡伟：在华为多年的经验教会我们，以客户为中心，深入了解客户的具体诉求是公司的核心特征。我们会在项目的早期阶段就派遣需求分析师和解决方案经理入驻企业，与客户共享我们的认知，并深度参与到他们的业务流程中去，以确保我们充分理解他们的需求。比如，在与比亚迪的合作中，我们最初认为找简历可能是他们的痛点。然而，实际情况是，比亚迪每天收到成千上万份简历，他们的真正挑战在于无法有效处理这些海量的简历信息。我们的数智员工不仅能够帮助他们审查当前投递的简历，还能激活和利用之前积累的、未得到充分利用的简历资源。这种深入客户业务流程的做法，让我们能够定制出真正符合客户期待的解决方案，在大模型时代，甚至多次超出客户的预期。我们坚信，通过深入理解并解决客户的实际需求，我们能够提供更加高效和精准的服务，实现客户价值的最大化。主持人：在比亚迪，您的服务有什么可量化的成果可以和大家分享？胡伟：数智员工作为招聘专员的效率显著高于自然人，平均产出是自然人的三到五倍。这种高效的产出主要体现在处理简历和与候选人沟通的数量上。例如，一个自然人每天最多可能只能查看100份简历和联系30个人，而数智员工则可以达到这个数字的三到五倍，能够发起更多的沟通交流，并约请候选人参加面试。在阅读简历方面，数智员工的效率更是远超人类，能够在一分钟内阅读上千份简历，并且生成匹配度报告，这是人类所无法比拟的。这种从端到端的流程优化，大大提高了招聘的效能和效率。最终衡量的不仅仅是这些过程指标，而是为客户创造的实际价值。以招聘成功的人数计算，数智员工至少能为客户带来三到五倍的结果，这在最终的招聘成果上体现了其显著的价值和效率。主持人：我看到您的客户中还有95后、00后们最爱的Bilibili，我很好奇，B站和比亚迪在数智员工方面有什么需求差异么？胡伟： B站，作为一个深受年轻人喜爱的平台，以其开放创新的态度，成为我们合作讨论数智员工事宜的首选。 B站作为视频内容的领头羊，面临大量视频审核需求，迫切需要机器与人的协同审核。因此，我们联合开发了一些能够代替真人进行视频审核的数智员工。与比亚迪相比，B站的需求非常明确和精准，主要集中在视频审核岗位，这让我们能够快速针对性地开发和优化。与B站的顺利合作得益于其对创新的开放态度和提供的合作场景，使我们的团队能够深入了解并迅速适应B站的具体需求。这种合作不仅加速了迭代过程，也让我们的数智员工能够有效地融入B站的运营，特别是在视频审核这一关键领域。主持人：那么，在B站，有什么可以分享的、可量化的成果吗？胡伟：视频审核工作由于其辛苦性质，要求审核员长时间盯着屏幕，不仅工作强度大，而且对视力影响巨大，导致工作流动性高。因此，B站内部会定期调岗，让员工转做客服或其他工种以减轻眼睛疲劳。由于这个岗位的特殊性，招聘需求量大。我们的数智员工一上线，就以传统人工效能的三倍开始，这已经超出了B站初期的预期。而且，由于这些岗位的需求非常明确，数智员工的效率最终可以达到五到八倍，大幅提高了审核效率。在今天大模型的时代，传统人工的方式相比之下，转速有限。一个大模型的计算能力和速度，可以远超一百个人的工作产出，主要是计算机后台的算力能力所决定的。这种能力的提升，真正意义上提高了工作的效能。我常开玩笑说，我们的数智员工都具有顶尖院校的研究生水平。但是，这样高水平的员工在企业中必须有明确的岗位指派，否则即便是拥有清华、北大背景的人才，若岗位不明确，也不知道应该做什么。在企业中，那些可量化、可规范、可流程化的工作，尤其适合让数智员工来承担，这无疑会大幅提升企业的效率和效能。在当前的经济环境下，所有公司都面临降本问题，提高效率实际上等同于降低成本。另一个重要的方面是，数智员工在工作时不会偷懒，总是一丝不苟。比如在阅读简历、与人交流的任务中，如果要求与1000人打招呼，它们就会毫不遗漏地完成这1000次的交流，不会像人类可能出现的看了800份就声称看完了1000份的情况。从本质上讲，数智员工在效能和效率上具有天然的优势。主持人：数智员工行业，您觉得从技术上主要难度是什么？（比如大模型选择、模型微调、数据收集/训练等等）胡伟：大模型时代的真正挑战在于业务场景的深入洞察和应用侧的有效发力。尽管大模型拥有强大的能力，但如果无法精准应用，其潜力便难以充分发挥。核心问题在于对业务场景的深入理解和对应用层面分析的精确把握。例如，基于对人才招聘深度了解，我们开发出第一个招聘专员数智员工，以及针对企业知识传递和流通不畅的问题，创建数智博士来优化知识管理和分享流程，实现了对业务场景的精准把握和应用的有效实施。其次，技术层面如何使大模型与客户应用场景紧密衔接，是另一个关键点。这涉及到技术细节的梳理、书写约束等，是数智员工在企业中顺利运行的重要技术基础。大模型的选择和定制化调整也非常关键，合作与微调基于其持续训练至关重要，决定了数智员工的智能水平和实用价值。大模型战的背景下，选择合作的大模型和对其进行长期训练成为确保数智员工高效运作的必要条件。总之，大模型时代对业务场景的深刻理解和技术的精准应用是实现其潜力的关键，而在技术选择和调整上的精细操作则是确保实用性和效率的基础。主持人：从您服务比亚迪、B站等诸多客户的经验看，您认为商业化角度面临的难点是什么呢？胡伟：面对新事物的认知和客户付费习惯需要时间去培养，尤其是在大多数客户的预算中未曾设立购买数智员工的一项。这一认知转变需时，同时，商业的本质在于为用户创造价值，能够解决用户的实际问题和痛点。例如，数智员工近期学会编写PPT，满足了广泛的企业和个人需求，这就是直击用户痛点的服务。商业化的成功依赖于对用户需求的精确把握和价值创造。数智员工作为一种新兴服务，其商业化过程中的定价可以与传统员工的产出和成本进行比较，以此作为定价基准。数智员工的优势在于效率高且无需额外的福利成本，从而为企业提供高性价比的服务。商业化新生事物需企业、用户和同行的共同努力推动，正如知识付费和视频订阅服务逐渐被市场接受一样。只要服务能创造价值，就能找到其商业化的道路。对于数智员工而言，它们通过提高工作效率、节省成本等方式为企业创造价值，自然会有其商业化的可能性和空间。整个行业和市场的共同参与和推进，将有助于新业态的定义和商业化过程。主持人：对于一个企业来讲，人工快速的离职调整，是非常可怕的一件事，不仅是招聘成本，招聘时间的问题。更在于好不容易他把一个东西给掌握了，又得换一个人，再来一个新人又好几个月去熟悉，成本巨大。我觉得数智员工在方面可能也是非常重要的，他不会离职，永远跟你在一起。您怎么看？胡伟：我觉得这才是企业最大的浪费。面对人才流失所导致的“隐形浪费”，数智员工的稳定性和忠诚度提供了一种创新解决方案。与传统员工相比，数智员工作为具有突破性的创新劳动力，不仅能快速适应工作需求，还能长期为企业服务，避免了人才培养后流失所造成的资源浪费。正如华为在2010年预见到智能手机将成为未来趋势一样，当前大模型技术的发展正推动着数智员工概念的普及。如同智能手机重塑了人们的生活方式，数智员工有望在工作和日常生活中发挥重要作用，成为个人和企业不可或缺的助手。预计在不久的将来，每个人都将拥有至少一个数智员工助理，这些助理将在多个方面提供帮助，包括但不限于行程安排、营销策划、甚至家庭教育等。这些数智员工将能够适应用户的个性化需求，提供定制化服务。这种趋势的到来将极大地提高工作效率和生活质量，同时，也意味着对于企业和个人来说，理解并运用这项技术将成为必备的能力。未来，数智员工将成为人类生活中不可或缺的一部分，它们的发展和应用将持续推动社会和经济的变革。主持人：您觉得数智员工在哪些方面可以替代于员工？在哪些方面可能还是需要跟人进行一个紧密的合作的？胡伟：首先，我想强调一个概念：数智员工与人类员工之间不是替代关系。我们公司近期总结了一句话，我认为非常精辟：“每上线一个数智员工，就会创造一个新的工作岗位。”这句话可能会让人觉得抽象，有人可能会问：数智员工不是用来替代人类的吗？实际上，数智员工并不会替代人类。回想2000年，我第一次接触电脑时，那时候对电脑的敬畏如同对待一种神秘的存在。那时有声音称，电脑的强大存储和计算能力会替代许多人的工作。然而，随着时间的推移，我们看到电脑并没有替代人类，反而每多一台电脑，就多了一个工作岗位。我们团队认为，每上线一个数智员工，实际上是为人类工作者提升效能和效率，把人类从标准和重复的工作中解放出来，继而专注于更重要的思考和创造性、创意性和情感性的工作。因为人类是需求的创造者，我们需要通过科技的进步提高效率。例如，以前老师用笔写字，一天能写的字数有限，但现在使用计算机打字，一天能打出的字数远超以往。这并不意味着技术的进步会替代人类的工作，而是提高了我们的沟通效率，使我们能够探讨更多的事情，推动更多的创新。此外，我想强调，“被AI替代的不是人类工作，而是那些不愿意学习和使用AI的人。”人类是需求的创造者，我们应当拥抱技术进步，让它帮助我们工作得更高效。就像过去电脑和手机的普及一样，数智员工的广泛应用也不会替代人类，而是开创新的工作机会，提升工作效率。主持人：数智员工部署起来麻烦吗？胡伟：部署数智员工非常简便，只需开通一个账号，你便可以开始与其交流和工作。明确你的需求和要求，数智员工能够与你进行多轮交流，并在每轮交流后反问三个问题以确保更准确地理解和补充你的需求。对于大多数企业和场景而言，数智员工旨在替代简单重复的工作，因此部署过程并不复杂。对于有特别数据保密和安全要求的巨型企业和政府机构，则需要考虑私有化部署。但总体来说，数智员工的价值在于简化和高效化工作流程，而非处理极端复杂的任务。简而言之，数智员工的部署和使用过程旨在为用户提供便捷性，使他们能够快速投入使用，提升工作效率。主持人：如果让您专门给致力于做数智员工的创业者一些分享，您会给他们怎么样的建议呢？胡伟：第一，抓住数智员工浪潮，成为创业领域的先锋，是一次千载难逢的机会。在过去的移动互联网和互联网时代，许多人可能错过了把握机遇的时刻。但现在，面对数智员工这一新兴领域，每个创业者都应当珍惜这一波浪潮。第二，选择一个具有广阔前景的赛道并专注于一个小切口深耕，做到足够扎实，而非贪多嚼不烂，是建立伟大公司的关键。 (本文来源盛景新经济，如有侵权请联系删除)

2024-04-08 10:02:39 98

揭秘吴恩达的4种 AI Agent 设计模式

揭秘吴恩达的4种 AI Agent 设计模式

上周，吴恩达教授在美国红杉 AI 活动上关于 Agent 的最新趋势与洞察，提出了目前有 4 种主要的 Agent 设计模式，分别是：Reflection：让 Agent 审视和修正自己生成的输出；Tool Use：LLM 生成代码、调用 API 等进行实际操作；Planning：让 Agent 分解复杂任务并按计划执行；Multiagent Collaboration：多个 Agent 扮演不同角色合作完成任务；在扣子（coze.cn）/Coze （coze.com）上，可以将上述四种模式快捷落地，本文将以汽车行业调研助手、高质量旅行规划助手等实际案例来为大家分享落地思路。1 Reflection模式含义：让 Agent 审视和修正自己生成的输出。背景：大模型的生成有时候会犯懒，可能只会部分执行Prompt导致效果有限。Reflection模式适用于让LLM自行审视和修正自己生成的输出，对生成内容进行多次自我调优，进而生成更加优质的内容。场景：让 AI 或 LLM 说，写一个行业短评。开始写第一稿，自己阅读生成第一稿，思考哪些部分需要修改，然后，LLM进一步优化生成，可以一遍又一遍地进行。因此，这个工作流程是可迭代的，你可能让模型进行一些思考，然后修改文章，再思考，并通过多次迭代来完成这个过程。流程图： Workflow实现简单“行业短评”效果工作流拆解：第一步：Start节点，用于接收用户的输入。第二步：大模型节点，行业短评Prompt：使用真实数据、案例、SWOT模型，并言简意赅表达。第三步：基于其生成结果第二步中的大模型的生成结果，复制其Prompt，并进一步提示生成短评，达到审视和修正自己生成输出的效果，提高短评生成质量。第四步：输出结果。示意图参考：效果：汽车行业调研短评第一次：大模型对于提示，仅生成比较概括性的短评，使用了真实数据。第二次：大模型对生成结果进行迭代，生成了详细短评，不仅优化了表达内容，还增加了SWOT分析和案例分析。2 Tool Use 模式扣子/ Coze 本身就支持非常丰富的工具调用，欢迎使用！3 Planning 模式含义：Planning：让 Agent 分解复杂任务并按计划执行；背景：大模型的生成依赖于训练数据的实效性，并且有时候会产生幻觉，导致生成的内容效果质量有限。Planning模式适用于让LLM基于计划好的任务步骤，对生成内容进行多次自我调优和加工处理，进而生成更加优质的内容。场景：我们期望Agent具备类似人的行为的智能体，比如在调研报告场景，他会先使用搜索工具进行检索，筛选质量较高的内容，再进行一些思考，再进行重要信息的总结和整理，最后输出一个质量比较高的报告。流程图： Workflow实现Plannning模式的“行业短评”效果工作流拆解：第一步：Start节点，用于接收用户的输入。第二步：通过“浏览器插件”，把用户的输入作为关键字进行搜索，返回相关的10个网站链接。第三步：通过“头条搜索”访问这10个网站的详情内容，并返回。第四步：使用大模型对这10个网站的内容进行打分，3分以上推荐引用。第五步：通知用户：目前Agent已经完成阅读，正在整理并总结报告。第六步：大模型对高分内容进行理解，使用真实数据、案例、SWOT模型等，并言简意赅表达。第七步：输出报告。示意图参考：效果：奶茶行业调研短评第一步： Agent完成网站访问和内容抽取后，告知了完成阅读。第二步：参考了他访问的一些网站内容，整理并总结了报告，最后打印报告输出。4 Multiagent Collaboration 模式使用coze的Multi-agent功能实现高质量旅行规划第一步：定义3个用于旅行规划场景的专家Agents目的地推荐专家：调用搜索等能力，基于用户的需求推荐目的地。机票酒店专家：调用机票、酒店的查询工具，根据用户的背景信息和诉求，推荐合适的机票酒店。行程规划专家：根据用户的信息和其他专家产出的结果，帮助用户制定完整的行程规划，并将内容输出到PDF中。第二步：将3个专家Agents排列到画布中，并为他们设置任务交接的条件。第三步：开始对话三种模式的对比： (本文来源字节跳动技术团队，如有侵权请联系删除)

2024-04-08 09:59:12 83

免费无限换脸，下一代AI换脸神器Facefusion来了

免费无限换脸，下一代AI换脸神器Facefusion来了

Facefusion，之前介绍过的一款超炫的AI视频/图片换脸项目，它的官方介绍简单而直接：下一代换脸器和增强器。但是，别小看这简单的介绍，它可是有很多新鲜玩意儿的，今天带来最新的2.2.1版本。Facefusion2.2.1新版本介绍Facefusion2.2.1版本全新升级了界面设计，现在你可以在网页上打开操作页面，就像Stable Diffusion一样，超级方便，不再需要下载繁琐的软件，随时随地换脸玩乐。新版本新增了两个超赞的功能：第一个是人脸解析功能，这意味着你可以选择替换脸部的某一部分，比如说，你可以只替换上半部分脸而保留下半部分，或者只替换左边而保留右边。你还可以指定替换脸部的某个部位，比如只换左眼或者只换嘴和鼻子。这样一来，再也不用担心换脸后眼睛不好看啦！还有一个超级实用的功能是万能遮罩，你可以使用遮罩来控制换脸的细节，想要精确替换哪个部位就替换哪个。无论是眼睛、嘴巴还是鼻子，你都能完全自定义，这样一来，你的换脸作品将更加完美，不再是简单的换个脸而已！模型也得到了升级哦，现在Facefusion使用了最新的restoreformer_plus_plus模型，更加强大和稳定，它的换脸效果将更加真实、自然，让你的作品更加惊艳！离线懒人包老规矩，我已经出手，为大家制作好了一款离线整合包了，下载到本地解压即用。大家下载解压到本地。①双击“一键启动.exe”。②双击一键启动程序后，会打开一个命令提示窗口，项目会自动运行。加载成功后，请自行复制以下网址在浏览器打开“ http://127.0.0.1:7860/”，记得点点关注不迷路哦，后续还有更多酷炫的AI项目分享~③打开页面后，可以看到项目主界面。使用教程：① 设置人脸（Source）点击这个区域，打开文件管理器，选择一张带清晰完整人脸图片就可以了（注意图片名字用英文或数字）。② 设置目标（Target）点击这个区域，选择待换脸的目标图片，或者视频。③ 效果预览（Preview）完成上述两步后，软件会自动开始运行，之后会把换脸预览显示在这个区域。如果目标是图片，预览区域就是换脸后的结果了。如果目标是视频的话，会截取第一帧作为预览效果。④ 开始换脸（Start）一切就绪之后，就可以点击start按钮开始正式换脸了。⑤ 查看结果（OUTPUT）换脸成功之后，最终结果显示在output这里，点击右上角的下载图标，就可以把结果保存到本地。以下是我亲测的换脸效果：Facefusion对电脑要求并不高，特别是懒人包，解压就能使用，就算没有显卡，也可以用CPU版本。所以大部分小伙伴应该都可以畅快体验啦，快来下载试试这个超酷的Facefusion吧，一起享受AI的神奇。注意事项：①该项目建议使用英伟达显卡运行，CPU也能跑但比较慢，可以在界面中选择使用CPU还是GPU跑。②软件路径、图片和视频文件的名称和路径都不能包含中文，不然可能会出错。另外，计算机系统的用户名也不要设置成中文，不然也可能会出现问题。③系统要求：支持Windows 10和Windows 11今天就聊到这了，我是Glen，感谢你看我的文章，欢迎大家继续支持我，请点赞、在看、分享三连走一波吧~扫码免费获得本文资源~

2024-02-13 11:41:07 345

免费AI一键换脸离线整合包，支持直播实时换脸！

免费AI一键换脸离线整合包，支持直播实时换脸！

分享一款AI一键免费无限换脸工具FaceFusion，这个版本支持直播实时换脸哦~FaceFusion简介FaceFusion的基本功能跟roop类似，因为它的跟roop是同一个作者制作的。官方介绍非常霸气：下一代换脸器和增强器。之前制作过整合包CPU版，今天给大家分享支持GPU加速以及直播实时换脸的新版。整合包使用教程大家将整合包下载到电脑里，解压后，打开文件夹。①需要先安装Microsoft Visual C++ 2015组件：这个是在浏览器打开FaceFusion可视化界面必备的组件，已经放在了整合包中了，大家解压后找到“VC_redist.x64.exe”文件，然后双击安装即可。②点击“一键启动”：大家可以按自身需求，选择不同的启动方式。一键启动-CPU：使用CPU进行换脸，适用于几乎所有电脑（Windows 7不支持）一键启动-GPU：支持N卡进行图片、视频换脸加速。一键启动-实时换脸：支持N卡进行实时视频换脸，可用于直播（注意，需要设备有摄像头）。之后会打开一个命令提示窗口，等待片刻，可以看到链接“http://127.0.0.1:7860”，复制它，在浏览器打开，即可开始快乐地玩耍了~下图是我使用实时换脸的效果图，用了iKun，感觉效果还挺有趣的哈哈哈~以上就是今天的所有内容了。扫码免费获得本文资源~

2024-02-13 11:12:00 237

最新版AI数字人离线版，真解压即用！

最新版AI数字人离线版，真解压即用！

之前给大家介绍过一款AI数字人开源项目SadTalker，并且制作了一款本地离线版，解压即可用。最近发现原项目作者更新了一些模型和依赖，于是我又制作了一款离线整合包，并且把之前需要设置ffmpeg的问题也一并解决了，现在这个整合包是真的下载到本地，解压即用！直接上手只需要下载整合包（文末附下载），然后双击“一键启动.exe”，即可快速使用。之后会打开命令提示窗口，等待片刻，可以看到网址“http://127.0.0.1:7860”。将网址复制一下，然后在浏览器打开，即可看到以下主界面：使用教程可以查看往期内容，三步即可制作一个专属的数字人视频（合成语音+照片生成+视频合成）：免费无限制作专属AI数字人我试了下，生成的数字人视频速度要快一些，效果也比之前的版本更好一些~台词选取自王家卫《花样年华》："如果多一张船票，你愿不愿意跟我一起走？" "如果有多一张船票，你会不会带我一起走？”"樱花只开一季，真爱只有一次。如果只是寂寞，请不要爱我"。我相信除了寂寞，缘分是男人和女人之间相爱的另一种原由。因为缘分而使两颗寂寞的心结合的爱情称为真爱。寂寞是每时每刻，缘分是不知不觉，真爱是一生一世。那些消逝了的岁月，仿佛隔着一块积着灰尘的玻璃，看得到，抓不着。那是一种难堪的相对。她一直低着头，给他一个接近的机会。他没有勇气接近，她掉转头，走了。能忘了的就忘了吧，能记得都不必记得。有些话太久没说，也就懂了。扫码免费获得本文资源~

2024-01-29 14:06:30 330

社群

人工智能学堂加入

扫描二维码

Glen 加入

扫描二维码