AINEWS

OpenAI利用GPT-4赋能欧洲旅游业

都柏林市政府与OpenAI宣布一项重大合作计划，旨在引领欧洲旅游业迈向智能创新的崭新时代。这一合作举措是都柏林市在荣获2024年欧洲智能旅游之都的光环下迈出的关键一步，旨在展示该城对通过尖端技术推动旅游业发展的坚定承诺。主要合作目标涵盖在欧洲建立智能旅游创新的领先标准，以及展示人工智能在提升游客体验方面的革命性能力。关键计划包括：1. 都柏林行程规划概念验证 - “一天在都柏林”：合作双方将利用GPT-4的先进功能共同打造创新工具，即“一天在都柏林”，旨在通过提供定制行程，揭示都柏林丰富的文化遗产和充满生机的城市生活。该原型旨在展示生成式人工智能在提供个性化体验方面的潜力，摆脱传统通用旅行建议的束缚。2.支持欧洲各地旅游 - 都柏林主办的AI研讨会：计划于9月举办的亲身参与的研讨会将面向欧洲联盟智能旅游目的地的领导人。这场互动会议将深入探讨人工智能在旅游领域的应用，包括城市推广、目的地品牌塑造、旅游参与和行程规划。3.与Data & Design的本地合作：该合作计划是都柏林市政府、OpenAI以及当地都柏林数据咨询公司Data & Design的共同努力。通过这一项目，生成式人工智能将展示在创造独特而个性化的旅行体验方面的潜力，远离传统的“要做的事情”列表。都柏林市长戴希·德·罗伊斯蒂表示，他对与OpenAI的合作充满热情，认为这将支持都柏林和欧洲城市实现人工智能改变旅游体验和服务的潜力。OpenAI全球事务副总裁安娜·马康茹也表示，他们很高兴支持欧洲旅游业的未来，期待通过先进的人工智能技术创造更有吸引力和个性化的游客体验。这一创新性的合作将人工智能与旅游业有机地结合，为整个欧洲城市带来前所未有的探索可能性。

2024-03-05 08:30:00 104

大一统视频编辑框架：浙大&微软推出UniEdit

浙江大学、微软亚洲研究院和北京大学的联合研究团队推出了一款革命性的视频编辑框架——UniEdit。该框架基于文本描述，融合了自然语言界面和先进的视频生成模型，使用户能够轻松实现各种编辑需求，无需繁琐的预训练过程。UniEdit在处理动作编辑、风格转移、背景替换和物体替换等多种编辑场景方面表现卓越，其核心创新点在于引入了辅助的动作参考分支和视频重建分支，实现了动作注入和内容保留。这一工具不仅在时间一致性和与目标提示的一致性方面超越了基线方法，而且在用户友好性和便捷部署方面也取得了显著的进展。UniEdit的推出可能会彻底改变视频编辑技术领域的游戏规则，为专业人士和爱好者提供了高效且直观的视频编辑解决方案。其独特的用户界面使编辑过程更加简单，同时保持了高质量的结构和纹理细节。UniEdit不仅是当前视频编辑领域的一大进步，也为用户带来了更为便利和令人满意的编辑体验。论文地址：https://arxiv.org/abs/2402.13185项目地址：https://jianhongbai.github.io/UniEdit代码地址：https://github.com/JianhongBai/UniEdit

2024-03-06 08:05:00 81

揭秘吴恩达的4种 AI Agent 设计模式

上周，吴恩达教授在美国红杉 AI 活动上关于 Agent 的最新趋势与洞察，提出了目前有 4 种主要的 Agent 设计模式，分别是：Reflection：让 Agent 审视和修正自己生成的输出；Tool Use：LLM 生成代码、调用 API 等进行实际操作；Planning：让 Agent 分解复杂任务并按计划执行；Multiagent Collaboration：多个 Agent 扮演不同角色合作完成任务；在扣子（coze.cn）/Coze （coze.com）上，可以将上述四种模式快捷落地，本文将以汽车行业调研助手、高质量旅行规划助手等实际案例来为大家分享落地思路。1 Reflection模式含义：让 Agent 审视和修正自己生成的输出。背景：大模型的生成有时候会犯懒，可能只会部分执行Prompt导致效果有限。Reflection模式适用于让LLM自行审视和修正自己生成的输出，对生成内容进行多次自我调优，进而生成更加优质的内容。场景：让 AI 或 LLM 说，写一个行业短评。开始写第一稿，自己阅读生成第一稿，思考哪些部分需要修改，然后，LLM进一步优化生成，可以一遍又一遍地进行。因此，这个工作流程是可迭代的，你可能让模型进行一些思考，然后修改文章，再思考，并通过多次迭代来完成这个过程。流程图： Workflow实现简单“行业短评”效果工作流拆解：第一步：Start节点，用于接收用户的输入。第二步：大模型节点，行业短评Prompt：使用真实数据、案例、SWOT模型，并言简意赅表达。第三步：基于其生成结果第二步中的大模型的生成结果，复制其Prompt，并进一步提示生成短评，达到审视和修正自己生成输出的效果，提高短评生成质量。第四步：输出结果。示意图参考：效果：汽车行业调研短评第一次：大模型对于提示，仅生成比较概括性的短评，使用了真实数据。第二次：大模型对生成结果进行迭代，生成了详细短评，不仅优化了表达内容，还增加了SWOT分析和案例分析。2 Tool Use 模式扣子/ Coze 本身就支持非常丰富的工具调用，欢迎使用！3 Planning 模式含义：Planning：让 Agent 分解复杂任务并按计划执行；背景：大模型的生成依赖于训练数据的实效性，并且有时候会产生幻觉，导致生成的内容效果质量有限。Planning模式适用于让LLM基于计划好的任务步骤，对生成内容进行多次自我调优和加工处理，进而生成更加优质的内容。场景：我们期望Agent具备类似人的行为的智能体，比如在调研报告场景，他会先使用搜索工具进行检索，筛选质量较高的内容，再进行一些思考，再进行重要信息的总结和整理，最后输出一个质量比较高的报告。流程图： Workflow实现Plannning模式的“行业短评”效果工作流拆解：第一步：Start节点，用于接收用户的输入。第二步：通过“浏览器插件”，把用户的输入作为关键字进行搜索，返回相关的10个网站链接。第三步：通过“头条搜索”访问这10个网站的详情内容，并返回。第四步：使用大模型对这10个网站的内容进行打分，3分以上推荐引用。第五步：通知用户：目前Agent已经完成阅读，正在整理并总结报告。第六步：大模型对高分内容进行理解，使用真实数据、案例、SWOT模型等，并言简意赅表达。第七步：输出报告。示意图参考：效果：奶茶行业调研短评第一步： Agent完成网站访问和内容抽取后，告知了完成阅读。第二步：参考了他访问的一些网站内容，整理并总结了报告，最后打印报告输出。4 Multiagent Collaboration 模式使用coze的Multi-agent功能实现高质量旅行规划第一步：定义3个用于旅行规划场景的专家Agents目的地推荐专家：调用搜索等能力，基于用户的需求推荐目的地。机票酒店专家：调用机票、酒店的查询工具，根据用户的背景信息和诉求，推荐合适的机票酒店。行程规划专家：根据用户的信息和其他专家产出的结果，帮助用户制定完整的行程规划，并将内容输出到PDF中。第二步：将3个专家Agents排列到画布中，并为他们设置任务交接的条件。第三步：开始对话三种模式的对比： (本文来源字节跳动技术团队，如有侵权请联系删除)

2024-04-08 09:59:12 83

数智员工，重塑一个新未来

科技进步不断重塑人类工作的本质，在如今的生成式AI与数字化转型热潮下，数智员工悄然崛起，成为一股不可忽视的力量。IDC报告显示，中国AI数字人市场规模呈现高速增长趋势，预计到2026年将达102.4亿元人民币。数智员工的应用场景非常广泛，包括数据录入和处理、网络营销、客户服务、内部管理和数据分析等。数智员工将出现在哪些全新的生产、生活场景?应该如何更好的迎接“数智员工”新趋势？当数智员工，从一项技术创新的产物，真正成为一个产业，走向大规模的落地应用，未来将如何转化为现实生产力，如何形成完整的商业模式，如何推动下一阶段的创新？3月26日，盛景网联高级合伙人兼AIC人工智能产业孵化器负责人颜艳春，今日人才创始人、董事长兼首席执行官、夸夸菁领创始人胡伟带来了重磅解读，这也是盛景【前沿科技未来产业】系列的第120场直播。今日人才是一家创新驱动的平台型人力资源科技公司，致力于以大数据、云计算、人工智能等技术赋能人力资源行业，通过人才岗位画像、人岗智能匹配、人才智能推荐等方式，实现企业岗位与人才需求的精准适配，让职场不再错配。今日人才也是盛景嘉成投资的优秀企业。颜艳春认为，随着生成式人工智能大模型的超级智力接入每一个人，每一台机器，未来将涌现数千亿的有数基肉身或硅基肉身的机器人问世，集结为未来最庞大的AI劳动力大军。能够提供AI劳动力的公司将成为未来经济中的重要玩家，有潜力进入万亿乃至千亿美元的市值俱乐部。胡伟表示，预计在不久的将来，每个人都将拥有至少一个数智员工助理。数智员工的发展和应用将持续推动社会和经济的变革，当下数智员工行业商业化的成功难题在于对用户需求的精确把握和价值创造。至于大众普遍关心的“数智员工是否会替代人类”的问题，颜艳春和胡伟都给出了否定回答，他们认为，数智员工非但不会替代人类，反而会创造更多的岗位，开创新的工作机会。以下为分享全文，enjoy~今天分享的这篇文章，希望对你有所启发，enjoy~▼主持人： a16Z（安德森·霍洛维茨）基金是全球顶尖的投资机构之一。a16z 合伙人 Martin Casado提出了一个观点，即人类已进入了第三个计算时代。过去微芯片将计算的边际成本降到零，互联网将分发的边际成本降到了零，现在大模型将创作成本亦将降到为零；我对此很感兴趣。您曾经把人工智能大模型比喻成100多年前电力发明一样，将渗透到人类生活的每一个角落和场景，将极大地改变世界。您怎么看待这个问题？颜艳春：我十分同意Martin先生的观点。我认为人工智能之所以将来能超越互联网，因为它是供给端的革命，我们的创作和生产将进入边际成本为0的时代。随着人类不断逼近AGI通用大模型时代，我们将见证一场巨大的生产力革命，带来十倍、百倍乃至万倍的价值创造。未来100年人类创造的新GDP的总和可能超过过去人类1万年的总和，人均GDP将超过人类工业文明时期的10倍，农业文明时期的100倍。智力和价值将成为我们观察人工智能项目颠覆人类生活、文化、经济甚至军事场景的两个重大变量。人工智能创业将遵守三大新定律：Scaling Law（尺度定律）、Huang’s Law（黄式定律），以及DarkLaw（黑暗森林法则）。大力出奇迹，从chatGPT到Sora，Open AI的巨大成功很大程度源于Scaling Law（尺度定律），尺度定律在通用人工智能的重要程度将不亚于摩尔定律。 Open AI的成功验证了尺度定律，即大力出奇迹，产生了巨大的规模效应。我们预测Open AI的chatGPT用户数可能超过100亿，公司价值超过10万亿美金。未来一定将涌现出一大批AI原生、比互联网时代更伟大、像Open AI一样的标志性公司。主持人：这确实很诱人，去年年底您提出了十个大胆的AI革命的十大猜想，可否给我们分享一下？颜艳春：去年，我提出了关于人工智能革命的十个猜想，涵盖三个宏观猜想、三个中观猜想以及四个微观猜想。贫穷限制了我们的想象力，守旧限制了我们的行动力；这些猜想不是想象，只是我们投资的假定和对未来的洞察，需要时间去验证和试错，仅供大家参考。 1.在宏观层面，以未来30-50年的时间尺度，我有三个大胆的猜想：第一个宏观猜想，新文明，人类将进入智业文明时代。这是继农业文明和工业文明之后，人类将开启第三次伟大的新文明。从chatGPT的iPhone时刻到Sora的重磅发布，生成式人工智能（Gen AI）的颠覆者，硅谷初创公司Open AI可谓开天辟地，它不亚于铁器和蒸汽机的发明，结束的不是一个时代，而是一个旧的文明，它必将超越互联网，开启自人类农业文明、工业文明之后的智业文明时代，加速人类的第三次解放。 ChatGPT背后的超级智力爆发后，就像100多年前的电力一样，陆陆续续接入并赋能每一个人，每一台机器，每一个物品，每一个企业，每一个产业，每一个军队，每一个国家。 Gen AI将加速重塑各行各业，加速AI的智力平权，普惠全人类，工业文明的火炬将传递给智业文明。在人类时光的未来长河中，智业文明将如同一颗璀璨的明珠，闪耀着人类智慧的光芒。下一个 100年里，它将给我们带来了巨大的财富和深远的影响，改变了我们的生活方式，推动了人类社会的共同进步和共同富裕。智业文明不仅将给我们人类带来了更大的物质繁荣，还将深刻地改变了人类社会的结构和人们的生活方式。第二个宏观猜想是新上帝，上帝2.0诞生。圣经记载上帝7天造齐了天地万物。生成式人工智能（Gen AI）就是新上帝。生成式人工智能的第一性就是能够准确预测下一个什么东西，从下一个token、下一个时空patch到下一个分子结构、下一个驾驶动作、下一个流行元素。从技术角度来看，基于自注意力机制（self-attentionMechanism）的深度学习模型--transformer架构的各种大模型和agent智能体开发，都有可能在未来获得新的突破，实现对未来趋势的精准预测。这种能力将极大地影响我们对流行趋势、技术发展乃至时空演变的理解。例如，像Sora这样的大模型能够预测下一个流行趋势，仿佛拥有预见未来的能力。所有行业、所有产品和所有app都可能会重新发明一遍，生成式人工智能就像一个新造物主、新上帝，人货场将全部再造，造新人、造新物、造新景，开启一个100万亿美元的超级赛道，特别是零售业将迎来第四次零售革命。第三个宏观猜想，新人类，上千亿机器人军团崛起。上千亿的数字人类和人形机器人等“新人类”可能会大规模诞生，他们将渗透至人类的各个生活、消费、工作以及军事场景中，为人类提供完美的服务。下一个50年，80亿人类的碳基生命、数基生命和硅基生命等三种生命的新化身，将进化为近百亿的碳基人类和上千亿的机器人类，将组成浩浩荡荡的智业文明军团，共同服务于人类征服世界和宇宙的每一个场景。这些新人类，他们和我们人类一道将使人类的整体知识水平得到极大的提升，孕育出更加丰富多彩的文化和艺术，加速涌现新的科技、新材料和太空探索，加速人工智能的平权，普惠给每一个人，每一个，同时智业文明将开启全球化2.0时代，迎来一个更加繁荣共生的全球大航海时代。 2.在中观层面，以未来5-10年的时间尺度，我也有三个大胆的猜想：第一个中观猜想，新模型，万物皆可GPT。今天，全球和中国的头部大模型公司正在加速从单模态向多模态大模型进化的进程。一旦某一天GPT进化为最底层的AIOS人工智能操作系统，它将超越移动互联网时代的操作系统iOS或Android，无限逼近AGI通用人工智能。大模型发展的生态将出现幂次分布：一方面，AGI通用大模型将从百模大战进入春秋战国时代，必将逐渐演进为AIOS操作系统，这将加速物理世界和数字孪生世界的打通，突然涌现奥本海默时刻。另一方面，小模型时代，未来每个行业、每个领域、每个产品、每个企业以及每个个体的人类和机器人类都将拥有自己的大模型。理论上，未来5-5年的长河里，将涌现数万个垂直的行业大模型、数10万个领域大模型，数百万个产品大模型、数亿家企业大模型和上百亿拥有独特人设的个人大模型，这些大模型，都是小规模大模型，我称之为小模型时代。第二个中观猜想，新劳动力， AI人力资源公司崛起。我们期待下一波超越互联网的杀手级AI原生应用甚至超级应用将如雨后春笋般涌现，他们可能不是app，而是被大模型背后的超级智力武装起来的数10亿的数智员工和硅基机器人军团，渗透到各行各业，新的AI劳动力生态和AI人力资源产业集群将加速形成。数百亿拥有数基肉身的数智机器人（数智战士、数智员工）和拥有硅基肉身的人形机器人，将涌入人类大量的军事场景、工业场景、生活场景和消费场景甚至宇宙太空探索的新场景。拥有数基肉身的数智员工（数基机器人）和硅基肉身的硅基机器人，将构成庞大的AI劳动力大军。这预示着能够提供AI劳动力的公司将成为市值达到千亿乃至万亿美元的领头羊，机器人军团的兴起，将为人类提供庞大的高性价比的劳动力人口。这个新时代会带来人类的第三次伟大解放，我们会将机器变得更加类似人类，反过来解放真正的人类。第三个中观猜想，新超级物种，端到端AI原生超级应用涌现。随着通用人工智能（AGI）基础大模型陆续问世、免费开源和全面开放，AI算力基础设施和AGI大模型将变得更好、更快，算力、智力边际成本更低甚至接近零，上万个产业垂直大模型、10万个领域垂直中小模型和杀手级的AI应用将如雨后春笋般涌现，新的AI生态和AIGC产业集群正在形成，拥有十亿乃至百亿级用户的超级应用将诞生。 3.在微观层面，以未来3-5年的时间尺度，我也有四个新的猜想：以上是宏观、中观层面的趋势猜想，微观层面，人们将更关注能看到近期AI给我们能带来哪些实质性收益的趋势。第一个微观猜想，新研发革命，从数据飞轮到PMF飞轮到爆款飞轮。我相信AI将彻底改变研发过程，通过建立AIGC-UGC-PGC的数据飞轮，逐步找到PMF，甚至形成爆款。例如，我们盛景投资的深势科技用自己的大模型帮助宁德时代开发新材料，帮助恒瑞医药开发新药，SheIn的大模型就是一个fashionGPT，能精准预测明天的下一个流行趋势，每天推出7000多个新款，5年将产品爆款率从10%到接近50%。第二个微观猜想，新流量入口，智器时代。手机开创的移动互联网时代将逐步没落。基于手机的app和小程序将不是唯一的流量入口。将大模型的超级智力接入每一个物品后，他们将不再仅仅是一个AI硬件或AI终端，我把他们成为智器，如XR眼镜、AI手表、AI音响、AI玩具、AI冰箱、AI别针，硅基机器人。我们不再需要打开手机中的app，它们将创造出一种新型的对话式的交互革命，甚至带来沉浸式的基于3D空间计算的元宇宙体验，从而成为新的流量入口，这标志着我们将从电器时代进入到一个新的智器时代。第三个微观猜想，新商业模式，从传统的一垂直买卖转向订阅经济模式。这种模式下，企业不仅仅是一次性交易，而是通过提供持续服务来与客户建立长期关系。例如，通过订阅服务，AI技术可以创建个性化体验。比如，过去一垂直卖跑步机或跑鞋的老板，可以签约各种明星，每一用户都可以订阅AI跑友服务，每天一起跑步，只需收取每天1-3元的订阅费。最后，第四个微观猜想，新全球化，产业大航海时代来临。中国、东南亚、巴西等地区产业集群带6000多家工厂，大量的过剩产能输出到全球市场，从单打独斗发展成为全球最大的快时尚产业共同体，去年GMV突破400亿美金。这是中国企业家创造新的世界品牌的摇篮，也是升级为世界级企业家的新机遇。主持人：大模型时代，投资人看什么领域的都有，为什么您很关注数智员工这个赛道呢？颜艳春：在宏观猜想中，我认为下一个30-50年的时间长河中，在人类的大量场景中，将会涌现上千亿的数基或硅基的人形机器人，为我们工作，我认为这是一个巨大的人口爆炸。未来会出现大量的提供AI人力资源的公司，数百亿的数智员工和机器人将会陆陆续续上岗，比如AI销售、AI客服、AI招聘、AI司机、AI模特、AI主播、AI医生、AI营养师、AI孙子、AI爷爷、AI跑友、AI老师、AI伴侣、AI创业导师、AI董事等，这是一个万亿美金的AI劳动力市场。 RaaS，Robotas a Service，机器人即服务。未来很多公司的本质是人力公司，它们卖的是工作，而不是软件和硬件。例如，今日人才创始人去年开发AI劳动力公司夸夸菁领，开发的AI数智员工一开始也很笨，也需要接受入职培训，但自主学习能力很强，现在效能相当于5-10名HR部门的人力资源专员，展示了生产力的巨大提升。今日人才现在已经开始向B站、比亚迪等多家企业供应第一批AI数智员工，月薪不菲。 OpenAI的GPT store，现在应用超过300万，不要看成是Apple的app store应用市场，而应该看成一个全新的AI劳动力市场。在这个市场中，每个AI应用背后代表着一种特定能力的机器人或数字实体，它们可以执行创造性工作，减少人类的重复性劳动。盛景母基金投资的UiPath，原来只是一个RPA软件公司，通过AI赋能，不仅市值飙升，现在市值接近130亿，也开始在财务、人力资源、供应链、IT等多个后台、中台部门替代传统白领工作。亚马逊在物流部门大规模部署了75万台机器人，每个月还在增加1000台机器人，展示了AI劳动力接管蓝领工作的巨大潜力。同时，预计将有更多四足或双足机器人被部署于工业、商业以及家庭场景，进一步拓展AI的应用领域。我们认为对于每一个企业，每一个产业平台，数字员工可以给每个公司节约人力，哪怕100人的工厂节约50人，这就是一个非常大的价值创造。我们的财务、人力资源、供应链、IT部门，会有大量的工种被接管，而这种接管也不是刚刚开始，而是在加速。数智员工的本质是机器人，这将为人类社会带来前所未有的第三次解放，使人们从繁琐重复的工作中解脱出来。 2B市场需要更多“效率型”的机器人，帮助提高企业的运营效率和生产力；2C市场则需要更多“杀时间型”的机器人，主要提供陪伴、聊天、康养等服务，满足人们的情绪价值和精神陪伴。 IDC报告指出，2024年，45%的重复工作任务将通过使用由AI、机器人流程自动化（RPA）提供支持的“数智员工”实现自动化。数智员工将接管90%的人类工作，财务、人力资源、供应链、IT部门的大量员工会因为AI的加入而加速解放。主持人：现在很多人认为，数智员工和机器人将导致大面积的人类失业，您如何思考这个问题？颜艳春：这是一个新文明的结构性变迁。工业文明把人变成机器，智业文明把机器变成人。表面看起来，工业文明让99%靠农村土地吃饭的农民失业了，但他们快速地涌入到城市，在轰鸣的工业流水线上和繁忙的写字楼里，找到了更好的工作，收入是原来的10倍。这一次，智业文明也可能让99%靠工厂和办公室吃饭的工人、白领失业了，但他们每个人也将在智业文明的新流水线上重新找到自己的工作或生命的意义。虽然AI劳动力的发展可能会夺取了人类的很多工作，但它们的主要目的是提高生产力。未来，人类可以将更多的精力投入到创造性、创新性的工作中，实现更大的价值。这一切预示着，未来人类、数字人类以及更高级的人工智能将共同组成一个巨大的劳动力军团，不仅改变物质文明，也将极大丰富人类的精神文明。随着AI技术的发展和普及，未来的经济形态将是基于AI劳动力的服务和创造力，从而引领人类社会进入一个新的文明时代。数智人类和硅基人类将带来劳动力的根本性变革，人们对于未来工作的担忧，与农业文明向工业文明过渡时期农民的担忧相似。当时，许多农民转向城市工作，找到了收入远超过农业劳动的职业。这一历史转变给我们的启示是，尽管技术进步会导致某些职业的消失，但它也会创造出新的就业机会和提升生活质量。在未来，每个人可能都能通过AI创建出数十甚至数百个数字分身，这些分身可以承担各种工作，从而极大地提高个人的生产力和创造力。例如，未来明星可以训练自己的AI分身成为运动教练，陪伴粉丝跑步、聊天和唱歌，从而为粉丝提供更加个性化和丰富的体验。这种方式，个人的经济收入可能因为AI的劳动力而显著增加，使得人们只需少量工作便可获得以往难以想象的收益。比如肖战可以武装100万个AI肖战，每一个他的粉丝都可以订阅AI肖战每天一起跑步，只需收取每天1元的订阅费。随着AI技术的发展，我们将迎来智业文明时代——AI和机器人不仅将在物质生产中发挥作用，还将在精神文化领域中提供服务，从而为人类社会带来全方位的劳动力支持。可以预见，将有越来越多的公司将自身定位为“劳动力公司”，专注于提供各种形式的AI劳动力服务。未来，每个人、每个企业、每个国家、每个军队都可以低成本训练并武装一个高智商或高情商的机器人或AI劳动力团队，收获这个万亿美金的AI劳动力市场的巨大红利。主持人：我很好奇，您为什么选择了数智员工这个赛道？您在这个领域有什么隐形资产（指资源、积累等）吗？胡伟：创业初期，我主要从事人才业务，这一选择受到在华为15年工作经验的影响。华为在这15年内从一万多人发展到18万人，我深刻认识到，人才是企业发展的核心。无论是腾讯、百度、阿里，还是国有企业和顶尖民企，成功的企业都非常重视人才招聘。因此，创业前几年我致力于建立人才平台，服务不同公司的招聘需求，深入理解人才市场。随着美国GPT大模型的发布，计算机获得了类似人脑的思维能力，这标志着AI技术的一个重大突破。突然之间，AI拥有了以往不具备的能力，这让我意识到，我们应该尝试利用这一技术，创建“数智员工”。过去的AI技术水平相当于5到6岁儿童的智商，不足以完成工作任务；但如今，AI的能力已经大大提高。我认为，作为一家创业公司，我们应该迅速行动，抓住这一新兴市场的机会。幸运的是，我们遇到了愿意与我们进行协同创新的客户，他们提供了场景、时间、数据和业务支持。一年的努力让我们更加确信，投身数智员工领域是正确的选择，是进入一个全新时代的大门。我们坚信，数智员工将像智能手机一样普及，成为人人必备的数字助理，每家公司都会拥有在不同岗位工作的数智员工。通过半年到一年的不懈努力，我们已经取得了一些市场进展，坚定不移地选择了数智员工作为我们的战略方向。主持人：我看到您的客户都是很知名的，比如新能源巨头比亚迪，您是如何发现比亚迪的需求、如何满足这些需求的呢？胡伟：在过去几年的创业过程中，比亚迪成为了我们的一个重要战略客户，特别是在人才招聘方面。比亚迪对基层人员的需求量巨大，这意味着有大量的、重复性的招聘工作需要完成。了解到这一点后，我们开始与比亚迪进行合作，定制和开发‘’数智招聘助理”，以提高招聘效率。我们对比亚迪招聘人员的工作习惯和行为进行了深入研究，并将这些拆解成可操作的SOP流程，让数智员工来辅助人类员工，使他们能够更高效地工作。早期的试点成功后，我们收到了积极的用户反馈，并根据用户的具体需求和特征进行了持续的优化和迭代。数智员工的特点包括能够长时间在线、具有学习和记忆能力，以及得益于背后的大模型，具备更高的智能。这些特点使得数智员工在质量和效率上能够超越传统的人类员工，为客户提供更优的解决方案，实现降本增效。此外，随着数字化招聘的发展，我们能够在校招领域通过AI技术，识别并挖掘那些可能被忽略的优秀学生，无论他们来自何种背景或学校。这不仅扩大了企业的人才筛选范围，也为那些来自非顶尖学校的优秀学生提供了机会，体现了数智员工在招聘过程中的独特价值和重要性。主持人：在这个接触和实施过程中，有没有什么是和您想象的不一样的？胡伟：在华为多年的经验教会我们，以客户为中心，深入了解客户的具体诉求是公司的核心特征。我们会在项目的早期阶段就派遣需求分析师和解决方案经理入驻企业，与客户共享我们的认知，并深度参与到他们的业务流程中去，以确保我们充分理解他们的需求。比如，在与比亚迪的合作中，我们最初认为找简历可能是他们的痛点。然而，实际情况是，比亚迪每天收到成千上万份简历，他们的真正挑战在于无法有效处理这些海量的简历信息。我们的数智员工不仅能够帮助他们审查当前投递的简历，还能激活和利用之前积累的、未得到充分利用的简历资源。这种深入客户业务流程的做法，让我们能够定制出真正符合客户期待的解决方案，在大模型时代，甚至多次超出客户的预期。我们坚信，通过深入理解并解决客户的实际需求，我们能够提供更加高效和精准的服务，实现客户价值的最大化。主持人：在比亚迪，您的服务有什么可量化的成果可以和大家分享？胡伟：数智员工作为招聘专员的效率显著高于自然人，平均产出是自然人的三到五倍。这种高效的产出主要体现在处理简历和与候选人沟通的数量上。例如，一个自然人每天最多可能只能查看100份简历和联系30个人，而数智员工则可以达到这个数字的三到五倍，能够发起更多的沟通交流，并约请候选人参加面试。在阅读简历方面，数智员工的效率更是远超人类，能够在一分钟内阅读上千份简历，并且生成匹配度报告，这是人类所无法比拟的。这种从端到端的流程优化，大大提高了招聘的效能和效率。最终衡量的不仅仅是这些过程指标，而是为客户创造的实际价值。以招聘成功的人数计算，数智员工至少能为客户带来三到五倍的结果，这在最终的招聘成果上体现了其显著的价值和效率。主持人：我看到您的客户中还有95后、00后们最爱的Bilibili，我很好奇，B站和比亚迪在数智员工方面有什么需求差异么？胡伟： B站，作为一个深受年轻人喜爱的平台，以其开放创新的态度，成为我们合作讨论数智员工事宜的首选。 B站作为视频内容的领头羊，面临大量视频审核需求，迫切需要机器与人的协同审核。因此，我们联合开发了一些能够代替真人进行视频审核的数智员工。与比亚迪相比，B站的需求非常明确和精准，主要集中在视频审核岗位，这让我们能够快速针对性地开发和优化。与B站的顺利合作得益于其对创新的开放态度和提供的合作场景，使我们的团队能够深入了解并迅速适应B站的具体需求。这种合作不仅加速了迭代过程，也让我们的数智员工能够有效地融入B站的运营，特别是在视频审核这一关键领域。主持人：那么，在B站，有什么可以分享的、可量化的成果吗？胡伟：视频审核工作由于其辛苦性质，要求审核员长时间盯着屏幕，不仅工作强度大，而且对视力影响巨大，导致工作流动性高。因此，B站内部会定期调岗，让员工转做客服或其他工种以减轻眼睛疲劳。由于这个岗位的特殊性，招聘需求量大。我们的数智员工一上线，就以传统人工效能的三倍开始，这已经超出了B站初期的预期。而且，由于这些岗位的需求非常明确，数智员工的效率最终可以达到五到八倍，大幅提高了审核效率。在今天大模型的时代，传统人工的方式相比之下，转速有限。一个大模型的计算能力和速度，可以远超一百个人的工作产出，主要是计算机后台的算力能力所决定的。这种能力的提升，真正意义上提高了工作的效能。我常开玩笑说，我们的数智员工都具有顶尖院校的研究生水平。但是，这样高水平的员工在企业中必须有明确的岗位指派，否则即便是拥有清华、北大背景的人才，若岗位不明确，也不知道应该做什么。在企业中，那些可量化、可规范、可流程化的工作，尤其适合让数智员工来承担，这无疑会大幅提升企业的效率和效能。在当前的经济环境下，所有公司都面临降本问题，提高效率实际上等同于降低成本。另一个重要的方面是，数智员工在工作时不会偷懒，总是一丝不苟。比如在阅读简历、与人交流的任务中，如果要求与1000人打招呼，它们就会毫不遗漏地完成这1000次的交流，不会像人类可能出现的看了800份就声称看完了1000份的情况。从本质上讲，数智员工在效能和效率上具有天然的优势。主持人：数智员工行业，您觉得从技术上主要难度是什么？（比如大模型选择、模型微调、数据收集/训练等等）胡伟：大模型时代的真正挑战在于业务场景的深入洞察和应用侧的有效发力。尽管大模型拥有强大的能力，但如果无法精准应用，其潜力便难以充分发挥。核心问题在于对业务场景的深入理解和对应用层面分析的精确把握。例如，基于对人才招聘深度了解，我们开发出第一个招聘专员数智员工，以及针对企业知识传递和流通不畅的问题，创建数智博士来优化知识管理和分享流程，实现了对业务场景的精准把握和应用的有效实施。其次，技术层面如何使大模型与客户应用场景紧密衔接，是另一个关键点。这涉及到技术细节的梳理、书写约束等，是数智员工在企业中顺利运行的重要技术基础。大模型的选择和定制化调整也非常关键，合作与微调基于其持续训练至关重要，决定了数智员工的智能水平和实用价值。大模型战的背景下，选择合作的大模型和对其进行长期训练成为确保数智员工高效运作的必要条件。总之，大模型时代对业务场景的深刻理解和技术的精准应用是实现其潜力的关键，而在技术选择和调整上的精细操作则是确保实用性和效率的基础。主持人：从您服务比亚迪、B站等诸多客户的经验看，您认为商业化角度面临的难点是什么呢？胡伟：面对新事物的认知和客户付费习惯需要时间去培养，尤其是在大多数客户的预算中未曾设立购买数智员工的一项。这一认知转变需时，同时，商业的本质在于为用户创造价值，能够解决用户的实际问题和痛点。例如，数智员工近期学会编写PPT，满足了广泛的企业和个人需求，这就是直击用户痛点的服务。商业化的成功依赖于对用户需求的精确把握和价值创造。数智员工作为一种新兴服务，其商业化过程中的定价可以与传统员工的产出和成本进行比较，以此作为定价基准。数智员工的优势在于效率高且无需额外的福利成本，从而为企业提供高性价比的服务。商业化新生事物需企业、用户和同行的共同努力推动，正如知识付费和视频订阅服务逐渐被市场接受一样。只要服务能创造价值，就能找到其商业化的道路。对于数智员工而言，它们通过提高工作效率、节省成本等方式为企业创造价值，自然会有其商业化的可能性和空间。整个行业和市场的共同参与和推进，将有助于新业态的定义和商业化过程。主持人：对于一个企业来讲，人工快速的离职调整，是非常可怕的一件事，不仅是招聘成本，招聘时间的问题。更在于好不容易他把一个东西给掌握了，又得换一个人，再来一个新人又好几个月去熟悉，成本巨大。我觉得数智员工在方面可能也是非常重要的，他不会离职，永远跟你在一起。您怎么看？胡伟：我觉得这才是企业最大的浪费。面对人才流失所导致的“隐形浪费”，数智员工的稳定性和忠诚度提供了一种创新解决方案。与传统员工相比，数智员工作为具有突破性的创新劳动力，不仅能快速适应工作需求，还能长期为企业服务，避免了人才培养后流失所造成的资源浪费。正如华为在2010年预见到智能手机将成为未来趋势一样，当前大模型技术的发展正推动着数智员工概念的普及。如同智能手机重塑了人们的生活方式，数智员工有望在工作和日常生活中发挥重要作用，成为个人和企业不可或缺的助手。预计在不久的将来，每个人都将拥有至少一个数智员工助理，这些助理将在多个方面提供帮助，包括但不限于行程安排、营销策划、甚至家庭教育等。这些数智员工将能够适应用户的个性化需求，提供定制化服务。这种趋势的到来将极大地提高工作效率和生活质量，同时，也意味着对于企业和个人来说，理解并运用这项技术将成为必备的能力。未来，数智员工将成为人类生活中不可或缺的一部分，它们的发展和应用将持续推动社会和经济的变革。主持人：您觉得数智员工在哪些方面可以替代于员工？在哪些方面可能还是需要跟人进行一个紧密的合作的？胡伟：首先，我想强调一个概念：数智员工与人类员工之间不是替代关系。我们公司近期总结了一句话，我认为非常精辟：“每上线一个数智员工，就会创造一个新的工作岗位。”这句话可能会让人觉得抽象，有人可能会问：数智员工不是用来替代人类的吗？实际上，数智员工并不会替代人类。回想2000年，我第一次接触电脑时，那时候对电脑的敬畏如同对待一种神秘的存在。那时有声音称，电脑的强大存储和计算能力会替代许多人的工作。然而，随着时间的推移，我们看到电脑并没有替代人类，反而每多一台电脑，就多了一个工作岗位。我们团队认为，每上线一个数智员工，实际上是为人类工作者提升效能和效率，把人类从标准和重复的工作中解放出来，继而专注于更重要的思考和创造性、创意性和情感性的工作。因为人类是需求的创造者，我们需要通过科技的进步提高效率。例如，以前老师用笔写字，一天能写的字数有限，但现在使用计算机打字，一天能打出的字数远超以往。这并不意味着技术的进步会替代人类的工作，而是提高了我们的沟通效率，使我们能够探讨更多的事情，推动更多的创新。此外，我想强调，“被AI替代的不是人类工作，而是那些不愿意学习和使用AI的人。”人类是需求的创造者，我们应当拥抱技术进步，让它帮助我们工作得更高效。就像过去电脑和手机的普及一样，数智员工的广泛应用也不会替代人类，而是开创新的工作机会，提升工作效率。主持人：数智员工部署起来麻烦吗？胡伟：部署数智员工非常简便，只需开通一个账号，你便可以开始与其交流和工作。明确你的需求和要求，数智员工能够与你进行多轮交流，并在每轮交流后反问三个问题以确保更准确地理解和补充你的需求。对于大多数企业和场景而言，数智员工旨在替代简单重复的工作，因此部署过程并不复杂。对于有特别数据保密和安全要求的巨型企业和政府机构，则需要考虑私有化部署。但总体来说，数智员工的价值在于简化和高效化工作流程，而非处理极端复杂的任务。简而言之，数智员工的部署和使用过程旨在为用户提供便捷性，使他们能够快速投入使用，提升工作效率。主持人：如果让您专门给致力于做数智员工的创业者一些分享，您会给他们怎么样的建议呢？胡伟：第一，抓住数智员工浪潮，成为创业领域的先锋，是一次千载难逢的机会。在过去的移动互联网和互联网时代，许多人可能错过了把握机遇的时刻。但现在，面对数智员工这一新兴领域，每个创业者都应当珍惜这一波浪潮。第二，选择一个具有广阔前景的赛道并专注于一个小切口深耕，做到足够扎实，而非贪多嚼不烂，是建立伟大公司的关键。 (本文来源盛景新经济，如有侵权请联系删除)

2024-04-08 10:02:39 98

ChatGPT 突然放开了账户限制，面向所有人开放

大门终于打开。奥特曼 OpenAI 的旗舰产品 ChatGPT 突然宣布：将面向所有人开放，无论你有没有注册账户。从今天开始，访问 Chat.openai.com 将不再要求用户登录，用户将直接进入与 ChatGPT 的对话界面，且界面的模式与采用登录方式的用户一样，你可以与 ChatGPT 尽情聊天。如下图：目前 GPT-3.5 支持所有人使用，而 GPT-4 则只支持 ChatGPT 的付费会员使用。不过，没有 ChatGPT 账户的用户，将无法获得与拥有账户的用户相同的功能，这些功能包括：无法保存或共享聊天记录、使用自定义指令，或者其他通常需要与永久账户关联的功能。当然，ChatGPT 也仍然支持你成为注册用户，然后登录。需要注意的是：正如我前文所述，此前 ChatGPT 的增长已经基本停滞——其流量峰值，出现在了 2023 年的 5 月，此后，再也没有恢复到峰值。也就是说，ChatGPT 突然打开大门，应该是其迫于增长压力和竞争压力导致的。可以预见：很快，ChatGPT 将因此迎来一个陡峭的访问量激增，因为会有大量的人来到 Chat.openai.com 试用 ChatGPT。不过我其实认为，大型通用聊天机器人的用户界面会有天花板。因为随着如 AI 搜索引擎 Perplexity 等各种 AI 机器人的服务越来越完善，甚至包括，像微软公司通过 Windows 操作系统直接把 AI Chat（Copilot）安装在了用户电脑屏幕底部的任务栏上，甚至是直接做进了微软电脑 Surface 的键盘上，未来用户到底会使用哪家服务的竞争将会越来越激烈。(本文来源硅发布，如有侵权请联系删除)

2024-04-08 10:04:57 129

实用至上：智能体/Agent 是什么

Agent 的起源不做词义追源，仅从大众角度，这个事儿是去年初开始的，也就是 2023 年 2-3 月。标志性事件包括：AutoGPT 等开源项目的发布，这是第一批基于自然语言的 AI 自动化实践：你告诉它一个任务，它就会通过自然语言的自我对话，将这个任务进行拆分、规划并实现。斯坦福小镇一类的项目实践：给予不同的 Bot 以不同的人格，搭配记忆窗口，让它们之间相互对话。发表于 2 月的论文《Toolformer: 大模型可以教自己使用工具》，以及 OpenAI 在 3 月底发布的插件计划：这意味着，大模型从原来的“思想家”，通过对外部工具的使用，变成了实干家。《AI 学会使用工具了》2023年2月14日，报道自赛博禅心现在的 Agent时至今日，对于 Agent 是什么，可能还没有一个标准的定义。一个常见的观点是，Agent 是一种让 AI 以类似人的工作和思考方式，来完成一系列的任务。一个 Agent 可以是一个 Bot，也可以是多个 Bot 的协同。就像是职场里，简单的工作独立完成，复杂的工作协作完成一样。对于每个 Bot 来说，可能会包括：一个大脑：判断和规划行为，这里通常用 GPT-4或同水平的 LLM；眼睛和手：确认信息和使用外部工具，一般是各种插件/action/api；工作纪要：储存已经发生的事，通常的媒介是上下文窗口，或者数据库；行为SOP：明确这个 Agent 的身份、任务、目标和机制。这个 SOP 可能是用户给的，也可能是由其它 Bot 给出的。再具象一点，这里我从 GPTs 里截了个图：对于 GPTs，通常被认为是由 OpenAI 设计的简化版的 Agent。默认情况下，只能进行单 Bot 交互：一个大脑：在 ChatGPT GPT Store 里，GPT-4 是唯一可选的 LLM；眼睛和手：可以在 Capabilities 里勾选由 OpenAI 提供的第一方能力，也可以通过Actions 来拓展更多的外部能力；工作纪要：一般来说就是对话记录，GPTs 可以回顾之前的对话；行为SOP：存放在 Description, Instructions 以及 Knowledge 里。 OpenAI 的 Agent 演进以 OpenAI 为例，我们看看 Agent 是如何一步步演进的。去年 3 月底，OpenAI 宣布了插件计划，并在 5 月上线了插件商店，这也标志了 OpenAI 揭开 Agent 战局的第一步。在当时 OpenAI 给开发者发送的指引中，给了这样的 Todo：第一步：开发接口，来定义 ChatGPT 可以调用的功能。接口可以是新开发的，也可以是改造现有的第二步：写一份文档，给 ChatGPT 来看，让它知道什么时候去调用接口。当然，这里要遵循一定的格式，然后用自然语言来写。如果你做过 OpenAI API 的开发，可能会觉得这个文档有些熟悉，这不就是 Fuction Call 吗？没错，在 2023 年 6 月 13 日，OpenAI 发布了 Function Call 模式，让大模型可以来调用外部工具，用的就是非常类似的方案。再往后，OpenAI 的相关工作人员做了一系列的 Research，关于 Agent 的最佳实践。同时的，也发布了 Custom Instruction 指令的相关功能。之后，ChatGPT 推出了 All Tools 功能。也就是回答用户问题时，不再需要用户自主的来选择工具，这可以视作是“自动版的Plugin”，覆盖了三款官方工具：Browsing, Advanced Data Analysis 和 DALL·E。时间推移，在2023 年 11 月 6 日的时候，在 OpenAI 开发者大会上，Sam Altman 宣布了 GPTs，这通常被认为是 OpenAI 推出了其第一个正式版的 AI Agent。在最初的版本中，包括以下功能允许用户创建多个 Bot，自定义它们的身份和回答风格。并且这些 Bot 可以分享Bot 可以自有使用三款官方工具：Browsing, Advanced Data Analysis 和 DALL·EBot 也可以通过 Action 的方式（类似 API 的东西），去调用任何的外部能力Bot 可以有自己的数据空间，允许用户对这些数据进行 QA。比如在《我刚弄个贼实用的GPTs》中，我上传了 OpenAI 的开发文档，帮助开发者快速生成 OpenAI 的调用代码同时，在11月06日的时候，OpenAI 也更新了几个影响深远的接口：Function Calling：更新多参数生成功能，可以让一轮对话完成多项任务JSON Mode：让 API 通过 JSON，而非文字，来做出回应Seed：设定随机值，提高一致性Assistants API & Code Interpreter：可以理解为把 ChatGPT 的 Bot，搬到了 API 里Retrieval：简易化知识库构建在最近 GPTs  体系上线了 GPT Store，有些媒体称其为 OpenAI 的 App Store 时刻，但其实并不相同。在 GPT Store 里，用户可以搜索和使用为各项任务所开发的 GPTs。紧随 GPT Store 上线的，还有 @GPTs 功能，也就是在任何的对话中，你都可以手动的让某个 GPTs 接管这个对话内容，做出更好的输出。值得一提的是，由于 GPT Store 没有开放支付入口，所以目前几乎所有的 GPTs 都是免费的。对此，OpenAI 也承诺了会给头部开发者提供激励：《GPTs 商店，要发钱了！！！》。其它 Agent 平台之前和 OpenAI 的相关负责人聊过，ChatGPT 的主要定位是“开箱即用的消费级产品”。那这里，自然给“较为复杂的生产级产品”留下了生态空间。这里，我们也来探讨下这类产品。主要的 AI 玩家都会对这方面有所涉足，也各有侧重。比如来传统大厂自字节扣子/coze，百度的灵境矩阵，也比如来自 AI 初创公司的 Dify 等等。以扣子为例，对比与 GPTs Store，主要的体感区别包括：免费，至少目前是完全免费的有数十个官方插件，对比与 GPTs 里只有3个可以用类似低代码的方式，构建Workflow，并被 Bot 调用可以将捏好的 Bot 发布到其它平台（比如飞书，公众号），同时支持 API其中后两条极为核心。我的 Agent 的实战一个设计良好的 Agent 可以提供极大的生产力，并创造极高的价值。前几天大火的 Devin，被称为“第一位由 AI 担任的软件工程师”，它可以自主的去学会如何使用不熟悉的技术，自主的生成代码、调试bug和部署应用。Agent 也可以替代现有的很多软件工具，去完成工作中繁琐的任务。举个例子，我正打算开一个专栏，叫做“乘风破浪的少年们”，去讲述和记录那些在这次 AI 浪潮中，登上世界舞台的中国人，用对话的形式。类似这种：《奥特曼专访：关于 GPT-5、Sora、Ilya、Q*、AGI、外星人等等一切》。这里对我来讲的一个很大挑战：我需要整理大量的文字稿，并且把它排版出来，这并不轻松，也很占时间。我希望有一个 Agent 来帮我做这件事情。昨天下午，我和 Owen（沉浸式翻译的作者）去参加了一个 Hackathon，现场有了灵感，并梳理出了这个 Agent 的思路：第一步：将对话音频文件，通过 AI（比如whisper）转化成文字稿第二步：将文字稿用 AI 转化成 QA 问答对，以 json/csv 的方式储存第三步：将 QA 问答对，转化成 HTML（可以导入进微信公众号）我们花了俩小时，用扣子，把这个 Agent 给搓了出来，起名《带带弟弟排版器》，希望大家带带单打独斗的弟弟。也顺道着把我上次参加 OpenAI  的红队活动的笔记，转成了 .csv 然后把这个 .csv 文件丢给了《带带弟弟排版器》就有了昨天的文章：《我参加了 OpenAI 红队的活动，并带来了一些笔记》同样的，这一篇文章《中学生能看懂：Sora 原理解读》，是用我写的另一个 Agent 完整生成的，包括排版。我相信，在 AGI 来之前，Agent 是一个很棒的替代方案。不过现在还有俩主要毛病：1.不够稳定；2.算力有点贵 (本文来源赛博禅心，如有侵权请联系删除)

2024-04-08 10:11:40 145

10分钟前！GPT-4-Turbo 推出了正式版

10 分钟前GPT-4 Turbo 推出了正式版OpenAI 官方发布关于正式版虽然 GPT-4-Turbo 发布已久，但一直以“预览版”的方式提供。而就在刚才，OpenAI 发布了 GPT-4-Turbo 的正式版。主要信息包括：▶ 全面开放，可通过“gpt-4-turbo”来使用此模型，最新版本为“gpt-4-turbo-2024-04-09”▶ 基础能力更新，按官方说法：Majorly improved GPT-4 Turbo model▶ 自带读图能力，无需使用 4v 接口▶ 128k 上下文▶ 训练数据截止至 2023 年 12 月这里查阅接口信息：https://platform.openai.com/docs/models/gpt-4-turbo-and-gpt-4 价格方面，和之前的 GPT-4-Turbo 保持一致，即：▶ 输入：$10.00 / 100万 tokens▶ 输出：$30.00 / 100万 tokens▶ 读图：最低 $0.00085 / 图这里查阅价格信息：https://openai.com/pricing 频率限制方面，以最高级 Tire 5 为例，官方说明中：▶ 最高并发：10,000 次/ 分钟▶ 最高处理：1,500,000 tokens / 分钟这里查阅相关限制：https://platform.openai.com/docs/guides/rate-limits/usage-tiers?context=tier-five 我看了一下后台，还是老的限制，应该还没改完：▶ 最高并发：3,000 次/ 分钟▶ 最高处理：250,000 tokens / 分钟这里查看你的限制：https://platform.openai.com/account/limits GPT-4 还有哪些版本▶ GPT-4发布于去年的 3 月 14 日（即 0314 版），后续更新 0613 版，支持 8k 上下文，是经典版的 GPT-4。- 输入：$30.00 / 100万 tokens- 输出：$60.00 / 100万 tokens ▶ GPT-4-32k与 GPT-4 同期发布，也是有 0314 和 0613 两个子版本，支持 32k 上下文，是当时上下文最长的模型，但非常贵。- 输入：$60.00 / 100万 tokens- 输出：$120.00 / 100万 tokens另说一下，这个模型是邀请制，至今未公开提供。 ▶ GPT-4-Turbo-Preview （即 GPT-4 Turbo 预览版）发布于去年的 11 月 6 日（即 1106 版），后续更新 0125 版，支持 128k 上下文，并且大幅降价。- 输入：$10.00 / 100万 tokens- 输出：$30.00 / 100万 tokens ▶ GPT-4-Vision-Preview （即 GPT-4 Turbo 的读图版）和 GPT-4-Turbo-Preview 同一时间发布，也包括 1106 版和 0125 版，价格保持一致，但给的用量不多。- 输入：$10.00 / 100万 tokens- 输出：$30.00 / 100万 tokens读图的价格看分辨率：最低 $0.00085 / 图(本文来源赛博禅心，如有侵权请联系删除)

2024-04-11 09:48:42 124

人工智能是什么

摘要：人工智能是一种模拟人类智能的技术，它通过机器学习、深度学习、自然语言处理、计算机视觉等技术手段，实现自动化决策、智能机器人、语音识别、图像识别等功能。本文将从定义、发展历程、应用领域、伦理问题等方面，全面解析人工智能的概念、特点及其应用前景。一、定义人工智能（AI）是一种模拟人类智能，使计算机和机器能够执行类似人类智能的任务的技术。它涵盖了从机器学习、深度学习到自然语言处理等多个领域，通过运用算法和数据处理，实现自动化决策、智能机器人、语音识别、图像识别等功能。二、发展历程人工智能的发展可以追溯到上世纪50年代，当时科学家们开始研究计算机能否像人一样思考。经过几十年的发展，人工智能技术取得了显著的进步，尤其是在大数据、云计算和算法等领域。如今，人工智能已经广泛应用于各个领域，如医疗、金融、交通等。三、应用领域1. 自动化决策：人工智能可以帮助企业自动化决策，提高决策效率和准确性。例如，在金融领域，人工智能可以通过分析大量数据，预测市场趋势，帮助投资者做出更明智的决策。2. 智能机器人：人工智能驱动的机器人可以执行各种任务，如制造、物流、医疗等。它们具有高度灵敏的感知能力和反应速度，能够适应各种复杂环境。3. 语音识别和图像识别：人工智能可以自动识别和理解人类语音，以及识别图像中的内容。这在智能家居、安全监控、自动驾驶等领域具有广泛的应用前景。4. 虚拟个人助理：人工智能驱动的虚拟个人助理可以通过自然语言对话，帮助用户完成各种任务，如查询信息、购物等。四、伦理问题人工智能的发展也带来了一些伦理问题。例如，随着机器学习算法的广泛应用，机器可能会做出比人类更准确的决策，但这也可能导致一些不公平的结果。此外，人工智能武器和自动化战争系统也引发了人们对机器人自主权和道德责任的担忧。因此，我们需要制定相应的伦理规范和法规，以确保人工智能的发展符合人类的价值观和道德标准。总之，人工智能是一种具有巨大潜力的技术，它正在改变我们的生活和工作方式。虽然它带来了一些挑战和伦理问题，但只要我们合理使用和规范管理，人工智能将成为推动社会进步的重要力量。

2024-01-15 09:53:16 134

pytorch深度学习是什么

一、深度学习的概述深度学习是机器学习的一个子领域，它专注于开发深度神经网络并使用这些网络对大规模数据集进行训练，以学习数据中的复杂模式。这种学习方式使得机器能够模拟人类的学习方式，从大量数据中自我学习和优化。二、PyTorch的背景和特点PyTorch是由Facebook开发的开源深度学习框架，以其简洁易用的语法和高效的计算能力而广受欢迎。PyTorch采用了动态图技术，这使得开发和训练神经网络变得更加简单和直观。此外，PyTorch具有强大的GPU加速功能，能够处理大规模数据集和模型。三、深度学习在PyTorch中的应用在PyTorch中，深度学习可用于各种任务，如图像分类、自然语言处理、语音识别等。下面是一个简单的图像分类例子，说明如何使用PyTorch构建和训练一个深度神经网络。首先，我们需要准备数据集，并将其转化为PyTorch所需的张量形式。然后，我们可以定义神经网络的结构，包括输入层、隐藏层和输出层。接下来，我们使用PyTorch提供的优化器和损失函数对网络进行训练。在训练过程中，我们通过反向传播和梯度下降等算法更新网络的参数，以优化模型的性能。最后，我们可以使用测试数据集评估模型的准确性，并得到最终的分类结果。四、PyTorch深度学习的实现细节在PyTorch中，我们可以通过定义自定义层和模块来扩展和定制神经网络。这些自定义层可以包括卷积层、池化层、全连接层等，以满足特定的任务需求。此外，我们还可以使用PyTorch提供的自动微分功能来轻松实现反向传播和梯度计算。在训练过程中，我们需要选择合适的优化器（如SGD、Adam等）来更新网络的参数。优化器会根据损失函数计算梯度，并使用这些梯度来更新参数。此外，我们还可以使用PyTorch提供的动态计算图功能，根据数据和模型的状态动态构建网络结构，这在模型调试和优化中非常有用。五、总结PyTorch作为一种流行的深度学习框架，为开发人员提供了构建和训练深度神经网络所需的工具和库。通过理解PyTorch的背景和特点，以及如何使用它来实现深度学习，我们可以更好地利用这个强大的工具来处理各种任务。在未来，随着数据集的不断增长和计算能力的提升，深度学习将在更多领域发挥重要作用。

2024-02-27 18:27:42 82

理海大学和微软研究员发布首个Sora“逆向工程”报告

来源：公众号机器之心（ID:runliu-pub）一篇论文回顾 Sora 文生视频技术的背景、技术和应用。追赶 Sora，成为了很多科技公司当下阶段的新目标。研究者们好奇的是：Sora 是如何被 OpenAI 发掘出来的？未来又有哪些演进和应用方向？Sora 的技术报告披露了一些技术细节，但远远不足以窥其全貌。在最近的一篇文章中，微软研究院和理海大学的研究者根据已发表的技术报告和逆向工程，首次全面回顾了 Sora 的背景、相关技术、新兴应用、当前局限和未来机遇。论文标题：Sora: A Review on Background, Technology, Limitations, and Opportunities of Large Vision Models论文链接：https://arxiv.org/pdf/2402.17177.pdf背景在分析 Sora 之前，研究者首先盘点了视觉内容生成技术的沿袭。在深度学习革命之前，传统的图像生成技术依赖于基于手工创建特征的纹理合成和纹理映射等方法。这些方法在生成复杂而生动的图像方面能力有限。如图 3 所示，在过去十年中，视觉类的生成模型经历了多样化的发展路线。生成对抗网络（GAN）和变分自动编码器（VAE）的引入标志着一个重要的转折点，因为它在各种应用中都具有非凡的能力。随后的发展，如流模型和扩散模型，进一步增强了图像生成的细节和质量。人工智能生成内容（AIGC）技术的最新进展实现了内容创建的民主化，使用户能够通过简单的文本指令生成所需的内容。在 BERT 和 GPT 成功将 Transformer 架构应用于 NLP 之后，研究人员尝试将其迁移到 CV 领域，比如 Transformer 架构与视觉组件相结合，使其能够应用于下游 CV 任务，包括 Vision Transformer (ViT) 和 Swin Transformer ，从而进一步发展了这一概念。在 Transformer 取得成功的同时，扩散模型也在图像和视频生成领域取得了长足进步。扩散模型为利用 U-Nets 将噪声转换成图像提供了一个数学上合理的框架，U-Nets 通过学习在每一步预测和减轻噪声来促进这一过程。自 2021 年以来，能够解释人类指令的生成语言和视觉模型，即所谓的多模态模型，成为了人工智能领域的热门议题。CLIP 是一种开创性的视觉语言模型，它将 Transformer 架构与视觉元素相结合，便于在大量文本和图像数据集上进行训练。通过从一开始就整合视觉和语言知识，CLIP 可以在多模态生成框架内充当图像编码器。另一个值得注意的例子是 Stable Diffusion，它是一种多用途文本到图像人工智能模型，以其适应性和易用性而著称。它采用 Transformer 架构和潜在扩散技术来解码文本输入并生成各种风格的图像，进一步说明了多模态人工智能的进步。ChatGPT 2022 年 11 月发布之后，2023 年出现了大量文本到图像的商业化产品，如 Stable Diffusion、Midjourney、DALL-E 3。这些工具能让用户通过简单的文字提示生成高分辨率和高质量的新图像，展示了人工智能在创意图像生成方面的潜力。然而，由于视频的时间复杂性，从文本到图像到文本到视频的过渡具有挑战性。尽管工业界和学术界做出了许多努力，但大多数现有的视频生成工具，如 Pika 和 Gen-2 ，都仅限于生成几秒钟的短视频片段。在这种情况下，Sora 是一项重大突破，类似于 ChatGPT 在 NLP 领域的影响。Sora 是第一个能够根据人类指令生成长达一分钟视频的模型，同时保持较高的视觉质量和引人注目的视觉连贯性，从第一帧到最后一帧都具有渐进感和视觉连贯性。这是一个里程碑，对生成式 AI 的研究和发展产生了深远影响。如图 2 所示，Sora 在准确解读和执行复杂的人类指令方面表现出非凡的能力。该模型可以生成包含多个角色的详细场景，这些角色在错综复杂的背景下执行特定的动作。研究人员认为，Sora 不仅能熟练处理用户生成的文本提示，还能辨别场景中各种元素之间复杂的相互作用。此外，Sora 的进步还体现在它能够生成具有细微运动和交互描绘的扩展视频序列，克服了早期视频生成模型所特有的短片段和简单视觉渲染的限制。这种能力代表了人工智能驱动的创意工具的飞跃，使用户能够将文字叙述转换成丰富的视觉故事。总之，这些进步显示了 Sora 作为世界模拟器的潜力，它可以提供对所描绘场景的物理和背景动态的细微洞察。为了方便读者查阅视觉生成模型的最新进展，研究者在论文附录汇编了近期的代表性工作成果。技术推演Sora 的核心是一个预训练的扩散 Transformer。事实证明，Transformer 模型在许多自然语言任务中都具有可扩展性和有效性。与 GPT-4 等强大的大型语言模型（LLM）类似，Sora 可以解析文本并理解复杂的用户指令。为了提高视频生成的计算效率，Sora 采用了时空潜在 patch 作为其构建模块。具体来说，Sora 会将原始输入视频压缩为潜在时空表示。然后，从压缩视频中提取一系列潜在时空 patch，以囊括短暂时间间隔内的视觉外观和运动动态。这些片段类似于语言模型中的词 token，为 Sora 提供了详细的视觉短语，可用于构建视频。Sora 的文本到视频生成由扩散 Transformer 模型完成。从充满视觉噪音的帧开始，该模型会对图像进行迭代去噪，并根据提供的文本提示引入特定细节。本质上讲，生成的视频是通过多步完善过程产生的，每一步都会对视频进行完善，使其更加符合所需的内容和质量。如图 4 所示，Sora 的核心本质是一个具有灵活采样维度的扩散 Transformer。它由三部分组成：（1）时空压缩器首先将原始视频映射到潜在空间。(2) 然后，ViT 处理 token 化的潜在表示，并输出去噪潜在表示。(3) 类似 CLIP 的调节机制接收 LLM 增强的用户指令和潜在的视觉提示，引导扩散模型生成风格化或主题化的视频。经过许多去噪步骤后，生成视频的潜在表示被获取，然后通过相应的解码器映射回像素空间。在本节中，研究者对 Sora 所使用的技术进行了逆向工程，并讨论了一系列相关工作。数据预处理Sora 的一个显著特征是它能够训练、理解和生成原始尺寸的视频和图像，如图 5 所示。而传统方法通常会调整视频大小、裁剪或调整视频的长宽比以适应统一的视频和图像。利用扩散 Transformer 架构，Sora 是第一个拥抱视觉数据多样性的模型，可以以多种视频和图像格式进行采样，范围从宽屏 1920x1080p 视频到垂直 1080x1920p 视频以及介于两者之间的视频，而不影响其原始尺寸。如图 6 所示，Sora 生成的视频能够更好的展现主题，从而确保在场景中完全捕捉到拍摄对象，而其他视频有时会导致视图被截断或裁剪，导致拍摄对象脱离画面。统一视觉表示。为了有效处理不同持续时间、分辨率和高宽比的图像和视频，关键在于将所有形式的视觉数据转换为统一表示。Sora 处理的过程是这样的：首先将视频压缩到低维潜在空间，然后将表示分解为时空 patch 来对视频进行 patch 化（patchifies）。但是回看 Sora 技术报告，他们仅仅提出了一个高层次的想法，这给研究界的复现带来了挑战。在接下来的章节中，本文尝试对 Sora 的技术路径进行逆向工程，并且借鉴现有文献，讨论可以复现 Sora 的可行替代方案。首先是视频压缩网络。Sora 的视频压缩网络（或视觉编码器）旨在降低输入数据（尤其是原始视频）的维度，并输出在时间和空间上压缩过的潜在表示，如图 7 所示。根据技术报告中的参考文献， Sora 压缩网络是基于 VAE 或 VQ-VAE 技术的。然而，如果不像技术报告中对视频和图像调整大小和裁剪，那么 VAE 将任何大小的视觉数据映射到统一且固定大小的潜在空间挑战巨大。本文总结了两种不同的实现来解决这个问题：空间 patch 压缩：涉及将视频帧转换为固定大小的 patch，类似于 ViT 和 MAE 中使用的方法（见图 8），然后将其编码到潜在空间中，这种方法对于适应不同分辨率和宽高比的视频特别有效。随后，将这些空间 token 按时间序列组织在一起，以创建时间 - 空间潜在表征。时间 - 空间 patch 压缩：该技术旨在封装视频数据的空间和时间维度，从而提供全面的表示。该技术不仅仅分析静态帧，还考虑帧间的运动和变化，从而捕获视频的动态信息。3D 卷积的利用成为实现这种集成的一种简单而有效的方法。图 9 描绘了不同视频压缩方式的比较。与空间 patch 压缩类似，使用具有预定卷积核参数（例如固定内核大小、步幅和输出通道）的时间 - 空间 patch 压缩会导致潜在空间维度也不同。为了缓解这一挑战，空间修补（spatial patchification）所采用的方法在这种情况下同样适用和有效。总的来说，本文基于 VAE 或其变体如 VQ-VQE 逆向工程了两种 patch 级压缩方法，因为 patch 对处理不同类型的视频更加灵活。由于 Sora 旨在生成高保真视频，因此使用了较大尺寸的 patch 或内核尺寸以实现高效压缩。这里，本文期望使用固定大小的 patch，以简化操作、扩展性和训练稳定性。但也可以使用不同大小的 patch，以使整个帧或视频在潜在空间中的尺寸保持一致。然而，这可能导致位置编码无效，并且给解码器生成具有不同大小潜在 patch 的视频带来挑战。压缩网络部分还有一个关键问题：在将 patch 送入扩散 Transformer 的输入层之前，如何处理潜在空间维度的变化（即不同视频类型的潜在特征块或 patch 的数量）。这里讨论了几种解决方案：根据 Sora 的技术报告和相应的参考文献，patch n' pack（PNP）很可能是一种解决方案。如图 10 所示，PNP 将来自不同图像的多个 patch 打包在一个序列中。这种方法的灵感来源于自然语言处理中使用的样本打包，它通过丢弃 token 来实现对不同长度输入的高效训练。在这里，patch 化和 token 嵌入步骤需要在压缩网络中完成，但 Sora 可能会像 Diffusion Transformer（扩散 Transformer）那样，为 Transformer token 进一步 patch 化。无论是否有第二轮修补，都需要解决两个问题：如何以紧凑的方式打包这些 token，以及如何控制哪些 token 应该被丢弃。对于第一个问题，研究者采用了简单的「贪心」算法，即在第一个序列中添加足够剩余空间的样本。一旦没有样本可以容纳，序列就会被填充 token 填满，从而产生批处理操作所需的固定序列长度。这种简单的打包算法可能会导致大量填充，这取决于输入长度的分布情况。另一方面，可以控制采样的分辨率和帧数，通过调整序列长度和限制填充来确保高效打包。对于第二个问题，直观的方法是丢弃相似的 token，或者像 PNP 一样，使用丢弃率调度器。不过，值得注意的是，三维一致性是 Sora 的优良特性之一。在训练过程中，丢弃 token 可能会忽略细粒度的细节。因此，研究者认为 OpenAI 很可能会使用超长的上下文窗口并打包视频中的所有 token，尽管这样做的计算成本很高，例如，多头注意力算子在序列长度上表现出二次成本。具体来说，一个长时间视频中的时空潜在 patch 可以打包到一个序列中，而多个短时间视频中的时空潜在 patch 则会串联到另一个序列中。建模图像 DiT传统的扩散模型主要利用包含下采样和上采样块的卷积 U-Net 作为去噪网络骨干。然而，最近的研究表明，U-Net 架构对扩散模型的良好性能并非至关重要。通过采用更灵活的 Transformer 架构，基于 Transformer 的扩散模型可以使用更多的训练数据和更大的模型参数。沿着这一思路，DiT 和 U-ViT 是第一批将视觉 Transformer 用于潜在扩散模型的作品。与 ViT 一样，DiT 也采用了多头自注意力层和层范数和缩放层交错的逐点前馈网络。如图 11 所示，DiT 还通过 AdaLN 进行调节，并增加了一个用于零初始化的 MLP 层，将每个残差块初始化为一个恒等函数，从而大大稳定了训练过程。DiT 的可扩展性和灵活性得到了经验验证。在 U-ViT 中，如图 11 所示，将包括时间、条件和噪声图像片段在内的所有输入都视为 token，并在浅层和深层 Transformer 层之间提出了长跳跃连接。结果表明，基于 CNN 的 U-Net 中的下采样和升采样算子并非总是必要的，U-ViT 在图像和文本到图像生成方面取得了破纪录的 FID 分数。与掩蔽自编码器（MAE）一样，掩蔽扩散 Transformer（MDT）也在扩散过程中加入了掩码潜在模型，以明确增强图像合成中对象语义部分之间的上下文关系学习。具体来说，如图 12 所示，MDT 在训练过程中使用边缘插值（side-interpolated）进行额外的掩蔽 token 重建任务，以提高训练效率，并学习强大的上下文感知位置嵌入进行推理。与 DiT 相比，MDT 实现了更好的性能和更快的学习速度。Hatamizadeh et al. 没有使用 AdaLN（即移位和缩放）进行时间条件建模，而是引入了 Diffusion Vision Transformers (DiffiT)，它使用与时间相关的自注意力（TMSA）模块对采样时间步长内的动态去噪行为进行建模。此外，DiffiT 采用两种混合分层架构，分别在像素空间和潜在空间进行高效去噪，并在各种生成任务中取得了新的先进成果。总之，这些研究表明，利用视觉 Transformer 进行图像潜在扩散取得了可喜的成果，为面向其他模态的研究铺平了道路。视频 DiT在文本到图像（T2I）扩散模型的基础上，一些近期研究专注于发挥扩散 Transformer 在文本到视频（T2V）生成任务中的潜力。由于视频的时空特性，在视频领域应用 DiT 所面临的主要挑战是：i) 如何将视频从空间和时间上压缩到潜在空间，以实现高效去噪；ii) 如何将压缩潜在空间转换为 patch，并将其输入 Transformer ；iii) 如何处理长序列时空依赖性，并确保内容一致性。这里将讨论基于 Transformer 的去噪网络架构（该架构旨在时空压缩的潜在空间中运行）下文详细回顾了 OpenAI Sora 技术报告参考文献列表中介绍的两项重要工作（Imagen Video 和 Video LDM）。Imagen Video 是谷歌研究院开发的文本到视频生成系统，它利用级联扩散模型（由 7 个子模型组成，分别执行文本条件视频生成、空间超分辨率和时间超分辨率）将文本提示转化为高清视频。如图 13 所示，首先，冻结的 T5 文本编码器会根据输入的文本提示生成上下文嵌入。这些嵌入对于将生成的视频与文本提示对齐至关重要，除了基础模型外，它们还被注入级联中的所有模型。随后，嵌入信息被注入基础模型，用于生成低分辨率视频，然后由级联扩散模型对其进行细化以提高分辨率。基础视频和超分辨率模型采用时空可分离的 3D U-Net 架构。该架构将时间注意力层和卷积层与空间对应层结合在一起，以有效捕捉帧间依赖关系。它采用 v 预测参数化来实现数值稳定性和条件增强，以促进跨模型的并行训练。这一过程包括对图像和视频进行联合训练，将每幅图像视为一帧，以利用更大的数据集，并使用无分类器引导来提高提示保真度。渐进式蒸馏法用于简化采样过程，在保持感知质量的同时大大减少了计算负荷。将这些方法和技术相结合，Imagen Video 不仅能生成高保真视频，而且还具有出色的可控性，这体现在它能生成多样化的视频、文本动画和各种艺术风格的内容。Blattmann et al. 建议将二维潜在扩散模型转化为视频潜在扩散模型（Video LDM）。为此，他们在 U-Net 主干网和 VAE 解码器的现有空间层中添加了一些临时时间层，以学习如何对齐单个帧。这些时间层在编码视频数据上进行训练，而空间层则保持固定，从而使模型能够利用大型图像数据集进行预训练。LDM 的解码器可进行微调，以实现像素空间的时间一致性和时间对齐扩散模型上采样器，从而提高空间分辨率。为了生成超长视频，作者对模型进行了训练，以预测未来帧的上下文帧数，从而在采样过程中实现无分类器引导。为实现高时间分辨率，作者将视频合成过程分为关键帧生成和这些关键帧之间的插值。在级联 LDM 之后，使用 DM 将视频 LDM 输出进一步放大 4 倍，确保高空间分辨率的同时保持时间一致性。这种方法能以高效的计算方式生成全局一致的长视频。此外，作者还展示了将预先训练好的图像 LDM（如稳定扩散）转化为文本到视频模型的能力，只需训练时间对齐层，即可实现分辨率高达 1280 × 2048 的视频合成。语言指令跟随为了提高文本到视频模型遵循文本指令的能力，Sora 采用了与 DALL・E 3 类似的方法。DALL・E 3 中的指令跟随是通过一种描述改进方法来解决的，其假设是模型所训练的文本 - 图像对的质量决定了最终文本 - 图像模型的性能。数据质量差，尤其是普遍存在的噪声数据和省略了大量视觉信息的简短标题，会导致许多问题，如忽略关键词和词序，以及误解用户意图等。描述改进方法通过为现有图像重新添加详细的描述性描述来解决这些问题。该方法首先训练图像描述器（视觉语言模型），以生成精确的描述性图像描述。然后，描述器生成的描述性图像描述将用于微调文本到图像模型。具体来说，DALL・E 3 采用对比式描述器（CoCa），联合训练具有 CLIP 架构和语言模型目标的图像描述器。该图像描述器包含一个图像编码器、一个用于提取语言信息的单模态文本编码器和一个多模态文本解码器。它首先在单模态图像和文本嵌入之间采用对比损失，然后对多模态解码器的输出采用描述损失。由此产生的图像描述器将根据对图像的高度详细描述进行进一步微调，其中包括主要对象、周围环境、背景、文本、风格和色彩。通过这一步骤，图像描述器就能为图像生成详细的描述性描述。文本到图像模型的训练数据集由图像描述生成器生成的重新描述数据集和真实人工编写数据混合而成，以确保模型捕捉到用户输入。这种图像描述改进方法带来了一个潜在问题：实际用户提示与训练数据中的描述性图像描述不匹配。DALL・E 3 通过上采样解决了这一问题，即使用 LLM 将简短的用户提示改写成详细而冗长的说明。这确保了模型在推理时接收到的文本输入与模型训练时的文本输入保持一致。为了提高指令跟踪能力，Sora 采用了类似的描述改进方法。这种方法是通过首先训练一个能够为视频制作详细说明的视频描述器来实现的。然后，将该视频描述器应用于训练数据中的所有视频，生成高质量的（视频、描述性描述）对，用于微调 Sora，以提高其指令跟随能力。Sora 的技术报告没有透露视频描述器是如何训练的细节。鉴于视频描述器是一个视频到文本的模型，因此有很多方法来构建它：一种直接的方法是利用 CoCa 架构来制作视频描述，方法是获取视频的多个帧，并将每个帧输入图像编码器，即 VideoCoCa。VideoCoCa 以 CoCa 为基础，重新使用图像编码器预训练的权重，并将其独立应用于采样视频帧。由此产生的帧 token 嵌入会被扁平化，并连接成一长串视频表示。然后，生成式池化层和对比池化层会对这些扁平化的帧 token 进行处理，二者是用对比损失和描述损失联合训练的。其他可用于构建视频描述的方法包括 mPLUG-2、GIT、FrozenBiLM 等。最后，为确保用户提示与训练数据中的描述性描述格式一致，Sora 还执行了额外的提示扩展步骤，即使用 GPT-4V 将用户输入扩展为详细的描述性提示。然而，Sora 训练描述器的数据收集过程尚不清楚，而且很可能需要大量人力，因为这可能需要对视频进行详细描述。此外，描述性视频描述可能会对视频的重要细节产生幻觉。本文作者认为，如何改进视频描述器值得进一步研究，这对提高文本到图像模型的指令跟踪能力至关重要。提示工程文本提示文本提示工程对于指导文本视频模型制作出既具有视觉冲击力又能精确满足用户规格的视频至关重要。这就需要制作详细的描述来指导模型，以有效弥合人类创造力与人工智能执行能力之间的差距。Sora 的提示涵盖了广泛的场景。近期的作品（如 VoP、Make-A-Video 和 Tune-A-Video）展示了提示工程如何利用模型的自然语言理解能力来解码复杂指令，并将其呈现为连贯、生动和高质量的视频叙事。如图 15 所示，「一个时髦的女人走在霓虹灯闪烁的东京街头...... 」就是这样一个精心制作的文本提示，它确保 Sora 生成的视频与预期的视觉效果非常吻合。提示工程的质量取决于对词语的精心选择、所提供细节的具体性以及对其对模型输出影响的理解。例如，图 15 中的提示详细说明了动作、设置、角色出场，甚至是所期望的场景情绪和氛围。图像提示图像提示为即将生成的视频内容和其他元素（如人物、场景和情绪）提供了视觉锚点。此外，文字提示还可以指示模型将这些元素动画化，例如，添加动作、互动和叙事进展等层次，使静态图像栩栩如生。通过使用图像提示，Sora 可以利用视觉和文本信息将静态图像转换成动态的、由叙事驱动的视频。图 16 展示了人工智能生成的视频：「一只头戴贝雷帽、身穿高领毛衣的柴犬」、「一个独特的怪物家族」、「一朵云组成了 SORA 一词」以及「冲浪者在一座历史悠久的大厅内驾驭潮汐」。这些例子展示了通过 DALL・E 生成的图像提示 Sora 可以实现哪些功能。视频提示视频提示也可用于视频生成。最近的研究（如 Moonshot 和 Fast-Vid2Vid）表明，好的视频提示需要「具体」而「灵活」。这样既能确保模型在特定目标（如特定物体和视觉主题的描绘）上获得明确的指导，又能在最终输出中允许富有想象力的变化。例如，在视频扩展任务中，提示可以指定扩展的方向（时间向前或向后）和背景或主题。在图 17 (a) 中，视频提示指示 Sora 向后延伸一段视频，以探索导致原始起点的事件。如图 17（b）所示，在通过视频提示执行视频到视频的编辑时，模型需要清楚地了解所需的转换，例如改变视频的风格、场景或氛围，或改变灯光或情绪等微妙的方面。在图 17 (c) 中，提示指示 Sora 连接视频，同时确保视频中不同场景中的物体之间平滑过渡。虽然以前关于提示工程的研究主要集中在 LLM 和 LVM 的文本和图像提示上，但预计研究者们对视频生成模型的视频提示的兴趣会越来越大。应用随着以 Sora 为代表的视频扩散模型技术取得突破，其在不同研究领域和行业的应用正在迅速加速。本文作者指出，这项技术的影响远远超出了单纯的视频创作，为从自动内容生成到复杂决策过程的各种任务提供了变革潜力。在论文的第四章中，全面探讨了视频扩散模型的当前应用，希望为实际部署方案提供一个广阔的视角（图 18）：提高模拟能力：对 Sora 进行大规模训练，是因为它能够出色地模拟物理世界的各个方面。尽管没有明确的三维建模，但 Sora 通过动态摄像机运动和远距离连贯性表现出三维一致性，包括物体持久性和模拟与世界的简单交互。此外，Sora 还能模拟类似 Minecraft 的数字环境，在保持视觉保真度的同时由基本策略控制，这一点非常有趣。这些新出现的能力表明，可扩展视频模型可以有效地创建人工智能模型，以模拟物理和数字世界的复杂性。提高创造力：想象一下，通过文字勾勒出一个概念，无论是一个简单的物体还是一个完整的场景，都能在几秒钟内呈现出逼真或高度风格化的视频。Sora 可以加速设计过程，更快地探索和完善创意，从而大大提高艺术家、电影制作人和设计师的创造力。推动教育创新：长期以来，视觉辅助工具一直是教育领域理解重要概念不可或缺的工具。有了 Sora，教育工作者可以轻松地将课堂计划从文字变成视频，吸引学生的注意力，提高学习效率。从科学模拟到历史剧，可能性是无限的。增强可访问性：提高视觉领域的可访问性至关重要。Sora 通过将文字描述转换为可视内容，提供了一种创新的解决方案。这种功能使包括视觉障碍者在内的所有人都能积极参与内容创建，并以更有效的方式与他人互动。因此，它可以创造一个更具包容性的环境，让每个人都有机会通过视频表达自己的想法。促进新兴应用：Sora 的应用领域非常广泛。例如，营销人员可以用它来制作针对特定受众描述的动态广告。游戏开发商可以利用它根据玩家的叙述生成定制的视觉效果甚至角色动作。具体而言，以下几个行业将面临变革：影视传统上，创作电影是一个艰巨而昂贵的过程，往往需要数十年的努力、尖端的设备和大量的资金投入。先进视频生成技术的出现预示着电影制作进入了一个新时代，从简单的文本输入中自主生成电影的梦想正在成为现实。事实上，研究人员已经涉足电影生成领域，将视频生成模型扩展到电影创作中。MovieFactory 应用扩散模型从 ChatGPT 制作的精心脚本中生成电影风格的视频，这是一个重大飞跃。在后续研究中，MobileVidFactory 只需用户提供简单的文本，就能自动生成垂直移动视频。Vlogger 则让用户可以制作长达一分钟的 Vlog。 Sora 能够毫不费力地生成引人入胜的电影内容，这是这些发展的缩影，标志着电影制作民主化的关键时刻。它们让人们看到了一个人人都能成为电影制作人的未来，大大降低了电影行业的准入门槛，并为电影制作引入了一个新的维度，将传统的故事讲述方式与人工智能驱动的创造力融为一体。这些技术的影响不仅仅是简单化。它们有望重塑电影制作的格局，使其在面对不断变化的观众喜好和发行渠道时，变得更加容易获得，用途更加广泛。游戏游戏产业一直在寻求突破逼真度和沉浸感界限的方法，但传统游戏开发往往受到预先渲染的环境和脚本事件的限制。通过扩散模型效果实时生成动态、高保真视频内容和逼真音效，有望克服现有的限制，为开发人员提供工具来创建不断变化的游戏环境，对玩家的行为和游戏事件做出有机的反应。这可能包括生成不断变化的天气条件、改变地貌，甚至即时创建全新的设置，从而使游戏世界更加身临其境、反应更加灵敏。一些方法还能从视频输入中合成逼真的冲击声，增强游戏音频体验。将 Sora 集成到游戏领域后，就能创造出无与伦比的身临其境的体验，吸引并吸引玩家。游戏的开发、玩耍和体验方式都将得到创新，并为讲故事、互动和沉浸式体验带来新的可能性。医疗尽管具有生成能力，但视频扩散模型在理解和生成复杂视频序列方面表现出色，因此特别适用于识别人体内的动态异常，如早期细胞凋亡、皮肤病变进展和不规则人体运动，这对早期疾病检测和干预策略至关重要。此外，MedSegDiffV2 等模型利用 Transformer 的强大功能，以前所未有的精度分割医学影像，使临床医生能够在各种成像模式中精确定位感兴趣的区域，提高准确性。将 Sora 集成到临床实践中，不仅有望完善诊断流程，还能根据精确的医学影像分析提供量身定制的治疗方案，实现患者护理的个性化。然而，这种技术整合也带来了一系列挑战，包括需要采取强有力的数据隐私措施和解决医疗保健中的伦理问题。机器人视频扩散模型目前在机器人技术中发挥着重要作用，它展示了一个新时代：机器人可以生成和解释复杂的视频序列，以增强感知和决策。这些模型释放了机器人的新能力，使它们能够与环境互动，以前所未有的复杂度和精确度执行任务。将网络规模扩散模型引入机器人学，展示了利用大规模模型增强机器人视觉和理解能力的潜力。潜在扩散模型被用于语言指导的视频预测，使机器人能够通过预测视频格式的行动结果来理解和执行任务。此外，视频扩散模型能够创建高度逼真的视频序列，创新性地解决了机器人研究依赖模拟环境的问题。这样就能为机器人生成多样化的训练场景，缓解真实世界数据匮乏所带来的限制。将 Sora 等技术整合到机器人领域有望取得突破性发展。通过利用 Sora 的强大功能，未来的机器人技术将取得前所未有的进步，机器人可以无缝导航并与周围环境互动。局限性最后，研究者指出了 Sora 这项新技术存在的风险问题和局限性。随着 ChatGPT 、GPT4-V 和 Sora 等复杂模型的快速发展，这些模型的能力得到了显著提高。这些发展为提高工作效率和推动技术进步做出了重大贡献。然而，这些进步也引发了人们对这些技术可能被滥用的担忧，包括假新闻的产生、隐私泄露和道德困境。因此，大模型的可信度问题引起了学术界和工业界的广泛关注，成为当下研究讨论的焦点。虽然 Sora 的成就凸显了人工智能的重大进步，但挑战依然存在。在描绘复杂动作或捕捉微妙面部表情方面，该模型还有待改进。此外，减少生成内容中的偏见和防止有害的视觉输出等道德方面的考虑也强调了开发人员、研究人员和更广泛的社区负责任使用的重要性。确保 Sora 的输出始终安全、无偏见是一项主要挑战。但伴随着视频生成领域的发展，学术界和工业界的研究团队都取得了长足的进步。文本到视频竞争模式的出现表明，Sora 可能很快就会成为动态生态系统的一部分。这种合作与竞争的环境促进了创新，从而提高了视频质量并开发了新的应用，有助于提高工人的工作效率，使人们的生活更具娱乐性。(本文来源机器之心，如有侵权请联系删除)

2024-03-04 08:25:00 96