ControlNet作者推出AI图像生成图层设计

AIINNEWS 2024-03-06 08:30:00 72

最新的研究进展展示了预训练模型生成透明图像的突破。斯坦福大学的研究人员提出了LayerDiffusion方法,通过学习“潜在透明度”,使得模型可以微调潜在空间,从而转变为透明图像生成器。这项技术备受关注,尤其是在ControlNet作者的最新研究中。

例如:

头发凌乱的女性,在卧室里。

再看一个例子:

燃烧的柴火,在一张桌子上,在乡下。

他们使用Stable Diffusion技术可以直接生成单个或多个透明图层(PNG),避免了繁琐的抠图过程。用户研究表明,用户更偏好团队本地生成的透明内容,而不是之前的临时解决方案。这一研究成果有望深刻影响透明图像生成领域,为其带来更多创新和进步。

论文地址:

https://arxiv.org/pdf/2402.17113.pdf

相关资讯
最新资讯
最新问答
甲骨文推出OCI生成式AI服务

甲骨文推出OCI生成式AI服务

甲骨文公司最新推出的OCI Generative AI服务标志着其在云基础设施领域的创新动力。这项全面托管的服务专为解决各种业务用例而设计,与Cohere和Meta Llama 2等大型语言模型实现了无缝集成,为企业提供了强大的生成式AI功能。新服务以其完全托管和云托管的特性而脱颖而出,使企业能够轻松将其整合到现有系统中。甲骨文公司强调OCI Generative AI服务的推出是其云基础设施功能的进一步提升,以满足客户在人工智能领域日益增长的需求。OCI Generative AI服务的设计目标是解决实际业务用例中的各种问题,为用户提供高度灵活和实用的AI解决方案。这一创新举措突显了甲骨文公司对于AI技术的持续关注和投入,彰显了其在人工智能领域的领导地位。这一战略举措巩固了甲骨文在AI领域的地位,为客户提供了更多选择和解决方案。OCI Generative AI服务的推出不仅提高了甲骨文的云基础设施功能,同时也体现了该公司满足客户需求、保持技术领先地位的坚定承诺。
2024-01-27 08:00:00 131
揭秘吴恩达的4种 AI Agent 设计模式

揭秘吴恩达的4种 AI Agent 设计模式

上周,吴恩达教授在美国红杉 AI 活动上关于 Agent 的最新趋势与洞察,提出了目前有 4 种主要的 Agent 设计模式,分别是:Reflection:让 Agent 审视和修正自己生成的输出;Tool Use:LLM 生成代码、调用 API 等进行实际操作;Planning:让 Agent 分解复杂任务并按计划执行;Multiagent Collaboration:多个 Agent 扮演不同角色合作完成任务;在 扣子(coze.cn)/Coze (coze.com)上,可以将上述四种模式快捷落地,本文将以汽车行业调研助手、高质量旅行规划助手等实际案例来为大家分享落地思路。1 Reflection模式含义:让 Agent 审视和修正自己生成的输出。背景:大模型的生成有时候会犯懒,可能只会部分执行Prompt导致效果有限。Reflection模式适用于让LLM自行审视和修正自己生成的输出,对生成内容进行多次自我调优,进而生成更加优质的内容。场景:让 AI 或 LLM 说,写一个行业短评。开始写第一稿,自己阅读生成第一稿,思考哪些部分需要修改,然后,LLM进一步优化生成,可以一遍又一遍地进行。因此,这个工作流程是可迭代的,你可能让模型进行一些思考,然后修改文章,再思考,并通过多次迭代来完成这个过程。流程图: Workflow实现简单“行业短评”效果工作流拆解:第一步:Start节点,用于接收用户的输入。第二步: 大模型节点,行业短评Prompt:使用真实数据、案例、SWOT模型,并言简意赅表达。第三步:基于其生成结果第二步中的大模型的生成结果,复制其Prompt,并进一步提示生成短评,达到审视和修正自己生成输出的效果,提高短评生成质量。第四步: 输出结果。示意图参考:效果:汽车行业调研短评第一次:大模型对于提示,仅生成比较概括性的短评,使用了真实数据。第二次:大模型对生成结果进行迭代,生成了详细短评,不仅优化了表达内容,还增加了SWOT分析和案例分析。2 Tool Use 模式扣子/ Coze 本身就支持非常丰富的工具调用,欢迎使用!3 Planning 模式含义:Planning:让 Agent 分解复杂任务并按计划执行;背景:大模型的生成依赖于训练数据的实效性,并且有时候会产生幻觉,导致生成的内容效果质量有限。Planning模式适用于让LLM基于计划好的任务步骤,对生成内容进行多次自我调优和加工处理,进而生成更加优质的内容。场景:我们期望Agent具备类似人的行为的智能体,比如在调研报告场景,他会先使用搜索工具进行检索,筛选质量较高的内容,再进行一些思考,再进行重要信息的总结和整理,最后输出一个质量比较高的报告。流程图: Workflow实现Plannning模式的“行业短评”效果工作流拆解:第一步:Start节点,用于接收用户的输入。第二步: 通过“浏览器插件”,把用户的输入作为关键字进行搜索,返回相关的10个网站链接。第三步: 通过“头条搜索”访问这10个网站的详情内容,并返回。第四步: 使用大模型对这10个网站的内容进行打分,3分以上推荐引用。第五步: 通知用户:目前Agent已经完成阅读,正在整理并总结报告。第六步: 大模型对高分内容进行理解,使用真实数据、案例、SWOT模型等,并言简意赅表达。 第七步: 输出报告。示意图参考: 效果:奶茶行业调研短评第一步: Agent完成网站访问和内容抽取后,告知了完成阅读。第二步: 参考了他访问的一些网站内容,整理并总结了报告,最后打印报告输出。4 Multiagent Collaboration 模式使用coze的Multi-agent功能实现高质量旅行规划第一步:定义3个用于旅行规划场景的专家Agents目的地推荐专家: 调用搜索等能力,基于用户的需求推荐目的地。机票酒店专家: 调用机票、酒店的查询工具,根据用户的背景信息和诉求,推荐合适的机票酒店。行程规划专家: 根据用户的信息和其他专家产出的结果,帮助用户制定完整的行程规划,并将内容输出到PDF中。第二步:将3个专家Agents排列到画布中,并为他们设置任务交接的条件。第三步:开始对话三种模式的对比: (本文来源字节跳动技术团队,如有侵权请联系删除)
2024-04-08 09:59:12 83
小米推出AISP的AI大模型计算摄影平台

小米推出AISP的AI大模型计算摄影平台

全新巨星,小米14 Ultra,彰显其在激烈的AI科技竞技场中的独领风骚。其引领手机影像革命的先锋地位不可撼动,通过颠覆性的AI大模型计算摄影平台Xiaomi AISP,再次将用户的影像体验推向全新高度。这一伟大创举不仅仅是小米在2022年确立的「超越人眼、感知人心」人文影像理念的集大成,更是与传奇徕卡联袂合作的结晶。小米14 Ultra搭载的Xiaomi AISP平台,实现了CPU、GPU、NPU和ISP算力的全面整合,震撼世界的计算能力高达60TOPS,为用户带来了「超级抓拍」和「超级底片」的震撼效果,彰显了其在计算摄影领域的卓越地位。四大独立引擎模块的融合,包括光学、影调、色彩、人像,完美支持AI大模型,使小米14 Ultra在30倍以上的变焦拍摄时,能够通过AI大模型对光学数据进行精准重绘,细节之美得以全面呈现,让用户感受前所未有的影像细腻。小米14 Ultra还引领了电池技术的进步,搭载创新的小米金沙江电池,其能量密度高达779Wh/L,硅含量更创行业最高的6%,在缩小8%体积的同时,实现了1.58天的DOU续航。通信方面,小米14 Ultra更是配备了小米双向卫星通信系统,以应对用户在紧急情况下的通信需求,支持极限续航和SOS紧急求助模式,为用户提供了在低电、触屏失灵等紧急情况下通过卫星通信发起求助的强大功能。而制胜之道不仅仅体现在硬件技术上,小米14 Ultra的生产工厂更是彰显了小米的自主研发实力。这座小米手机智能工厂年产能高达千万台,其组测包装设备自研率达到了惊人的96.8%,整体工厂软件系统自研率更是达到了100%。这无疑是小米对科技生产领域的强势进军,为其全球生态系统的全面发展描绘了一幅光辉的未来图景。卢伟冰宣布,2024年将是小米「人车家全生态」全面展开之年,小米全球可连接设备数已经达到了8.23亿。小米14 Ultra的问世,不仅是一部革命性的智能手机,更是小米科技生态发展的里程碑,标志着小米在科技领域取得新的巅峰。
2024-02-27 08:00:00 85
美图与三星深度合作,打造AI图像编辑新体验

美图与三星深度合作,打造AI图像编辑新体验

三星电子于今日成功举办了Galaxy S24系列中国新品发布会,与合作伙伴美图公司深化合作,为用户提供全新的AI图像编辑体验。美图公司携手自研的AI视觉大模型MiracleVision(奇想智能),为Galaxy S24系列用户提供云端解决方案,进一步提升了手机相册的生成式编辑功能。此前,双方已经成功合作推出了多项端侧功能,如“AI图生图”、“海报拼图”和“一键大片”等,为用户带来了更多创意和便捷的图像编辑选择。美图影像研究院(MT Lab)团队依托MiracleVision的强大模型能力与丰富的AI技术经验,为Galaxy S24系列的AI图像能力注入新的活力,使用户能够享受到更高效、便捷的图像创作体验。这次深化合作进一步巩固了双方在图像处理领域的伙伴关系,为用户提供了更为卓越的手机使用体验。
2024-01-29 22:49:16 153
OpenAI正式推出GPT商店

OpenAI正式推出GPT商店

OpenAI于当地时间周三在其官网上宣布了GPT商店和ChatGPT团队订阅服务的正式推出。对于GPT商店,OpenAI在官网表示,该商店将帮助用户发现实用和流行的个性化ChatGPT,面向ChatGPT Plus、团队和企业用户。该商店计划于去年11月6日宣布,但由于管理层变动,CEO萨姆·奥特曼的解雇引发了员工和投资者的不满。董事会的改组和奥特曼的回归对一些计划产生了影响。据OpenAI在其官网公布的消息,已有大量个性化ChatGPT供用户使用。自两个月前宣布GPT商店计划以来,用户已创建了超过300万个个性化的ChatGPT,并积极分享给其他用户使用。GPT商店的推出使用户可以分享和发现实用且流行的ChatGPT,无需编码技能即可轻松创建个性化的GPT。然而,OpenAI在官网上也强调,用户创建的个性化GPT必须符合相关规定,并需要根据最新的使用政策和GPT品牌指南进行评估。为确保符合规定,OpenAI在现有产品的安全措施之外,还构建了一套新的评估系统,包括人工审查和自动审查。OpenAI表示,未来向GPT商店提供个性化ChatGPT的开发者将能够获得相应的收入。在一季度,将启动GPT开发者收入计划,首先将美国的开发者按用户参与度获得报酬,并提供相关标准和细节。与GPT商店同时推出的还有“ChatGPT团队”订阅服务,类似于去年8月推出的ChatGPT企业版。与企业版面向规模较大的公司不同,“ChatGPT团队”是一项适用于任何规模团队的计划,月付费为30美元,年付费为25美元,高于ChatGPT Plus每月20美元的价格。“ChatGPT团队”旨在提供安全、协作的工作空间,以充分利用ChatGPT。订阅该服务的用户可以访问OpenAI的GPT-4、DALL-E 3等先进模型,并使用先进的数据分析工具。与ChatGPT企业版一样,“ChatGPT团队”的用户将拥有和控制其业务数据,OpenAI明确表示不会将相关数据用于训练和对话,模型也不会在用户使用过程中学习。
2024-01-11 11:32:04 191
社群
人工智能学堂 加入
扫描二维码
Glen 加入
扫描二维码