文生图大模型Stable Diffusion 3论文发布

AIINNEWS 2024-03-07 08:05:00 81

稳定扩散3技术发布:Stability AI引领文本-图像生成创新

在最新的技术突破中,Stability AI发布了其引领文本-图像生成领域的最新力作——稳定扩散3。本次发布的研究论文详细揭示了支持这一技术创新的底层技术细节。

稳定扩散3的表现超越了同类文本到图像生成系统,例如DALL·E 3、Midjourney v6和Ideogram v1,尤其在排版和提示依从性方面,通过人类偏好评估取得了显著的优势。

Stability AI采用了全新的Multimodal Diffusion Transformer(MMDiT)架构,为图像和语言表示分别使用了独立的权重集合,从而在文本理解和拼写能力方面迈出了坚实的一步。

在早前宣布稳定扩散3早期预览后,如今Stability AI发布了详细的研究论文,该论文将很快在arXiv上公开,并邀请各界人士加入等待列表,参与到这一技术的早期预览中。

性能卓越

以稳定扩散3为基准,Stability AI通过人类评估制作了一份详细的图表,清晰地展示了该技术在视觉美学、提示遵循和排版等方面相对竞品的优势。通过与其他开源和封闭系统进行对比,稳定扩散3在“提示遵循”、“排版”和“视觉美学”等方面均取得了出色的表现。

技术创新解析

为了实现文本到图像的生成,Stability AI采用了MMDiT架构,该架构能够处理文本和图像的多种模态。独立的权重集合为文本和图像表示赋能,提高了整体理解和生成能力。

灵活性与性能的完美融合

稳定扩散3不仅在提示遵循方面取得了显著进展,使得模型能够创造关注各种主题和品质的图像,同时保持图像风格的高度灵活性。

技术细节深挖

通过采用修正流(RF)公式,稳定扩散3实现了数据和噪声在线性轨迹上的连接,从而创造了更为直线的推断路径,减少了采样步骤。同时,引入新的轨迹采样计划,更加注重轨迹中部分的权重,提高了模型对更具挑战性的预测任务的适应能力。

未来发展的趋势

通过对文本到图像合成的缩放研究,Stability AI展示了对模型规模和训练步骤的灵活适应性。验证损失的平滑下降趋势与自动图像对齐度量(GenEval)和人类偏好评分(ELO)之间呈现出强烈的相关性,预示着未来模型性能的不断提升。

Stability AI的稳定扩散3技术的发布标志着文本-图像生成领域的一次创新飞跃。通过独特的技术架构和性能卓越,Stability AI展示了其在人工智能领域的引领地位。随着更多的应用场景的探索,我们有理由期待,Stability AI将在未来为人工智能技术带来更多令人振奋的突破。

论文地址:

https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

相关资讯
最新资讯
最新问答
Stable Diffusion3.0,采用Sora类似架构

Stable Diffusion3.0,采用Sora类似架构

2月22日,Stability AI 公司发布了其最新一代生成式 AI 技术产品——Stable Diffusion 3,采用了与 OpenAI 的 Sora 相似的 diffusion transformer 架构。与之前的版本相比,Stable Diffusion 3 在图像质量、文字书写效果以及支持多主题提示方面都实现了显著的改进。这一消息传来之际,我们了解到 Stability AI 在2月22日正式推出了 Stable Diffusion 3 的新版本,并且开放了提前预览版的申请通道。新版本的 Stable Diffusion 3 不仅在多主题提示、图像质量和文字渲染能力方面有显著提升,而且模型套件的参数范围从800M到8B不等,与 Sora 一样,都采用了 Diffusion Transformer 架构。Stable Diffusion 3 生成的图在质量上实现了巨大的改进,同时支持多主题提示,使用户能够更灵活地引导生成内容。文字书写效果的提升也让用户在使用过程中获得更加自然流畅的体验。这一新版本的发布展示了 Stability AI 不断推动生成式 AI 技术进步的决心,为用户提供更强大、更多样化的文生成工具。申请地址:http://stability.ai/stablediffusion3以下是一些官方示例:提示:史诗般的动漫作品,一位巫师在夜晚的山顶上向漆黑的天空施放宇宙咒语,咒语上写着 "Stable Diffusion 3",由五彩缤纷的能量组成(Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy)提示:电影照片,教室的桌子上放着一个红苹果,黑板上用粉笔写着 "go big or go home" 的字样(cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk)提示:一幅画,画中宇航员骑着一只穿着蓬蓬裙的猪,撑着一把粉色的伞,猪旁边的地上有一只戴着高帽的知更鸟,角落里有 "stable diffusion" 的字样(a painting of an astronaut riding a pig wearing a tutu holding a pink umbrella, on the ground next to the pig is a robin bird wearing a top hat, in the corner are the words "stable diffusion")提示:黑色背景上变色龙的摄影棚特写(studio photograph closeup of a chameleon over a black background
2024-02-27 08:30:00 85
韩国团队提出文生图大模型KOALA

韩国团队提出文生图大模型KOALA

近期,韩国科研团队成功研发出一项备受瞩目的人工智能图像生成技术,其核心是基于KOALA模型。通过创新的知识蒸馏技术,研究人员成功将Stable Diffusion XL模型的庞大参数数量从25.6亿个压缩至仅有7亿个,实现了模型的显著精简。KOALA模型不仅在硬件需求上实现了巨幅降低,而且能够在仅2秒的时间内生成高质量的图像。采用“知识蒸馏”技术将大型模型中的信息巧妙地转移至小型模型,不仅不损害质量和性能,还使得较小的模型能够更迅速地完成图像生成任务。实测结果表明,在给定“一张宇航员在火星卫星下看书的图片”这一提示词的情况下,KOALA模型仅需1.6秒即可完成任务,而相较之下,OpenAI的DALL-E 3模型和DALL-E 2模型分别需要13.7秒和12.3秒。这项研究为提供一种高性价比的图像生成方式,特别适用于资源受限环境,成为Stable Diffusion XL模型的理想替代品。此技术为未来相关领域的技术发展提供了崭新的思路,为人工智能图像生成领域注入了更为强劲的创新力。论文地址:https://arxiv.org/pdf/2312.04005.pdf
2024-03-05 08:00:00 88
位置感知视觉识别Vision Mamba新模型发布

位置感知视觉识别Vision Mamba新模型发布

华中科技大学、地平线以及智源研究院的研究人员最近在视觉领域取得了重要突破,他们提出了一项名为Vision Mamba(Vim)的创新模型。该模型已在arXiv上发布相关研究论文,详细介绍了Vision Mamba块的设计和性能。Vision Mamba集成了双向SSM,以实现对数据依赖的全局视觉上下文建模,并通过位置嵌入实现位置感知的视觉识别。在具体应用中,当将Vim应用于分辨率为1248×1248的图像进行批量推理时,与成熟的视觉Transformer模型DeiT相比,Vim表现更为卓越。其速度提升了2.8倍,同时还节省了86.8%的GPU内存。这意味着Vim在处理大规模高分辨率图像时不仅具备更高的性能,还能更高效地利用计算资源。此外,对于 ImageNet 分类任务、COCO 对象检测任务和 ADE20k 语义分割任务等多个任务,Vim在性能上均实现了显著提高。在与DeiT等成熟的视觉Transformers相比时,Vim不仅加速了任务执行,而且更加高效地利用计算和内存资源。这一结果进一步印证了Vim在视觉领域具有潜在的广泛应用前景,有望成为下一代视觉基础模型的重要候选。项目主页:https://github.com/hustvl/Vim论文地址:https://arxiv.org/pdf/2401.09417.pdf
2024-01-24 08:49:00 133
华为发布首个通信大模型

华为发布首个通信大模型

作者:崔爽来源:科技日报科技日报记者 崔爽记者从华为公司获悉,近日,华为在MWC24巴塞罗那期间发布通信行业首个大模型。据了解,针对行业提出的敏捷业务发放、精准用户体验保障、跨领域高效运维的高阶智能化目标,大模型提供基于角色和场景的智能化应用,助力运营商赋能员工、提升用户满意度,提升网络生产力。MWC24巴塞罗那期间,华为以“引领智能世界”为主题,探讨如何促进“网云智”协同创新,推动数智化转型深入发展,加速5G商业正循环,拥抱更繁荣的5G-A时代。同时,华为展示了全系列、全场景的5.5G产品解决方案,包括5G-A、F5G-A、Net5.5G等。MWC24巴塞罗那华为Hall1展区根据最新数据,截至2023年底,全球已有超过300张5G商用网络,超过16亿5G用户。5G进入高速发展期,全球5G用户增长速度是4G同期的7倍。在2023年全球知名机构测试中,华为在德国、奥地利、荷兰等重要城市助力运营商网络体验取得测试第一。据了解,截至目前,华为联合运营商客户在全球20多个城市启动5G-A商用验证和测试。在中东,5G-A已成产业共识,海湾阿拉伯国家合作委员会(GCC)六国均已完成5G-A 10Gbps速率验证以及RedCap(Reduced Capability,5G轻量化)和Passive IOT(无源物联网)等新业务孵化。中国内地,三大运营商已启动全国重点城市的5G-A网络部署,并全面开展联人、联物、联车、联行业、联家庭的五联业务探索;在中国香港,运营商完成C-band+毫米波的5G-A万兆测速验证,并启动发放5G-AFWA业务;在芬兰,运营商在商用网络上完成5G-A技术验证,实现超过10Gbps峰值速率和Passive IoT的技术验证;在德国,运营商通过6GHz多载波突破12Gbps峰值速率。2024是5G-A商用的元年,华为表示,将联手全球运营商积极探索向5G-A时代的演进,构建极致体验、高效协同、绿色低碳、高稳智能的泛在网络,推动数智化转型深入发展,引领智能世界加速到来。据悉,华为企业业务以“引领数智基础设施,加速行业智能化”为主题亮相MWC24巴塞罗那,发布十大行业数智化解决方案,以及系列旗舰产品。华为终端业务携一系列科技新品亮相,展现让科技进一步融入消费者生活、丰富场景化体验的追求,以创新技术打造丰富的个性化生活方式。(主办方供图)(本文来源科技日报,如有侵权请联系删除)
2024-02-29 09:00:00 75
Stability AI与VAST推出快速将单图转3D模型

Stability AI与VAST推出快速将单图转3D模型

稳定性AI与国内3D生成模型公司VAST宣布了一项引人注目的合作,联手推出了TripoSR——一款快速的3D物体重建模型,并开源发布。TripoSR是一款受到LRM启发的人工智能模型,专注于视觉内容生成,满足娱乐、游戏、工业设计和建筑等领域不断增长的需求。该模型具备在极短时间内从单张图像生成高质量3D模型的能力,即使在无GPU的情况下也能运行。在经过英伟达A100的严格测试后,TripoSR表现出色,能够在约0.5秒内生成草稿质量的3D输出,带有纹理网格,明显领先于其他开源图像转3D模型工具,如OpenLRM。为了支持广泛的使用,Stability AI根据MIT许可提供了TripoSR模型的权重和源代码,供商业、个人和研究用途自由下载。在模型的训练过程中,Stability AI采用了多种数据渲染技术,提高了模型的泛化能力。通过精心设计更高质量的Objaverse数据集子集训练数据,TripoSR更接近复制现实世界中的图像分布,进一步提升了泛化性能。此外,模型经过通道数优化、掩模监控和更高效的裁剪渲染策略的多项技术改进,性能更为出色。TripoSR的发布是Stability AI和VAST合作的成果,为用户提供了高效、快速且质量优越的3D物体重建解决方案,将在不同领域展现广泛的应用潜力。项目地址:https://github.com/VAST-AI-Research/TripoSR技术报告:https://stability.ai/s/TripoSR_report.pdf
2024-03-07 08:10:00 99
社群
人工智能学堂 加入
扫描二维码
Glen 加入
扫描二维码