微信里点“发现”,扫一下
二维码便可将本文分享至朋友圈。
文生图大模型Stable Diffusion 3论文发布
稳定扩散3技术发布:Stability AI引领文本-图像生成创新
在最新的技术突破中,Stability AI发布了其引领文本-图像生成领域的最新力作——稳定扩散3。本次发布的研究论文详细揭示了支持这一技术创新的底层技术细节。
稳定扩散3的表现超越了同类文本到图像生成系统,例如DALL·E 3、Midjourney v6和Ideogram v1,尤其在排版和提示依从性方面,通过人类偏好评估取得了显著的优势。
Stability AI采用了全新的Multimodal Diffusion Transformer(MMDiT)架构,为图像和语言表示分别使用了独立的权重集合,从而在文本理解和拼写能力方面迈出了坚实的一步。
在早前宣布稳定扩散3早期预览后,如今Stability AI发布了详细的研究论文,该论文将很快在arXiv上公开,并邀请各界人士加入等待列表,参与到这一技术的早期预览中。
性能卓越
以稳定扩散3为基准,Stability AI通过人类评估制作了一份详细的图表,清晰地展示了该技术在视觉美学、提示遵循和排版等方面相对竞品的优势。通过与其他开源和封闭系统进行对比,稳定扩散3在“提示遵循”、“排版”和“视觉美学”等方面均取得了出色的表现。
技术创新解析
为了实现文本到图像的生成,Stability AI采用了MMDiT架构,该架构能够处理文本和图像的多种模态。独立的权重集合为文本和图像表示赋能,提高了整体理解和生成能力。
灵活性与性能的完美融合
稳定扩散3不仅在提示遵循方面取得了显著进展,使得模型能够创造关注各种主题和品质的图像,同时保持图像风格的高度灵活性。
技术细节深挖
通过采用修正流(RF)公式,稳定扩散3实现了数据和噪声在线性轨迹上的连接,从而创造了更为直线的推断路径,减少了采样步骤。同时,引入新的轨迹采样计划,更加注重轨迹中部分的权重,提高了模型对更具挑战性的预测任务的适应能力。
未来发展的趋势
通过对文本到图像合成的缩放研究,Stability AI展示了对模型规模和训练步骤的灵活适应性。验证损失的平滑下降趋势与自动图像对齐度量(GenEval)和人类偏好评分(ELO)之间呈现出强烈的相关性,预示着未来模型性能的不断提升。
Stability AI的稳定扩散3技术的发布标志着文本-图像生成领域的一次创新飞跃。通过独特的技术架构和性能卓越,Stability AI展示了其在人工智能领域的引领地位。随着更多的应用场景的探索,我们有理由期待,Stability AI将在未来为人工智能技术带来更多令人振奋的突破。
论文地址:
https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf