微信里点“发现”,扫一下
二维码便可将本文分享至朋友圈。
零一万物:Yi-VL多模态语言模型上线
零一万物Yi系列模型家族最新迎来了备受期待的成员,Yi Vision Language(Yi-VL)多模态语言大模型正式开源,标志着零一万物在人工智能领域迈出了令人瞩目的一步。该模型以先进的Yi语言模型为基础,分为Yi-VL-34B和Yi-VL-6B两个版本,在全球范围内的多模态基准测试MMMU中取得卓越成绩,展现出在复杂任务上的引人注目的实力。
MMMU数据集包含来自艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程六大核心学科的11500个问题,Yi-VL-34B以41.6%的准确率成功超越多个竞争对手,仅次于GPT-4V(55.7%)。这表明Yi-VL模型在跨学科知识理解和应用方面具备强大的潜力。
而在针对中文场景的CMMMU数据集上,Yi-VL模型同样表现出色,展现了对中文多模态问题的独特优势。在这个包含大学考试、测验和教科书中文问题的测试集中,Yi-VL-34B以36.5%的准确率领先于当前最前沿的开源多模态模型,仅次于GPT-4V(43.7%)。
Yi-VL模型的核心优势之一在于其基于Yi语言模型的强大文本理解能力。通过对图片进行对齐,该模型展现出卓越的多模态视觉语言表现,为用户提供更为丰富的体验。
在架构设计上,Yi-VL模型采用了开源LLaVA架构,包括三个主要模块:Vision Transformer(ViT)、Projection模块以及Yi-34B-Chat和Yi-6B-Chat大规模语言模型。这些模块协同工作,为Yi-VL提供了处理和理解图像、文本信息的强大能力,从而提高了多模态理解和生成的准确度。
Yi-VL模型的训练过程经过三个精心设计的阶段,包括使用1亿张“图像-文本”配对数据集训练ViT和Projection模块,提升图像分辨率以识别复杂的视觉细节,并最终开放整个模型的参数进行训练,以提高模型在多模态聊天互动中的表现。
零一万物技术团队强调,Yi系列模型不仅可以作为多模态模型的基座语言模型,还可以通过其他多模态训练方法,如BLIP、Flamingo、EVA等,快速训练出能够进行高效图像理解和流畅图文对话的多模态图文模型。目前,Yi-VL模型已在Hugging Face、ModelScope等平台上向公众开放,用户可通过链接亲身体验这一强大模型在图文对话等多元场景中的卓越表现。欢迎深入探索Yi-VL多模态语言模型的功能,感受前沿人工智能技术的魅力!
Hugging Face地址:https://huggingface.co/01-ai
ModelScope 地址:https://www.modelscope.cn/organization/01ai