零一万物:Yi-VL多模态语言模型上线

AIINNEWS 2024-01-24 08:08:29 87

零一万物Yi系列模型家族最新迎来了备受期待的成员,Yi Vision Language(Yi-VL)多模态语言大模型正式开源,标志着零一万物在人工智能领域迈出了令人瞩目的一步。该模型以先进的Yi语言模型为基础,分为Yi-VL-34B和Yi-VL-6B两个版本,在全球范围内的多模态基准测试MMMU中取得卓越成绩,展现出在复杂任务上的引人注目的实力。

MMMU数据集包含来自艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程六大核心学科的11500个问题,Yi-VL-34B以41.6%的准确率成功超越多个竞争对手,仅次于GPT-4V(55.7%)。这表明Yi-VL模型在跨学科知识理解和应用方面具备强大的潜力。

而在针对中文场景的CMMMU数据集上,Yi-VL模型同样表现出色,展现了对中文多模态问题的独特优势。在这个包含大学考试、测验和教科书中文问题的测试集中,Yi-VL-34B以36.5%的准确率领先于当前最前沿的开源多模态模型,仅次于GPT-4V(43.7%)。

Yi-VL模型的核心优势之一在于其基于Yi语言模型的强大文本理解能力。通过对图片进行对齐,该模型展现出卓越的多模态视觉语言表现,为用户提供更为丰富的体验。

在架构设计上,Yi-VL模型采用了开源LLaVA架构,包括三个主要模块:Vision Transformer(ViT)、Projection模块以及Yi-34B-Chat和Yi-6B-Chat大规模语言模型。这些模块协同工作,为Yi-VL提供了处理和理解图像、文本信息的强大能力,从而提高了多模态理解和生成的准确度。

Yi-VL模型的训练过程经过三个精心设计的阶段,包括使用1亿张“图像-文本”配对数据集训练ViT和Projection模块,提升图像分辨率以识别复杂的视觉细节,并最终开放整个模型的参数进行训练,以提高模型在多模态聊天互动中的表现。

零一万物技术团队强调,Yi系列模型不仅可以作为多模态模型的基座语言模型,还可以通过其他多模态训练方法,如BLIP、Flamingo、EVA等,快速训练出能够进行高效图像理解和流畅图文对话的多模态图文模型。目前,Yi-VL模型已在Hugging Face、ModelScope等平台上向公众开放,用户可通过链接亲身体验这一强大模型在图文对话等多元场景中的卓越表现。欢迎深入探索Yi-VL多模态语言模型的功能,感受前沿人工智能技术的魅力!

Hugging Face地址:https://huggingface.co/01-ai

ModelScope 地址:https://www.modelscope.cn/organization/01ai

相关资讯
最新资讯
最新问答
零一万物:开源Yi-9B模型

零一万物:开源Yi-9B模型

零一万物公司最新发布的开源大模型Yi-9B在人工智能领域引起了广泛关注。被冠以“理科状元”之名的Yi-9B在其开源声明中强调了其出众的代码和数学能力,自豪地宣称在这两个领域超越了大多数竞争对手,位列排行榜第二。这一消息是在零一万物宣布Yi-9B模型开源的同时发布的。该模型具有巨大的8.8B参数和默认的4K tokens上下文长度。据公司公布的数据显示,Yi-9B在综合能力(Mean-All)方面表现卓越,超越了DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B和Gemma-7B。在代码能力(Mean-Code)方面,Yi-9B仅次于DeepSeek-Coder-7B,胜过了Yi-34B、SOLAR-10.7B、Mistral-7B和Gemma-7B。在数学能力(Mean-Math)方面,Yi-9B仅次于DeepSeek-Math-7B,胜过了SOLAR-10.7B、Mistral-7B和Gemma-7B。此外,在常识和推理能力(Mean-Text)方面,Yi-9B的表现与Mistral-7B、SOLAR-10.7B和Gemma-7B持平。Yi-9B的开源发布以其卓越的性能和全面的能力而备受瞩目,为人工智能领域的发展贡献了一份重要的力量。模型地址:https://github.com/01-ai/Yi
2024-03-08 08:00:00 91
通义千问:视觉理解模型Qwen-VL升级

通义千问:视觉理解模型Qwen-VL升级

阿里云最新宣布了通义千问视觉理解模型Qwen-VL的升级版本——Max版本。这一版本的模型在视觉推理和中文理解能力上得到了显著的加强,将多模态技术推向了一个新的高度。Qwen-VL Max版本不仅能够根据图片识别人物,回答问题,创作和编写代码,而且在多个权威测评中也获得了令人瞩目的成绩。这些成绩使得Qwen-VL Max版本与OpenAI的GPT-4V和谷歌的Gemini Ultra媲美,标志着大型语言模型领域的新一轮竞争的到来。近来,大型语言模型领域的研究重点逐渐从LLM(大语言模型)转向了多模态,而通义千问视觉理解模型Qwen-VL Max版本正是这一趋势的最新代表。在过去的半年中,OpenAI、谷歌等巨头相继推出了多模态模型,而阿里云在2023年8月发布并开源的Qwen-VL模型则引领了这一潮流。Qwen-VL不仅具备图文理解的能力,而且在同等规模通用模型中表现卓越,远超同期竞争对手。其升级版本Max的发布,进一步巩固了在多模态领域的领先地位,成为与GPT-4V和Gemini Ultra相匹敌的重要存在。在多模态模型的评价中,Qwen-VL Max版本的整体性能与GPT-4V和Gemini Ultra不相上下。在诸如MMMU、MathVista等领域的测评中,Qwen-VL Max版本甚至超越了所有开源模型,表现出色。在文档分析(DocVQA)和中文图像相关(MM-Bench-CN)等任务上,其表现更是达到了世界领先水平。这一系列的优异成绩使得Qwen-VL Max版本成为当前多模态大模型领域的焦点,引领着该领域的发展方向。
2024-01-29 22:41:02 125
多模态人工智能是什么

多模态人工智能是什么

摘要:本文详细介绍了多模态人工智能的概念和特点,阐述了其在计算机科学和人工智能领域的重要性。多模态人工智能能够将多种感官数据(如图像、声音、文字等)融合在一起,通过深度学习和自然语言处理等技术进行处理和分析,从而实现对复杂信息的全面理解和解释。文章还介绍了多模态人工智能的应用场景和未来发展趋势,并指出其对于提高人机交互效率和促进跨领域合作具有重要意义。一、引言随着科技的进步,多模态人工智能逐渐成为人工智能领域的一个重要研究方向。多模态人工智能是一种能够将多种感官数据融合在一起,通过深度学习和自然语言处理等技术进行处理和分析的人工智能技术。它能够实现对复杂信息的全面理解和解释,从而为人类提供更加丰富、准确和实用的信息。二、多模态人工智能的概念和特点多模态人工智能将图像、声音、文字等多种数据模态结合在一起,利用机器学习、深度学习等算法,将这些模态的信息进行整合、分析和理解。其特点在于能够处理不同模态之间的相互关系,挖掘出单一模态无法揭示的信息,从而提高信息处理的全面性和准确性。三、多模态人工智能的应用场景多模态人工智能在各个领域都有广泛的应用,包括医疗诊断、智能交通、工业自动化、智能家居等。例如,在医疗诊断方面,多模态人工智能能够结合图像和病人的症状等信息,进行疾病诊断和治疗方案推荐;在智能交通方面,多模态人工智能能够利用实时交通数据和车辆信息,优化交通流,提高道路使用效率。四、多模态人工智能的未来发展趋势随着技术的不断进步,多模态人工智能将会越来越成熟,应用领域也将越来越广泛。未来的多模态人工智能将会更加智能化,能够更加准确地理解和解释复杂的信息,为人类提供更加高效、准确和实用的服务。同时,多模态人工智能将会与其他的AI技术相结合,形成更加完善的智能系统,推动各个领域的智能化发展。五、结论总的来说,多模态人工智能是一种非常重要的技术,它能够为人类提供更加丰富、准确和实用的信息,提高人机交互效率和促进跨领域合作。未来,随着技术的不断进步,多模态人工智能将会在各个领域发挥越来越重要的作用。
2024-01-17 11:28:02 85
韩国Kakao:推出多模态大模型Honeybee

韩国Kakao:推出多模态大模型Honeybee

韩国科技巨头Kakao于周五表示,已成功研发了一款名为Honeybee的多模态大型语言模型(MLLM),旨在扩大其在人工智能市场的影响力。在由韩国科学技术部主持的人工智能战略会议上,Kakao的首席执行官提名人郑信雅透露,公司已完成了Honeybee的开发。这一升级版本的大型语言模型不仅具备传统文本理解的能力,还整合了视觉和图像理解技术。基于MLLM基础构建的Honeybee能够同时理解图像和文本,使其能够回应与混合图像和文本内容相关的查询,Kakao表示。为促进全球MLLM的广泛发展,Kakao表示已在Github上分享了Honeybee及其推理代码。在政府主导的活动中,Kakao的新领导强调了本地人工智能公司之间合作的重要性,共同瞄准全球市场。郑信雅表示:“通过ChatGPT引发的人工智能浪潮,我感到有责任拥有我们自己的语言模型。”她补充道,Kakao的竞争对手Naver也正在努力开发基于韩语的语言模型。“在人工智能时代,我相信公司之间的合作和生态系统的创建非常重要。”Naver首席执行官崔秀妍在首尔政府主导的会议上强调了韩国开发者的潜力,并呼吁政府支持,以帮助他们在科技能够影响人们思考和行动方式的时候与规模大100倍的全球科技巨头竞争。她说:“韩国有许多公司正在开发超大型人工智能模型。它们将为韩国成为一个人工智能先进国家创造机会,使当前年份对该领域的发展尤为重要。”
2024-01-23 08:30:00 149
Mac专属大模型框架上线

Mac专属大模型框架上线

Mac用户如今迎来了一款专为他们设计的强大模型框架——Chat with MLX。这一框架由前OpenAI员工精心开发,旨在为苹果电脑用户提供便捷的本地大模型体验。不仅如此,Chat with MLX不仅融合了多项功能,包括本地文档总结和YouTube视频分析等,而且支持11种语言,涵盖中文、英语和法语等,满足多元用户的需求。Chat with MLX的部署十分简便,仅需两行代码即可搞定。用户可轻松与本地数据进行交互,直接上传数据进行索引,或者选择使用现有模型进行对话。这一特性不仅确保了数据的安全性,而且解除了用户对数据泄露等问题的顾虑。值得强调的是,Chat with MLX还支持HuggingFace和MLX的开源模型,用户能够轻松整合这些模型,扩展框架的功能。在使用过程中,用户只需在终端中输入相应命令,即可完成初始化并加载模型。尽管在苹果设备上部署本地大模型可能带来一些计算负担,但Chat with MLX的设计使得即便是初学者也能轻松上手,使用体验十分良好。除了提供基础功能外,Chat with MLX还支持本地RAG检索,使用户能够更深度地与模型互动。通过测试发现,在使用本地文档进行查询时,框架能够相当准确地回答问题,尽管速度可能稍慢。但作者团队一直在不断优化模型,引入新的提示词技巧,以提高模型的性能表现。Chat with MLX的推出不仅使Mac用户能够享受到本地大模型的便捷和乐趣,也预示着本地化、专属化大模型正逐渐向消费级产品普及。这一趋势展示了大模型领域的巨大潜力和发展前景,为未来的科技创新打开了无限的可能性。综上所述,Chat with MLX为Mac用户提供了一个强大而易用的本地大型模型框架。不仅集成了多项功能,还支持多种语言和开源模型,使用户能够更深度地与模型互动。随着大模型领域的不断发展,我们有理由相信,Chat with MLX将为用户带来更多惊喜和便利。GitHub地址:https://github.com/qnguyen3/chat-with-mlx
2024-03-06 08:00:00 62
社群
人工智能学堂 加入
扫描二维码
Glen 加入
扫描二维码