韩国Kakao:推出多模态大模型Honeybee

AIINNEWS 2024-01-23 08:30:00 148

韩国科技巨头Kakao于周五表示,已成功研发了一款名为Honeybee的多模态大型语言模型(MLLM),旨在扩大其在人工智能市场的影响力。

在由韩国科学技术部主持的人工智能战略会议上,Kakao的首席执行官提名人郑信雅透露,公司已完成了Honeybee的开发。

这一升级版本的大型语言模型不仅具备传统文本理解的能力,还整合了视觉和图像理解技术。

基于MLLM基础构建的Honeybee能够同时理解图像和文本,使其能够回应与混合图像和文本内容相关的查询,Kakao表示。

为促进全球MLLM的广泛发展,Kakao表示已在Github上分享了Honeybee及其推理代码。

在政府主导的活动中,Kakao的新领导强调了本地人工智能公司之间合作的重要性,共同瞄准全球市场。

郑信雅表示:“通过ChatGPT引发的人工智能浪潮,我感到有责任拥有我们自己的语言模型。”她补充道,Kakao的竞争对手Naver也正在努力开发基于韩语的语言模型。“在人工智能时代,我相信公司之间的合作和生态系统的创建非常重要。”

Naver首席执行官崔秀妍在首尔政府主导的会议上强调了韩国开发者的潜力,并呼吁政府支持,以帮助他们在科技能够影响人们思考和行动方式的时候与规模大100倍的全球科技巨头竞争。

她说:“韩国有许多公司正在开发超大型人工智能模型。它们将为韩国成为一个人工智能先进国家创造机会,使当前年份对该领域的发展尤为重要。”

相关资讯
最新资讯
最新问答
韩国团队提出文生图大模型KOALA

韩国团队提出文生图大模型KOALA

近期,韩国科研团队成功研发出一项备受瞩目的人工智能图像生成技术,其核心是基于KOALA模型。通过创新的知识蒸馏技术,研究人员成功将Stable Diffusion XL模型的庞大参数数量从25.6亿个压缩至仅有7亿个,实现了模型的显著精简。KOALA模型不仅在硬件需求上实现了巨幅降低,而且能够在仅2秒的时间内生成高质量的图像。采用“知识蒸馏”技术将大型模型中的信息巧妙地转移至小型模型,不仅不损害质量和性能,还使得较小的模型能够更迅速地完成图像生成任务。实测结果表明,在给定“一张宇航员在火星卫星下看书的图片”这一提示词的情况下,KOALA模型仅需1.6秒即可完成任务,而相较之下,OpenAI的DALL-E 3模型和DALL-E 2模型分别需要13.7秒和12.3秒。这项研究为提供一种高性价比的图像生成方式,特别适用于资源受限环境,成为Stable Diffusion XL模型的理想替代品。此技术为未来相关领域的技术发展提供了崭新的思路,为人工智能图像生成领域注入了更为强劲的创新力。论文地址:https://arxiv.org/pdf/2312.04005.pdf
2024-03-05 08:00:00 89
零一万物:Yi-VL多模态语言模型上线

零一万物:Yi-VL多模态语言模型上线

零一万物Yi系列模型家族最新迎来了备受期待的成员,Yi Vision Language(Yi-VL)多模态语言大模型正式开源,标志着零一万物在人工智能领域迈出了令人瞩目的一步。该模型以先进的Yi语言模型为基础,分为Yi-VL-34B和Yi-VL-6B两个版本,在全球范围内的多模态基准测试MMMU中取得卓越成绩,展现出在复杂任务上的引人注目的实力。MMMU数据集包含来自艺术与设计、商业、科学、健康与医学、人文与社会科学以及技术与工程六大核心学科的11500个问题,Yi-VL-34B以41.6%的准确率成功超越多个竞争对手,仅次于GPT-4V(55.7%)。这表明Yi-VL模型在跨学科知识理解和应用方面具备强大的潜力。而在针对中文场景的CMMMU数据集上,Yi-VL模型同样表现出色,展现了对中文多模态问题的独特优势。在这个包含大学考试、测验和教科书中文问题的测试集中,Yi-VL-34B以36.5%的准确率领先于当前最前沿的开源多模态模型,仅次于GPT-4V(43.7%)。Yi-VL模型的核心优势之一在于其基于Yi语言模型的强大文本理解能力。通过对图片进行对齐,该模型展现出卓越的多模态视觉语言表现,为用户提供更为丰富的体验。在架构设计上,Yi-VL模型采用了开源LLaVA架构,包括三个主要模块:Vision Transformer(ViT)、Projection模块以及Yi-34B-Chat和Yi-6B-Chat大规模语言模型。这些模块协同工作,为Yi-VL提供了处理和理解图像、文本信息的强大能力,从而提高了多模态理解和生成的准确度。Yi-VL模型的训练过程经过三个精心设计的阶段,包括使用1亿张“图像-文本”配对数据集训练ViT和Projection模块,提升图像分辨率以识别复杂的视觉细节,并最终开放整个模型的参数进行训练,以提高模型在多模态聊天互动中的表现。零一万物技术团队强调,Yi系列模型不仅可以作为多模态模型的基座语言模型,还可以通过其他多模态训练方法,如BLIP、Flamingo、EVA等,快速训练出能够进行高效图像理解和流畅图文对话的多模态图文模型。目前,Yi-VL模型已在Hugging Face、ModelScope等平台上向公众开放,用户可通过链接亲身体验这一强大模型在图文对话等多元场景中的卓越表现。欢迎深入探索Yi-VL多模态语言模型的功能,感受前沿人工智能技术的魅力!Hugging Face地址:https://huggingface.co/01-aiModelScope 地址:https://www.modelscope.cn/organization/01ai
2024-01-24 08:08:29 87
小米推出AISP的AI大模型计算摄影平台

小米推出AISP的AI大模型计算摄影平台

全新巨星,小米14 Ultra,彰显其在激烈的AI科技竞技场中的独领风骚。其引领手机影像革命的先锋地位不可撼动,通过颠覆性的AI大模型计算摄影平台Xiaomi AISP,再次将用户的影像体验推向全新高度。这一伟大创举不仅仅是小米在2022年确立的「超越人眼、感知人心」人文影像理念的集大成,更是与传奇徕卡联袂合作的结晶。小米14 Ultra搭载的Xiaomi AISP平台,实现了CPU、GPU、NPU和ISP算力的全面整合,震撼世界的计算能力高达60TOPS,为用户带来了「超级抓拍」和「超级底片」的震撼效果,彰显了其在计算摄影领域的卓越地位。四大独立引擎模块的融合,包括光学、影调、色彩、人像,完美支持AI大模型,使小米14 Ultra在30倍以上的变焦拍摄时,能够通过AI大模型对光学数据进行精准重绘,细节之美得以全面呈现,让用户感受前所未有的影像细腻。小米14 Ultra还引领了电池技术的进步,搭载创新的小米金沙江电池,其能量密度高达779Wh/L,硅含量更创行业最高的6%,在缩小8%体积的同时,实现了1.58天的DOU续航。通信方面,小米14 Ultra更是配备了小米双向卫星通信系统,以应对用户在紧急情况下的通信需求,支持极限续航和SOS紧急求助模式,为用户提供了在低电、触屏失灵等紧急情况下通过卫星通信发起求助的强大功能。而制胜之道不仅仅体现在硬件技术上,小米14 Ultra的生产工厂更是彰显了小米的自主研发实力。这座小米手机智能工厂年产能高达千万台,其组测包装设备自研率达到了惊人的96.8%,整体工厂软件系统自研率更是达到了100%。这无疑是小米对科技生产领域的强势进军,为其全球生态系统的全面发展描绘了一幅光辉的未来图景。卢伟冰宣布,2024年将是小米「人车家全生态」全面展开之年,小米全球可连接设备数已经达到了8.23亿。小米14 Ultra的问世,不仅是一部革命性的智能手机,更是小米科技生态发展的里程碑,标志着小米在科技领域取得新的巅峰。
2024-02-27 08:00:00 85
中国一汽和阿里云联合推出大模型应用GPT-BI

中国一汽和阿里云联合推出大模型应用GPT-BI

中国一汽与阿里云通义千问合作推出的大型模型应用GPT-BI正式启用,为中国一汽的数字化转型注入新的活力。这一应用具备接收自然语言查询的能力,并结合企业数据自动生成分析图表,目前的准确率已达近90%。相较于传统商业智能(BI)的“固定问答”,GPT-BI实现了问答的任意组合,实时穿透数据,实现了“问答即洞察”的效果。值得注意的是,GPT-BI不仅是中国一汽首个大型模型应用案例,也是汽车行业的首个大型模型BI应用。中国一汽正在积极探索“GPT+”大型模型创新范式,未来将利用阿里云百炼一站式大型模型应用开发平台,在基于GPT-BI等真实业务场景的实践中构建面向研发、制造、售后服务等多领域的垂直大型模型。与此同时,阿里云也在推动通义千问大型模型在不同行业,如航空、汽车等领域的应用落地。这一合作标志着中国一汽在数字化转型道路上迈出了重要的一步,为未来数据驱动决策和创新提供了有力支持。
2024-01-26 15:16:46 157
多模态人工智能是什么

多模态人工智能是什么

摘要:本文详细介绍了多模态人工智能的概念和特点,阐述了其在计算机科学和人工智能领域的重要性。多模态人工智能能够将多种感官数据(如图像、声音、文字等)融合在一起,通过深度学习和自然语言处理等技术进行处理和分析,从而实现对复杂信息的全面理解和解释。文章还介绍了多模态人工智能的应用场景和未来发展趋势,并指出其对于提高人机交互效率和促进跨领域合作具有重要意义。一、引言随着科技的进步,多模态人工智能逐渐成为人工智能领域的一个重要研究方向。多模态人工智能是一种能够将多种感官数据融合在一起,通过深度学习和自然语言处理等技术进行处理和分析的人工智能技术。它能够实现对复杂信息的全面理解和解释,从而为人类提供更加丰富、准确和实用的信息。二、多模态人工智能的概念和特点多模态人工智能将图像、声音、文字等多种数据模态结合在一起,利用机器学习、深度学习等算法,将这些模态的信息进行整合、分析和理解。其特点在于能够处理不同模态之间的相互关系,挖掘出单一模态无法揭示的信息,从而提高信息处理的全面性和准确性。三、多模态人工智能的应用场景多模态人工智能在各个领域都有广泛的应用,包括医疗诊断、智能交通、工业自动化、智能家居等。例如,在医疗诊断方面,多模态人工智能能够结合图像和病人的症状等信息,进行疾病诊断和治疗方案推荐;在智能交通方面,多模态人工智能能够利用实时交通数据和车辆信息,优化交通流,提高道路使用效率。四、多模态人工智能的未来发展趋势随着技术的不断进步,多模态人工智能将会越来越成熟,应用领域也将越来越广泛。未来的多模态人工智能将会更加智能化,能够更加准确地理解和解释复杂的信息,为人类提供更加高效、准确和实用的服务。同时,多模态人工智能将会与其他的AI技术相结合,形成更加完善的智能系统,推动各个领域的智能化发展。五、结论总的来说,多模态人工智能是一种非常重要的技术,它能够为人类提供更加丰富、准确和实用的信息,提高人机交互效率和促进跨领域合作。未来,随着技术的不断进步,多模态人工智能将会在各个领域发挥越来越重要的作用。
2024-01-17 11:28:02 85
社群
人工智能学堂 加入
扫描二维码
Glen 加入
扫描二维码