智源FlagEval大模型评测1月榜单发布

人工智能学堂 2024-01-19 11:29:47 116

FlagEval大语言模型测评榜单已于本月发布,新加入的模型包括最近开源的Mistral(MoE模型)、BlueLM、MindSource、SUS-chat-34B、DeepSeek等。

通过引入平行测试,我们进一步提高了主观评测的可靠性。评估结果表明,Mixtral-8x7B系列模型在英文能力方面明显优于中文能力,其基座模型的英文表现接近Aquila2-34B;

而vivo发布的BlueLM系列模型在中英文能力上相对均衡,在10B以下模型中整体评测结果居于中上水平。

评测结果:

Mixtral-8x7B系列模型引领了最近的 MoE 模型浪潮

  • 其英文能力远优于中文能力,准确率高出约10%;
  • 基座模型英文能力接近 Aquila2-34B,准确率为 75.5%;SFT 模型英文客观评测准确率达到 76.8%,排名第一。

厦门大学MindSource系列模型(暂未开源)

  • 基座模型 MindSource-7B 的英文能力明显强于中文能力,中英客观评测准确率分别为 68.8%、60.0%;
  • SFT模型 MindSource-7B-Chat 中英文客观评测结果在当前7B参数级模型中排名第一,但中文主观评测结果尚有较大提升空间。

Vivo 发布的BlueLM系列模型,基座模型和SFT模型的中英文能力较为均衡,整体评测结果在10B以下模型中位于中上游。

  • 南方科技大学发布的SUS-Chat-34B模型是基于Yi-34B训练的对话模型,中文客观、主观评测结果亮眼,准确率均达到 70%以上,但在个别英文客观评测集几乎为零,可能存在指令理解和跟随上的适配问题。
  • 深度求索&幻方量化发布的DeepSeek系列模型中,DeepSeek-67B-Chat 对话模型综合得分排名第三,仅次于 AquilaChat2-34B、Qwen-72B-chat。

相关资讯
最新资讯
最新问答
华为发布首个通信大模型

华为发布首个通信大模型

作者:崔爽来源:科技日报科技日报记者 崔爽记者从华为公司获悉,近日,华为在MWC24巴塞罗那期间发布通信行业首个大模型。据了解,针对行业提出的敏捷业务发放、精准用户体验保障、跨领域高效运维的高阶智能化目标,大模型提供基于角色和场景的智能化应用,助力运营商赋能员工、提升用户满意度,提升网络生产力。MWC24巴塞罗那期间,华为以“引领智能世界”为主题,探讨如何促进“网云智”协同创新,推动数智化转型深入发展,加速5G商业正循环,拥抱更繁荣的5G-A时代。同时,华为展示了全系列、全场景的5.5G产品解决方案,包括5G-A、F5G-A、Net5.5G等。MWC24巴塞罗那华为Hall1展区根据最新数据,截至2023年底,全球已有超过300张5G商用网络,超过16亿5G用户。5G进入高速发展期,全球5G用户增长速度是4G同期的7倍。在2023年全球知名机构测试中,华为在德国、奥地利、荷兰等重要城市助力运营商网络体验取得测试第一。据了解,截至目前,华为联合运营商客户在全球20多个城市启动5G-A商用验证和测试。在中东,5G-A已成产业共识,海湾阿拉伯国家合作委员会(GCC)六国均已完成5G-A 10Gbps速率验证以及RedCap(Reduced Capability,5G轻量化)和Passive IOT(无源物联网)等新业务孵化。中国内地,三大运营商已启动全国重点城市的5G-A网络部署,并全面开展联人、联物、联车、联行业、联家庭的五联业务探索;在中国香港,运营商完成C-band+毫米波的5G-A万兆测速验证,并启动发放5G-AFWA业务;在芬兰,运营商在商用网络上完成5G-A技术验证,实现超过10Gbps峰值速率和Passive IoT的技术验证;在德国,运营商通过6GHz多载波突破12Gbps峰值速率。2024是5G-A商用的元年,华为表示,将联手全球运营商积极探索向5G-A时代的演进,构建极致体验、高效协同、绿色低碳、高稳智能的泛在网络,推动数智化转型深入发展,引领智能世界加速到来。据悉,华为企业业务以“引领数智基础设施,加速行业智能化”为主题亮相MWC24巴塞罗那,发布十大行业数智化解决方案,以及系列旗舰产品。华为终端业务携一系列科技新品亮相,展现让科技进一步融入消费者生活、丰富场景化体验的追求,以创新技术打造丰富的个性化生活方式。(主办方供图)(本文来源科技日报,如有侵权请联系删除)
2024-02-29 09:00:00 75
科大讯飞将于1月30日发布星火大模型V3.5

科大讯飞将于1月30日发布星火大模型V3.5

有投资者在互动平台向科大讯飞提问:传闻星火将于1月份进行升级,是否属实?公司回答表示:基于全国产化算力底座“飞星一号”平台的讯飞星火认知大模型V3.5目前已经完成训练,相比1024发布的讯飞星火V3.0,在逻辑推理、文本生成、数学答题及小样本学习能力均实现大幅提升。我们将在1月30日下午2:00举办讯飞星火认知大模型V3.5升级发布会,欢迎关注科大讯飞视频号等平台的在线直播。
2024-01-23 08:10:18 155
上海AI实验室:开源发布书生·浦语数学大模型

上海AI实验室:开源发布书生·浦语数学大模型

上海人工智能实验室(上海AI实验室)最近发布了新一代数学模型书生·浦语数学(InternLM2-Math)。这是一项具有创新性的开源项目,InternLM2-Math成为首个同时支持形式化数学语言及解题过程评价的模型。基于书生·浦语2.0(InternLM2)的强大基础能力,InternLM2-Math以中轻量级参数规模在多项数学评测中刷新了开源模型数学能力的上限。与传统数学大模型应用相比,InternLM2-Math不仅具备“解题”能力,更能够进行“判题”。这一突破意味着该模型将为数学基础研究和教学提供更为优质的应用基础,超越了以往的局限。InternLM2-Math的代码和模型完全开源,同时支持免费商用,秉持“以高质量开源赋能创新”的理念。这一次发布的数学模型不仅仅关乎技术社区,更在全球数学大模型领域引起瞩目。数学能力一直是衡量大语言模型推理水平的重要体现。最近,谷歌 DeepMind 利用AI数学模型AlphaGeometry成功解答几何问题,其水平已经接近人类奥林匹克金牌得主,引起了广泛关注。虽然全球数学大模型领域研究取得了显著进展,但与顶尖人类水平相比仍存在一定差距。上海AI实验室将继续秉持开源开放理念,与全球研究人员合作,共同探索提升语言模型数学推理能力的路径。InternLM2-Math以其强大的内生计算和推理能力为技术社区提供了一种创新的数学工具和模型范式,为数学领域的发展注入了新的活力。开源地址:https://github.com/InternLM/InternLM-Mathhttps://huggingface.co/internlmhttps://modelscope.cn/organization/Shanghai_AI_Laboratory
2024-01-26 14:34:20 108
文生图大模型Stable Diffusion 3论文发布

文生图大模型Stable Diffusion 3论文发布

稳定扩散3技术发布:Stability AI引领文本-图像生成创新在最新的技术突破中,Stability AI发布了其引领文本-图像生成领域的最新力作——稳定扩散3。本次发布的研究论文详细揭示了支持这一技术创新的底层技术细节。稳定扩散3的表现超越了同类文本到图像生成系统,例如DALL·E 3、Midjourney v6和Ideogram v1,尤其在排版和提示依从性方面,通过人类偏好评估取得了显著的优势。Stability AI采用了全新的Multimodal Diffusion Transformer(MMDiT)架构,为图像和语言表示分别使用了独立的权重集合,从而在文本理解和拼写能力方面迈出了坚实的一步。在早前宣布稳定扩散3早期预览后,如今Stability AI发布了详细的研究论文,该论文将很快在arXiv上公开,并邀请各界人士加入等待列表,参与到这一技术的早期预览中。性能卓越以稳定扩散3为基准,Stability AI通过人类评估制作了一份详细的图表,清晰地展示了该技术在视觉美学、提示遵循和排版等方面相对竞品的优势。通过与其他开源和封闭系统进行对比,稳定扩散3在“提示遵循”、“排版”和“视觉美学”等方面均取得了出色的表现。技术创新解析为了实现文本到图像的生成,Stability AI采用了MMDiT架构,该架构能够处理文本和图像的多种模态。独立的权重集合为文本和图像表示赋能,提高了整体理解和生成能力。灵活性与性能的完美融合稳定扩散3不仅在提示遵循方面取得了显著进展,使得模型能够创造关注各种主题和品质的图像,同时保持图像风格的高度灵活性。技术细节深挖通过采用修正流(RF)公式,稳定扩散3实现了数据和噪声在线性轨迹上的连接,从而创造了更为直线的推断路径,减少了采样步骤。同时,引入新的轨迹采样计划,更加注重轨迹中部分的权重,提高了模型对更具挑战性的预测任务的适应能力。未来发展的趋势通过对文本到图像合成的缩放研究,Stability AI展示了对模型规模和训练步骤的灵活适应性。验证损失的平滑下降趋势与自动图像对齐度量(GenEval)和人类偏好评分(ELO)之间呈现出强烈的相关性,预示着未来模型性能的不断提升。Stability AI的稳定扩散3技术的发布标志着文本-图像生成领域的一次创新飞跃。通过独特的技术架构和性能卓越,Stability AI展示了其在人工智能领域的引领地位。随着更多的应用场景的探索,我们有理由期待,Stability AI将在未来为人工智能技术带来更多令人振奋的突破。论文地址:https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf
2024-03-07 08:05:00 82
Mac专属大模型框架上线

Mac专属大模型框架上线

Mac用户如今迎来了一款专为他们设计的强大模型框架——Chat with MLX。这一框架由前OpenAI员工精心开发,旨在为苹果电脑用户提供便捷的本地大模型体验。不仅如此,Chat with MLX不仅融合了多项功能,包括本地文档总结和YouTube视频分析等,而且支持11种语言,涵盖中文、英语和法语等,满足多元用户的需求。Chat with MLX的部署十分简便,仅需两行代码即可搞定。用户可轻松与本地数据进行交互,直接上传数据进行索引,或者选择使用现有模型进行对话。这一特性不仅确保了数据的安全性,而且解除了用户对数据泄露等问题的顾虑。值得强调的是,Chat with MLX还支持HuggingFace和MLX的开源模型,用户能够轻松整合这些模型,扩展框架的功能。在使用过程中,用户只需在终端中输入相应命令,即可完成初始化并加载模型。尽管在苹果设备上部署本地大模型可能带来一些计算负担,但Chat with MLX的设计使得即便是初学者也能轻松上手,使用体验十分良好。除了提供基础功能外,Chat with MLX还支持本地RAG检索,使用户能够更深度地与模型互动。通过测试发现,在使用本地文档进行查询时,框架能够相当准确地回答问题,尽管速度可能稍慢。但作者团队一直在不断优化模型,引入新的提示词技巧,以提高模型的性能表现。Chat with MLX的推出不仅使Mac用户能够享受到本地大模型的便捷和乐趣,也预示着本地化、专属化大模型正逐渐向消费级产品普及。这一趋势展示了大模型领域的巨大潜力和发展前景,为未来的科技创新打开了无限的可能性。综上所述,Chat with MLX为Mac用户提供了一个强大而易用的本地大型模型框架。不仅集成了多项功能,还支持多种语言和开源模型,使用户能够更深度地与模型互动。随着大模型领域的不断发展,我们有理由相信,Chat with MLX将为用户带来更多惊喜和便利。GitHub地址:https://github.com/qnguyen3/chat-with-mlx
2024-03-06 08:00:00 62
社群
人工智能学堂 加入
扫描二维码
Glen 加入
扫描二维码