当前的位置:泉州汽车网 >> 新闻中心 >> 在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一 >> 正文

在「最难LLM评测榜单」上,阶跃万亿参数模型拿下中国第一

发布时间:2024-11-20 09:55:08 来源:机器之心Pro

大模型格局又变了?

刚刚,国内AI领域传来一则重要消息。

头部大模型创业公司阶跃星辰,凭借万亿参数大语言模型Step-2,在业内权威大模型基准LiveBenchAI上获得了第五名的好成绩,成为了前十名之内唯一的国产大模型。

排在阶跃星辰Step-2身前的,只剩下OpenAI和Anthropic两家公司。

榜单地址:https://livebench.ai/#

LiveBench是当前生成式AI领域最权威、客观的模型能力评测榜单之一。它是由图灵奖得主、Meta首席AI科学家YannLeCun联合Abacus.AI、纽约大学等机构推出的,今年六月才首次上线。

它旨在消除现有LLM基准的局限性,被称作是「世界上第一个无法被操纵的大语言模型基准测试」。

LiveBench提出了一种创新的基准测试方法,其中包含6大类18项任务。

为了避免大模型「作弊」,LiveBench每月发布新问题,并根据最近发布的数据集、arXiv论文、新闻文章和IMDb电影简介设计问题,以限制潜在的数据污染。每个问题都有可验证的、客观的基本真实答案,这样就可以在不使用LLM评审员的情况下,对难题进行准确的自动评分。

通过定期更新的问题集和客观的自动化评分方法,LiveBench提供了一个公平、准确的评估平台,还同时推动了LLM的持续改进和社区参与。

此次杀入榜单前十的step-2-16k-202411模型的「GlobalAverage」得分位列第五,已经非常接近第三名和第四名的claude-3-5-sonnet-20240620和o1-mini-2024-09-12。

值得注意的是,在这次提交的成绩中,Step-2的指令跟随(IFAverage)得分全榜排名第一,展示了对语言生成细节的强大控制力。具体来说,该任务是对《卫报》最近的新文章进行转述、简化、概括或编写故事,但须遵守一项或多项指令,例如字数限制或在答辩中纳入特定元素。

不断进化的Step-2万亿参数大模型

自从最初的预览版发布以来,Step-2一直在经历快速的技术迭代,迅速缩短与国际最顶级大模型的差距。

今年3月,阶跃星辰发布了Step-2语言大模型预览版,这是国内首个由创业公司发布的万亿参数模型。WAIC2024期间,阶跃星辰发布了Step-2万亿参数语言大模型正式版,在数理逻辑、编程、中文知识、英文知识、指令跟随等方面的体感都非常接近全球顶尖模型。

细看下来,Step-2万亿参数语言大模型有两大亮点:采用MoE架构,万亿参数。

训练MoE模型主要有两种方式:基于已有模型通过upcycle(向上复用)开始训练,或者从头开始训练。upcycle方式对算力的需求低、训练效率高,但上限低(比如基于拷贝复制得到的MoE模型容易造成专家同质化严重)。如果选择从头开始训练MoE模型,虽然训练难度高,但能获得更高的模型上限。

阶跃星辰团队在设计Step-2MoE架构时选择完全自主研发从头开始训练,通过部分专家共享参数、异构化专家设计等创新MoE架构设计,让Step-2中的每个「专家模型」都得到充分训练,不仅总参数量达到了万亿级别,每次训练或推理所激活的参数量也超过了市面上的大部分Dense模型。

此外,从头训练这样一个万亿参数模型对于系统团队是很大的考验。在Step-2训练过程中,阶跃星辰系统团队突破了6D并行、极致显存管理、完全自动化运维等关键技术,成功完成了Step-2的每一次升级。

基于ScalingLaw,在模型参数达到万亿规模之后,数学、编程等涉及推理的能力都会显著提升。这也最终推动了Step-2今天能够取得媲美OpenAIo1、Claude3.5Sonnet等模型的好成绩。

不断进化的Step-2万亿参数语言大模型,已经接入了阶跃星辰C端智能助手「跃问」,在跃问App和跃问网页端(https://yuewen.cn)都可以使用。

阶跃星辰的大模型矩阵打造之路

相比国内大模型领域的几家知名公司,阶跃星辰可谓是后来者。它由微软前全球副总裁姜大昕创办,于去年4月成立,今年3月才开始崭露头角。

阶跃星辰创始人、CEO姜大昕,曾任职微软全球副总裁、微软亚洲互联网工程院首席科学家。

但这家公司却在短短几个月时间站稳了国内AI创业公司的第一梯队,并在一年内快速发布了包括万亿MoE语言大模型Step-2、多模态理解大模型Step-1.5V、图像生成模型Step-1X在内的Step系列模型“全家桶”。

从AGI技术路线上看,阶跃星辰的选择是:单模态-多模态-统一多模态理解和生成-世界模型-通用人工智能(AGI)。

在快速迭代模型的同时,这家公司也将模型接入了两款C端产品智能生活助手跃问和AI开放世界冒泡鸭。目前,阶跃星辰已经完成了自身的大模型+产品矩阵,呈现出强势崛起的姿态。

猜你喜欢

公司简介 | 商业合作 | 广告中心 | 联系我们 | Copyright © 2022 WWW.QZQCW.COM All Rights Reserved.

泉州汽车网、大泉州汽车网 版权所有

网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图