当前的位置:泉州汽车网 >> 新闻中心 >> Mistral对标ChatGPT全面升级le Chat,还祭出超大杯多模态模型 >> 正文

Mistral对标ChatGPT全面升级le Chat,还祭出超大杯多模态模型

发布时间:2024-11-20 10:32:08 来源:机器之心Pro

一觉醒来,MistralAI又发力了。

就在今天,MistralAI多模态家族迎来了第二位成员:一个名为PixtralLarge的超大杯基础模型。

这是一个基于MistralLarge2构建、124B开放权重的多模态模型,具备顶尖的图像理解能力——能够看懂文档、图表和自然图像,同时保持MistralLarge2领先的纯文本理解能力。

除了发布新模型,MistralAI还进一步升级了免费聊天机器人leChat,增加图像生成、网络搜索和交互式画布功能,全面对标ChatGPT。

所有这些功能,统统以免费测试版的形式开放。

MistralAI的每一次更新,都会让整个AI社区兴奋起来。

有人感叹:「六个月前,开源模型和闭源模型之间的差距非常大。现在,最先进的人工智能正在迅速向任何想要使用它的人开放。」

到底有多强?

接下来,让我们看看发布细节吧。

开源多模态大模型PixtralLarge

PixtralLarge可根据Mistral研究许可证(MRL)用于研究和教育用途,同时根据Mistral商业许可证用于商业目的的实验、测试和生产。

PixtralLarge前身是2024年夏季发布的MistralLarge2,以及9月份发布的首个多模态模型Pixtral12-B。关于将多模态模型扩展到1240亿参数的出发点,MistralAICEO是这么说的:「我们越来越意识到,要创造最佳的AI体验,需要共同设计模型和产品界面。Pixtral在训练时就考虑到了高影响力的前端应用,是一个很好的例子。」

PixtralLarge包括一个1230亿参数解码器和一个10亿参数视觉编码器,使其在文本和视觉数据处理方面均表现出色。

PixtralLarge上下文窗口为128K,至少可以处理30张高分辨率图像或大约一本300页的书,这相当于领先的OpenAIGPT系列模型的能力。

在性能方面,该模型在包括MathVista、DocVQA和VQAv2在内的多种基准上展现出了最先进的性能,非常适合图表解释、文档分析和图像理解等任务。

具体而言,在MathVista基准上,PixtralLarge实现了69.4%的准确率,优于所有其他模型。在ChartQA和DocVQA基准上,PixtralLarge超越了GPT-4o和Gemini-1.5Pro。

PixtralLarge在MM-MT-Bench上也展示了强有力的竞争力,优于Claude-3.5Sonnet(新版)、Gemini-1.5Pro和GPT-4o(最新版)。

在图像理解方面,PixtralLarge也表现优异。比如上传一份账单,询问该模型:「我买了咖啡和香肠,外加18%的小费。我该付多少钱?」

PixtralLarge会非常有条理地给出总消费金额,先是计算了咖啡和香肠的费用,2杯拿铁玛奇朵、1份香肠,然后计算18%的小费,最后给出总金额。

PixtralLarge也能准确理解并分析图表。比如对于下面的训练损失曲线图,问darkdragon模型什么时候开始出现问题。

PixtralLarge分析的也很准确:「在达到10,000step时,训练损失开始出现不稳定……随后,这种不稳定性持续存在,并在20,000step附近出现了另一个大的峰值……」

在接下来的示例中,上传一张图片,问PixtralLarge哪些公司使用MistralAI模型?

PixtralLarge也能根据图片提供的信息给出准确的结果,回答过程如下。

除了PixtralLarge,MistralAI最先进的文本模型MistralLarge也迎来了一次更新。该模型在API上以pixtral-large-latest的形式提供,在HuggingFace上以MistralLarge24.11的形式提供。

MistralLarge24.11将首先在GoogleCloud和MicrosoftAzure上推出,预计一周内即可使用。

模型和权重下载地址:https://huggingface.co/mistralai/Pixtral-Large-Instruct-2411/tree/main试用地址:https://chat.mistral.ai/chat

对标ChatGPT大升级

leChat已经强得可怕

PixtralLarge的发布,也让leChat的能力上升到了一个新的高度。

leChat现在可以处理大型、复杂的PDF文档和图像,比如一篇理论文献的所有内容——图形、表格、图表、文本、公式、方程式。

下面的例子展示了爱因斯坦、波多尔西和罗森于1935年撰写的著名量子纠缠论文的信息提取、总结和语义理解。

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943579&idx=2&sn=a6f5715b7bfa1f38c178e31547bbb34a&chksm=84e7f425b3907d3319a8b2a96dee06329dfa09c73555aa715b768c582ee5fb44f59154465acf&token=933530197&lang=zh_CN#rd

此外还有两项新能力登陆leChat:

首先是实时的网络搜索。这是一项关于生产力的升级,MistralAI表示,leChat的大部分用户来自学生和专业人士,而这些用户非常看重其在学习、研究和工作中的作用。

下面是一位营销类专业人士使用leChat来评估医疗保健人工智能市场:

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943579&idx=2&sn=a6f5715b7bfa1f38c178e31547bbb34a&chksm=84e7f425b3907d3319a8b2a96dee06329dfa09c73555aa715b768c582ee5fb44f59154465acf&token=933530197&lang=zh_CN#rd

然后是新的Canvas界面。当用户需要暂时离开对话进行构思时,它会弹出到leChat窗口中,随后用户可以和MistralLLM合作完成共享输出。

从此,我们和聊天机器人的互动不再局限于双向对话。借助LLM强大的推理能力,Canvas可以用来创建文档、演示文稿、代码、模型等,亮点在于「就地修改」内容,无需重新生成回复、版本控制草稿并预览设计。

比如在下方演示中,是一个产品团队为准备推出Canvas而创建产品指标仪表板的反应模型的视频。

视频链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650943579&idx=2&sn=a6f5715b7bfa1f38c178e31547bbb34a&chksm=84e7f425b3907d3319a8b2a96dee06329dfa09c73555aa715b768c582ee5fb44f59154465acf&token=933530197&lang=zh_CN#rd

MistralAI与SD作者团队成立的BlackForestLabs也达成了合作,因此leChat拥有了高质量的图像生成能力。

最后,如果你想马上体验到MistralAI最新放送的搜索、PDF上传、编码、图像生成等所有功能,请访问:http://chat.mistral.ai/

https://venturebeat.com/games/xsolla-announces-certified-parental-controls-a-boom-in-web-shop-revenue-and-expansion-in-se-asia/

猜你喜欢

公司简介 | 商业合作 | 广告中心 | 联系我们 | Copyright © 2022 WWW.QZQCW.COM All Rights Reserved.

泉州汽车网、大泉州汽车网 版权所有

网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图网站地图