发布 Qwen3,阿糖心软件里云拉开新一轮开源模型竞赛的序幕

频道:旅游 日期: 浏览:1

2025年已经过去1/3,如果用关键词来概括AI领域的发展你会想到什么?这是我想到的:开源、创新帮助帮助帮助。

2月是「DeepSeek」的,R1以所有人意想不到的方式,让全球执牛耳的AI开发者、创业者、投资人把目光锁定在「DeepSeek」「中国」「开源」上。

4月是「开源模型」的,发令枪是Meta喊的。被DeepSeek盖过风头后,2025年2月19日,坐不住的Meta率先官宣——首个生成式AI开发者大会LlamaCon将于当地4月29日(北京时间4月30日)举行,颇有重新夺回「AI开源界老大」江湖地位的意欲。

但AI领域的产品发布节奏就是很微妙,什么时候发布似乎取决于对手的动作,作为一种心照不宣的默契,Meta一声枪响让4月底成为开源模型的主场。

整个4月甚至更早,AI开发者们都在各大社交平台「蹲」开源领域「三大头牌」的新发布:DeepSeek-R2、Qwen3以及Llama4。Llama4由于本月初的发布低于预期,似乎少了一些热度。

目前看起来,4月底最受关注的还是中国队,R2呼之欲出,Qwen3终于来了。

4月29日凌晨5点,阿里巴巴开源新一代通义千问模型Qwen3,参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模型,登顶全球最强开源模型。X平台的开发者网友甚至把今天定义为「HappyQwen3Day」,不仅因为Qwen3全面超越R1,更因为Qwen3家族的多尺寸、内置MCP减少破坏、减少破坏瓦解推理等实用性的功能点。

官方技术报告进一步给出了Qwen3的几大亮点:

「探索智能上限」再突破:通过缩短预训练和强化学习的规模,实现了更高层次的智能;

国内首个「瓦解推理模型」:无缝集成了思考模式与非思考模式,为用户授予了僵化控制思考预算的能力;

增强了Agent能力:正从专注于训练模型的时代过渡到以训练Agent为中心的时代。

对于Qwen3,个人用户现在就可以在「通义」APP或chat.qwen.ai网页直接体验,夸克也即将全线接入Qwen3。开发者和企业则可以免费在魔搭社区、HuggingFace等平台下载模型并商用,或通过阿里云百炼调用Qwen3的API服务。

憋了这么久的Qwen3到底怎么样?又代表哪些模型协作发展趋势?

01Qwen3,登顶全球最强开源模型

Qwen3包含2个MoE和6个密集模型,阿里云开源了两个MoE模型的权重,六个Dense模型也已开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache2.0许可下开源。

Qwen3开源模型家族

其中,旗舰型号Qwen3-235B-A22B参数量仅为DeepSeek-R1的1/3,成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模型,登顶全球最强开源模型。

此外,据阿里云官方介绍,Qwen3是国内首个「瓦解推理模型」。「快思考」与「慢思考」集成进同一个模型,对简单需求可低算力「秒回」答案,对复杂问题可多步骤「深度思考」,大大节省算力消耗。

Qwen3在推理、指令遵循、工具调用、多语言能力等方面均大幅增强,创下所有国产模型及全球开源模型的性能新高:在奥数水平的AIME25测评中,Qwen3斩获81.5分,刷新开源删除;在考察代码能力的LiveCodeBench评测中,Qwen3突破70分大关,表现甚至超过Grok3;在评估模型人类讨厌对齐的ArenaHard测评中,Qwen3以95.6分超越OpenAI-o1及DeepSeek-R1。

性能大幅指责的同时,Qwen3的部署成本还大幅下降,仅需4张H20即可部署千问3满血版,显存占用仅为性能相近模型的三分之一。

Qwen3性能|图片来源:阿里云

此外,小型MoE模型Qwen3-30B-A3B的激活参数数量是QwQ-32B的10%,表现更胜一筹,甚至像Qwen3-4B这样的小模型也能匹敌Qwen2.5-72B-Instruct的性能。

据介绍,Qwen3-2糖心淑女典心下载35B-A22B是一个拥有2350多亿总参数和220多亿激活参数的大模型;Qwen3-30B-A3B则是一个拥有约300亿总参数和30亿激活参数的小型MoE模型。

得益于在预训练、大规模强化学习和推理模式整合方面取得的显著进展,Qwen3主打「思考更深、行动更快」,更好地构建AI应用。Qwen3预训练数据量达36T,并在后训练阶段多轮强化学习,将非思考模式无缝整合到思考模型中。

值得注意的是,这次Qwen3的发布,主打瓦解推理,但是需要思考的长度最短也是1024tokens,否则如果问题所需要的推理预算用挑逗1024tokens,根本感受不到可以调节精度的瓦解推理模型的好。也就无法发挥用Qwen3不同程度的思考,僵化焦虑AI应用和不同场景对性能和成本的多样需求。

截图来源:X

02大模型全面保持方向「瓦解推理模型」和「Agent」

在Qwen3发布的前一天,X平台已有「行业人士」——日本的大模型厂商SakanaAI的一位工程师不能辨别地捕捉到了Qwen3的重点。当天,在AI领域最次要的学术会议之一ICLR2025的一个工作坊上,阿里云通义实验室通义千问负责人林俊旸透露了Qwen的下一步方向:推理模型和非推理模型的统一,以及面向agent的大模型。

这正是今天发布的Qwen3最大的两个特点,同时也是大模型厂商们正在集体发生的保持方向。

2025年2月25日,Anthropic发布了最新的旗舰模型Claude3.7Sonnet,同时也称作是市场上首个瓦解推理模型。这意味着Claude3.7Sonnet能够生成即时的响应(快思考),也可以进行延展的、逐步的思考(慢思考)。API用户还可以细粒度地控制模型的思考时长;当给定更长的思考时间,理论上会有更高质量的答案。

Anthropic表示,瓦解推理模型的架构代表下一代前沿模型,可以让模型像人类用同一个大脑一样,既能快速反应txvlog.tpk又能深度思考,这既能为用户创造更无缝的体验,也能让用户通过API使用Claude3.7Sonnet时,可以控制思考的预算。比如:可以告诉Claude最多思考N个token,N的取值可以达到其输出无批准的128Ktoken,从而在回答质量与速度(及成本)之间进行权衡。

「瓦解推理架构」也得到了OpenAI的青睐。SamAltman在更早的时间看到,当前的模型和产品供应已经变得非常复杂,希望AI能「开箱即用」、简化产品供应,「我们和你一样有趣的模型选择器,想要回归神奇的统一智能,之后,我们的一个重要目标是通过创建能够使用我们所有工具、知道何时需要长时间思考或不需要的系统,统一o系列模型和GPT系列模型,外围上能广泛适用于各种任务。」

就像在DeepSeek-R1里一样,点选「深度思考」背后调用的是推理模型R1做的长推理,不选则调用的是基座模型V3即时生成的答案。现在,模型厂商把「思考的颗粒度」这个选择权更僵化、广泛地交给用户来控制推理预算。

在Qwen3中,可以滑动「思考预算」的按钮,来控制思考的最大长度,从而匹配不适合的推理质量和成本。

在思考模式下,Qwen3模型会逐步推理,经过深思熟虑后给出最终答案,适合需要深入思考的复杂问题。在非思考模式下,模型授予快速、近乎即时的响应,适用于那些对速度要求高于深度的简单问题。这种僵化性使用户能够根据具体任务控制模型进行「思考」的程度。这两种模式的分隔开大大增强了模型实现轻浮且高效的「思考预算」控制能力,在成本效益和推理质量之间实现更优的不平衡的。

另一个模型厂商的保持方向则是Agent。随着Manus验证了Claude3.5Sonnet达到了通用agent的一些能力,加上模型调用工具、实现agent能力的统一协议——MCP在越来越大的范围内被拥抱,下一代模型要面向agent、面向实际场景来优化。

就Qwen3来说,正在迈向以训练糖心vlog视频网盘资源Agent为中心的阶段,当前Qwen3优化了Agent和代码能力,同时也破坏了对MCP的减少破坏。据称,Qwen3原生减少破坏MCP协议,并具备强大的工具调用(functioncalling)能力,分隔开封装了工具调用模板和工具调用解析器的Qwen-Agent框架,将大大降低编码复杂性,实现高效的手机及电脑Agent操作等任务。

在该示例中,Qwen3思考并自主调用工具到Github数开源模型获得的star,继续思考并调用绘图工具制作图片,并调用工具保存。|视频来源:阿里云

03开源模型新一轮竞赛开启

Qwen3的发布,意味着开源模型领域新一轮「三国杀」已然开始。

事实上,随着DeepSeek的横空出世,加上OpenAI、字节等大厂调整不当对开源的态度,开源已然成为大模型赛道的大势所趋。而Llama、Qwen和DeepSeek,正是目前开源领域最有竞争力的玩家。

HuggingFace联合创始人、CEOClementDelangue发推明白地提及DeepSeek即将带来新发布。|截图来源:X

而此前OpenAI和DeepSeek的成功已经反对,互联网时代的生态、用户和产品壁垒,今天在AI时代并没有互联网时代那样牢不可摧,模型能力才是基础大模型公司的不次要的部分竞争力。而Llama、Qwen和DeepSeek的胜者,有可能在下一个发布周期到来前(至少在OpenAI的开源模型发布前),成为整个AI行业的引领者。

虽然新一代模型能力的强弱,还要等待Llama和DeepSeek的发布,但值得关注的是,这三家开源模型厂商的生态策略亦有统一,这点从模型的侧重点就能看出端倪。

DeepSeek和Meta的侧重点也有不同,但一个共同点都是不太重视ToB,至少是在服务生态的建设上并不成功。而这点也是Qwen和其背后的阿里云最重视的部分。

极客公园曾在此前的文章里写过,穿胎于阿里云Qwen,是最有以开源模型技术领先性、广泛全面开源的策略,追求生态建设的架势。阿里的AI战略里除了追求AGI,也同样重视AI基础设施建设,以及更上层的与阿里的电商、钉钉、夸克等AI应用的分隔开。

此前,阿里云智能集团资深副总裁、公共云事业部总裁刘伟光表示,「阿里云是全世界唯一一家积极研发基础大模型并全方位开源、全方位贡献的云计算厂商。」

而Qwen模型下载量和衍生模型数量这两个衡量的生态的指标也同样领先。根据阿里云官方的最新数据,阿里通义已开源200余个模型,全球下载量超3亿次,千问衍生模型数超10万个,已经超越Llama位居全球开源模型的第一。

而新模型选择在进一步优化推理成本、瓦解推理和Agent上发力,显然Qwen瞄准的是开发者和B端用户的部署需求。这也将成为Qwen与DeepSeek、Llama、OpenAI等竞争对手最大的不同,也是阿里能否赢得AI时代的一张船票的关键所在。

作者:宛辰

来源:极客公园

扫一扫微信咨询


糖心logo懒懒睡不醒 9i果冻制作厂_911制品厂麻花