:广汽丰田suv车型10万-阿里凌晨开源新模型:性能对标DeepSeek-R1,参数仅为其1/20

admin1周前文化3

3月6日凌晨3点,阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B。阿里巴巴称,这是一款拥有320亿参数的模型,其性能可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1媲美,但二者在参数量上相差将近20倍。

据悉,QwQ-32B 在一系列基准测试中进行了评估,测试了数学推理、编程能力和通用能力,并与OpenAI的o1-mini以及DeepSeek满血版及蒸馏版进行了比较。

在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench 中,千问 QwQ-32B表现与DeepSeek-R1相当,远胜于o1-mini及相同尺寸的R1蒸馏模型。

在由Meta首席科学家杨立昆领衔的“最难LLMs评测榜”LiveBench、谷歌等提出的指令遵循能力IFEval评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问QwQ-32B的得分均超越了DeepSeek- R1。

官方介绍称,这一成果突显了将强化学习应用于经过大规模预训练的强大基础模型的有效性。此外,阿里团队还在推理模型中集成了与Agent相关的能力,使其能够在使用工具的同时进行批判性思考,并根据环境反馈调整推理过程。

除了性能上的大幅提升,QwQ-32B的另外一个亮点是大幅降低了部署使用成本,开发者和企业可以在消费级硬件上轻松将其部署到本地设备中。

资料显示,从2023年至今,阿里通义团队已开源200多款模型,包含大语言模型千问Qwen及视觉生成模型万相Wan等两大基模系列,覆盖从0.5B到110B等参数,实现了全模态、全尺寸大模型的开源。

开源社区Hugging Face此前的榜单显示,开源仅6天的阿里万相大模型已反超DeepSeek-R1,登顶模型热榜、模型空间榜两大榜单,成为近期全球开源社区最受欢迎的大模型。根据最新数据,万相2.1(Wan2.1)在Hugging Face及魔搭社区的总下载量已超百万,在Github的Star数超6k。

在通义千问最新推理模型发布并开源后,阿里巴巴股价应声大涨。隔夜美股收盘涨8.61%,报收141.03美元。截至发稿,阿里巴巴港股涨超7%。今年以来,阿里巴巴股价累计涨幅已近70%。

本站非盈利性质,内容来源于互联网。

相关文章

:汽车保险险种一览表-伯克希尔现金储备为何再创新高?巴菲特股东信中透露这些线索

当地时间2月22日,“股神”巴菲特发布了第47封股东信。巴菲特致股东的信被全球投资者奉为“圣经”,不仅因为他治理的公司惊人成功,还因为他在投资和经济方面,有时甚至涉及社会、政治的诙谐博学。今年的信件长...

律师谈工人未系安全带被罚吊门口:对人格尊严、人身自由的侵犯

专题:《5D调查》315消费者守护计划   #工人未系安全带被罚吊门口示众#【#律师谈工人未系安全带被罚吊门口#:对人格尊严、人身自由的侵犯】近日,四川宜宾。一网友路过一处工地时看到3名工人被安全带吊...

中国将对原产于加拿大的菜子油、豌豆等加征100%关税

中国将对原产于加拿大的菜子油、豌豆等加征100%关税

专题:中美贸易政策追踪   加拿大政府宣布,自2024年10月1日起,对中国电动汽车加征100%关税;自2024年10月22日起,对中国钢铁和铝产品加征25%关税。加方单边加征关税的做法罔顾客观事实...

:尼桑天籁2021款报价及图片-问界M9 2025款新增智能隐私车窗

3月14日,据鸿蒙智行消息,2025款问界M9新增智能隐私车窗,支持4档可调。据悉,2025款问界M9将于3月20日正式发布。...

:起亚智跑多少钱-马上评|最高法报告中的“小案”:以司法托举善良诚信公平

3月8日上午,最高人民法院院长张军在十四届全国人大三次会议上作工作报告。几起“小案”被写进了最高法的工作报告中,这些身边的“小事”,或者说身边经常出现的纠纷、可能遭遇的法律困境,也往往是大家内心纠结的...

福特翼虎的手刹怎样正确使用?正确使用手刹对行车安全有何重要性?

福特翼虎的手刹怎样正确使用?正确使用手刹对行车安全有何重要性?

福特翼虎手刹的正确使用方法及重要性在驾驶福特翼虎时,正确使用手刹是确保行车安全的重要环节之一。首先,了解福特翼虎手刹的位置和操作方式。通常,手刹位于驾驶座一侧,手柄或按钮形式。当需要拉起手刹时,应平稳...