IT商业科技网

当前位置: 主页 > 滚动 >

阿里巴巴的Qwen AI模型助力斯坦福、伯克利能够开发出低成本推理模型

来源:未知    时间:2025-04-15 11:36

  斯坦福的S1和伯克利的TinyZero是研究人员越来越多地使用阿里巴巴技术降低AI训练成本的两个例子。随着美国计算机科学家(包括著名的华裔“AI教母”李飞飞)利用阿里巴巴的开源Qwen2.5模型,以不到50美元的成本训练出一种新的推理模型,在中国DeepSeek取得突破性成功后,生产最便宜且性能顶尖的人工智能(AI)模型的竞赛正在升温。

  根据上周发表的一篇研究论文,S1推理模型是由斯坦福大学(李飞飞工作的地方)和华盛顿大学的研究人员在阿里巴巴的Qwen2.5-32b-Instruct模型基础上开发的。

  阿里巴巴模型的能力是中国正在缩小与领先美国AI企业差距的最新证据。此前,DeepSeek发布的低成本、高性能开源模型已引起全球关注。阿里巴巴在香港上市的股票本周一上涨了6%。

  根据论文,S1模型在经过1000个精心设计的问题答案和从谷歌Gemini思维实验模型中蒸馏的“思维过程”训练后,在数学和编程技能上超越了OpenAI的o1-preview模型。

  根据研究中提到的计算,仅用于开发S1的图形处理单元(GPU)运行成本可能低至14美元。论文指出,该模型在16个Nvidia H100上训练了26分钟。这些芯片可以以每小时2美元的价格租用。

  加州大学伯克利分校的计算机科学家Pan Jiayi表示,以如此低的成本(大约相当于纽约熟食店一个三明治的价格)训练一个强大的推理模型的关键在于基础模型。“基础模型的质量是关键,”他说。

  Pan Jiayi的团队在启动一个项目时得出了这一结论。该项目成功复制了DeepSeek-R1模型在倒计时游戏(一种需要模型达到目标数字的算术运算)和乘法任务中的推理能力。该团队的TinyZero项目也是在一系列Qwen2.5模型的基础上构建的,成本约为30美元。

  通过使用强化学习,Pan Jiayi的团队从使用5亿参数的Qwen2.5版本升级到70亿参数的版本。Pan Jiayi在X(前身为Twitter)上表示,一旦使用15亿参数的模型,它就开始“学习搜索、自我验证和修正解决方案,从而使其能够获得更高的分数”。

  S1和TinyZero都选择了阿里巴巴的Qwen2.5,因为该模型的开源代码允许任何人访问和修改基础模型,并且其性能表现出众。

  阿里巴巴的云计算部门于去年9月首次推出Qwen2.5系列,参数规模从5亿到720亿不等。参数是指AI系统在训练过程中存在的变量。AI模型的复杂性和有效性在很大程度上取决于训练过程中涉及的参数规模。

  在发布时,该系列最大的模型Qwen2.5-72b的表现优于其他开源竞争对手模型,包括Meta Platforms的Llama3.1-405b,尽管后者规模更大。

  根据当时的基准测试,其性能也与微软支持的OpenAI和亚马逊支持的Anthropic的顶级闭源模型相当。

  Qwen2.5是全球最大的深度学习和AI模型社区Hugging Face上去年下载量最多的模型,取代了Meta的Llama系列,成为全球研究人员和开发人员的首选。这也解释了为什么越来越多的全球计算机科学家正在通过在Qwen模型上进行实验来增强AI系统。

  OpenAI的GPT系列等顶级模型并非开源,因此无法下载用于此类研究。

  在本月早些时候发表的一篇论文中,上海交通大学的计算机科学家展示了一种使用高质量训练样本来增强AI系统推理能力的方法,该实验也以Qwen模型为基础。

  加拿大滑铁卢大学计算机科学助理教授Chen Wenhu表示:“Qwen模型确实有一些神奇之处。”

  Chen Wenhu在X上写道,他的团队尝试使用相同质量的数据方法训练其他模型,但几乎没有取得任何进展。

声明:来源非IT商业科技网的作品均转载自其它媒体,转载请尊重版权保留出处,一切法律责任自负。文章内容仅供阅读,不构成投资建议,请谨慎对待。投资者据此操作,风险自担。转载稿件或作者投稿可能会经编辑修改或者补充, 如有异议可投诉至:Email:342 4350 938@qq.com

频道精选
如何了解房产项目的实际状况?这种实际

如何了解房产项目的实际状况?这种实际

在购房过程中,了解房产项目的实际状况至关重要。这不仅能帮助购房者做出明智的决策,还能避免潜在的风险和损失。那么,如何深入了解房产项目的实际状况呢? 首先,可以通过实
2025-04-15
钢铁价格为何上涨?这种上涨会带来哪些

钢铁价格为何上涨?这种上涨会带来哪些

钢铁价格上涨的原因及影响 钢铁作为重要的工业原材料,其价格的波动备受关注。近期钢铁价格出现上涨,原因是多方面的。 首先,需求的增加是推动钢铁价格上涨的重要因素。随着
2025-04-15
KEEP早盘涨超7% 公司近日提出“All in AI”战

KEEP早盘涨超7% 公司近日提出“All in AI”战

KEEP(03650)早盘持续上扬,股价上涨7.18%,现报7.02港元,成交额1.23亿港元。 近日,KEEP创始人王宁发布名为《十载同行,向新而生》的全员信,当中提到对于下一个十年的发展有四个方
2025-04-15
铂睿的配置怎么样?这款车的安全性如何

铂睿的配置怎么样?这款车的安全性如何

铂睿:配置与安全性的深度剖析 在汽车市场中,车辆的配置和安全性一直是消费者关注的重点。今天,我们就来深入探讨一下铂睿在这两个方面的表现。 首先,从配置方面来看,铂睿
2025-04-15
外六角螺丝的拆卸方法是什么?这些方法

外六角螺丝的拆卸方法是什么?这些方法

外六角螺丝在汽车中的广泛应用与拆卸方法 在汽车的制造和维修过程中,外六角螺丝是一种常见的紧固部件。了解其正确的拆卸方法对于顺利进行汽车维护和修理工作至关重要。 常见
2025-04-15
助力银发经济发展,我国将增开老年人旅

助力银发经济发展,我国将增开老年人旅

记者 辛圆 随着我国人口老龄化的步伐加快,银发群体逐渐成为旅游市场的重要参与者。 据央视新闻报道,商务部、文化和旅游部等9单位周二发布《关于增开银发旅游列车促进服务消费
2025-04-15
东风集团股份盘中涨超7% 控股股东筹划重

东风集团股份盘中涨超7% 控股股东筹划重

东风集团股份(00489)盘中一度涨超7%,该股昨日大涨逾25%。截至发稿,股价上涨3.94%,报4.22港元,成交额8.50亿港元。 东风集团股份2月9日公布,控股股东东风公司正与其他国资央企集
2025-04-15
如何寻找合适的现金比率以优化财务状况

如何寻找合适的现金比率以优化财务状况

在优化财务状况的过程中,寻找合适的现金比率至关重要。现金比率是衡量企业短期偿债能力的一个重要指标,它反映了企业即时变现资产用于偿还流动负债的能力。 首先,要明确现金
2025-04-15
如何理解原油交易的计算方法?这种计算

如何理解原油交易的计算方法?这种计算

原油交易作为金融市场中的重要组成部分,其计算方法对于投资者来说至关重要。 首先,我们来了解一下原油交易的基本计算方法。在原油交易中,价格通常以每桶为单位进行报价。交
2025-04-15
如何正确理解银转证的含义?这种理解对

如何正确理解银转证的含义?这种理解对

银转证,资金流转的关键通道 在金融领域中,“银转证”是一个常见但又至关重要的概念。银转证,简单来说,指的是将资金从银行账户转移到证券账户的操作。这一过程对于投资者的
2025-04-15

2017-2019 Copyright © IT商业科技网 备案许可证号粤ICP备2022153948号 豫公网安备110102003388号

紧急处理QQ:133 4673 445@qq.com