DeepSeek“开源周”发布多项重要成果 深度开源助推AI大模型普惠“破圈”
创始人
2025-03-04 09:23:41
0

  DeepSeek“开源周”进一步推动大模型普惠破圈。大模型“开源潮”起,要想继续留在这张“牌桌”上比拼,AI企业未来的发力点在哪?

  ——————————

  过去的一周,DeepSeek带动的AI(人工智能)大模型“开源潮”热度空前。

  2月24日,国内AI企业深度求索(DeepSeek)启动“开源周”,计划在一周内,每天开源1个代码库,以完全透明的方式与全球开发者分享他们的研究进展。3月1日,DeepSeek发布《DeepSeek-V3/R1推理系统概览》技术文章,首次公布模型推理系统优化细节,DeepSeek“开源周”就此收官。

  5天时间,5个核心代码库,一名AI大模型开发者向中青报·中青网记者介绍,DeepSeek此次开源的代码库,基本覆盖了AI大模型开发的关键核心环节,比如硬件性能高效利用、数据处理提速等,有利于降低技术门槛和成本。对此,DeepSeek方面也表示:“希望分享的每一行代码都会变成强有力的势能,加速行业发展进程。”

  所谓开源,原指在计算机软件开发过程中,源代码可以被访问或获取,感兴趣的人都能查看、修改和分发其中的代码。但在中国工程院院士、之江实验室主任王坚看来,人工智能时代,开源不能仅用开放源代码来表达,其创新的特点应是“Open Resource”,即开放资源。“开源是对社会的贡献,是对全世界的贡献。”王坚说。

  开源助推大模型破圈

  以2月24日DeepSeek向公众开源的FlashMLA代码库为例。据了解,MLA(多头潜在注意力机制)可以显著减少AI大模型训练和推理过程中的内存占用。FlashMLA则是针对Hopper GPU(一种英伟达GPU架构)开发的高效MLA解码内核,主要解决大模型处理不同长度文本的问题。

  “就像统一尺寸的快递箱子,小了要舍弃商品,大了会浪费空间。”快思慢想研究院院长、原商汤智能产业研究院创始院长田丰对记者解释说,FlashMLA就像可随意伸缩的快递箱子,通过精准分配GPU资源,处理可变长度文本序列,实现了MLA的高效解码。

  除FlashMLA之外,DeepSeek“开源周”开放的DeepEP、DeepGEMM等均是AI大模型开发中会用到的关键技术。“开源就意味着企业把自己的研发成果免费提供给全球开发者,开发者们在不同环境试用或迭代的过程中,会主动找到开源模型的不足并进行完善,进而推动技术的快速迭代更新。”在田丰看来,这就是模型开源的重要价值所在。

  DeepSeek成立至今,开源是其一贯坚持的策略。今年年初,开源模型DeepSeek-R1横空出世,一时间,DeepSeek“接入潮”涌动,“开源”功不可没。如今,DeepSeek通过“开源周”主动开放核心代码库,扩大开源程度,田丰认为,这将有力助推AI大模型实现模型、算力、应用3个层面的普惠“破圈”。

  田丰提到,在模型方面,DeepSeek打破了一直以来少数国际巨头对顶尖大模型的技术垄断,使得开发者能够像拼乐高一样,按需组装大模型的核心代码;在算力方面,DeepSeek通过软件优化弥补了硬件上的差距,让全球开发者都可以用个人级算力搞科研创新。在应用方面,田丰预计,基于开源的DeepSeek系列模型,市场上近期可能涌现出上百个行业应用大模型,或将覆盖农业、工业、服务业等。

  长江证券2月25日发布的研报认为,此次DeepSeek开源代码库,或将围绕降本增效这一核心,通过开源模式与低成本路径,改变此前“大力出奇迹”,即堆算力、堆数据的AI开发逻辑,加速技术普惠化。同时,DeepSeek继续其开源策略,也将进一步加速AI技术平权,并在其基础上催生大量垂类应用,进一步带动算力需求爆发。

  在AI界有这样一个说法:2023年Meta开源大模型LLaMA为全球开发者带来ChatGPT水平的智能,2025年DeepSeek-R1的开源为大家带来了OpenAI o1水平的智能。如今,开源策略已成为DeepSeek扩大影响力的重要途径。

  截至2月24日,DeepSeek-R1在国际知名开源社区Hugging Face上已获得上万点赞,成为该平台150万个公开模型中最受欢迎的开源大模型之一。公开信息显示,目前,已有多个团队成功复现了DeepSeek的核心模型,比如Hugging Face的Open-R1、香港科技大学的simpleRL-reason等。

  “开源模型之间的竞争在于开放程度,众人拾柴火焰高。”田丰提到,他身边就有不少人自己在家里部署了DeepSeek系列模型,并积极地在模型上面创新,训练行业模型。田丰认为,围绕DeepSeek的开源社区生态已经逐渐建立起来,其扩张的速度取决于社区内开发者的数量。“只要我们坚持开源,足够开放,绝对会有越来越多的全球开发者参与进来,为DeekSeek社区作贡献。”他说。

  真正的“护城河”在哪里

  值得一提的是,今年1月DeepSeek火爆出圈以来,越来越多的AI厂商开始拥抱开源。今年2月,字节跳动、昆仑万维、百度文心一言等均推出开源模型。2月25日,阿里云旗下视觉生成基座模型万相2.1(Wan)正式开源,阿里云自此实现了全模态、全尺寸大模型的开源。

  “AI以及整个计算机科学的底层推动逻辑,始终是建立在开源精神之上的。”清华大学计算机科学与技术系长聘副教授、面壁智能创始人刘知远对记者说,通过开源,所有开发者都可以基于已有的、可信赖的技术基石,快速迭代、创新,“未来,开源会更深入、更广泛地应用”。

  在国内,AI大模型开源似乎已成趋势,但从全球来看,这种趋势尚未统一。比如OpenAI依然坚持走闭源路线,Google则采取混合策略,其核心模型Gemini为闭源产品,Gemma等小型模型则为开源。

  记者在采访中了解到,对AI企业来说,闭源模式有利于形成技术壁垒,通过控制代码的使用和分发,能够为企业提供稳定的收入来源。反过来,则可能会影响其核心竞争力,这也是投资圈对AI模型开源存在的忧虑之一。

  “开源的代码或模型只是基础,真正的竞争力往往体现在如何将其打磨、优化,并应用到大规模、复杂的实际场景中。”清华大学计算机系助理研究员、面壁智能首席研究员韩旭认为,单点技术的开源不会削弱其核心优势,反而可能丰富整个行业的生态,“真正的护城河依然掌握在那些能够整合、优化,并持续推进技术演进的企业手中”。

  大模型“开源潮”涌起,要想继续留在这张“牌桌”上比拼,AI企业未来的发力点在哪?田丰指出,一方面,要进一步提高开源模型的推理能力、计算性能,降低部署门槛。他以DeepSeek-V3为例说,部署该模型的“满血版”依然有一定的算力要求,如果模型部署门槛能进一步降低,将会有更多的开发者拥抱DeepSeek,也会带动更大范围的硬件智能+物联网、软件智能+应用生态链的升级。

  另一方面,在开源底层基础模型之外,芯片、数据、应用等层面的软硬件协同创新也很关键。“国产GPU、存储系统如何与AI技术深度适配,数据处理模块如何更高效地支持模型运行等,在模型之上,还有大量生态需要中国甚至全球的开发者去补足。”田丰说,这是开源生态构建的重要内容,也是众多企业应该抓住的机会。

  中青报·中青网记者 贾骥业 来源:中国青年报

相关内容

热门资讯

无人机助力缅甸地震救援 中国救...   中国日报网4月2日电 当地时间3月28日,缅甸发生7.9级地震,多座建筑倒塌,曼德勒等城市成为重...
寻迹中国|外国博主走进河池 体...   河池市是广西最大的茧丝绸主产区,也是我国优质茧丝生产基地。从“东桑西移”到“东绸西移”,近年来,...
东帝汶留学生感受“舌尖上的河西...   来自东帝汶的留学生杰克拉已经在甘肃省张掖市河西学院留学一年,活泼开朗的她对于中国美食一直十分向往...
美国加征关税 全球一片反对   美国白宫计划4月2日宣布对贸易伙伴征收“对等关税”的措施。这被认为是美国本届政府影响范围最广、冲...
美国“关税讹诈”破坏世界经济稳...   美国利用关税手段在全球范围内进行讹诈,已成为世界经济最大的不稳定和不确定因素。面对美国人为制造的...
特朗普关税乱拳开打 为何美国自...   当地时间4月2日,美国总统特朗普在白宫宣布对贸易伙伴征收所谓的“对等关税”措施。此外,特朗普当日...
美国对进口汽车加征25%关税正...   新华社华盛顿4月3日电(记者熊茂伶)美国总统特朗普此前宣布的对进口汽车加征25%关税的措施3日正...
缅甸强震后已发生63次余震   新华社缅甸曼德勒4月3日电(记者张东强)缅甸气象和水文局3日发布报告说,截至当地时间3日8时30...
缅甸强震已致3085人死亡   新华社快讯:缅甸国家管理委员会新闻信息小组发布消息说,截至当地时间4月3日上午8时,缅甸强震已致...
华为、腾讯、招商局....大湾...   从“孔雀东南飞”到“百万英才汇南粤”  今天的广东  比以往任何时候都更加  重视人才、渴求人才...