DeepSeek“开源周”发布多项重要成果深度开源助推AI大模型普惠“破圈”_资讯

DeepSeek“开源周”发布多项重要成果深度开源助推AI大模型普惠“破圈”

创始人

2025-03-04 09:23:41

0次

　　DeepSeek“开源周”进一步推动大模型普惠破圈。大模型“开源潮”起，要想继续留在这张“牌桌”上比拼，AI企业未来的发力点在哪？

　　——————————

　　过去的一周，DeepSeek带动的AI（人工智能）大模型“开源潮”热度空前。

　　2月24日，国内AI企业深度求索（DeepSeek）启动“开源周”，计划在一周内，每天开源1个代码库，以完全透明的方式与全球开发者分享他们的研究进展。3月1日，DeepSeek发布《DeepSeek-V3/R1推理系统概览》技术文章，首次公布模型推理系统优化细节，DeepSeek“开源周”就此收官。

　　5天时间，5个核心代码库，一名AI大模型开发者向中青报·中青网记者介绍，DeepSeek此次开源的代码库，基本覆盖了AI大模型开发的关键核心环节，比如硬件性能高效利用、数据处理提速等，有利于降低技术门槛和成本。对此，DeepSeek方面也表示：“希望分享的每一行代码都会变成强有力的势能，加速行业发展进程。”

　　所谓开源，原指在计算机软件开发过程中，源代码可以被访问或获取，感兴趣的人都能查看、修改和分发其中的代码。但在中国工程院院士、之江实验室主任王坚看来，人工智能时代，开源不能仅用开放源代码来表达，其创新的特点应是“Open Resource”，即开放资源。“开源是对社会的贡献，是对全世界的贡献。”王坚说。

　　开源助推大模型破圈

　　以2月24日DeepSeek向公众开源的FlashMLA代码库为例。据了解，MLA（多头潜在注意力机制）可以显著减少AI大模型训练和推理过程中的内存占用。FlashMLA则是针对Hopper GPU（一种英伟达GPU架构）开发的高效MLA解码内核，主要解决大模型处理不同长度文本的问题。

　　“就像统一尺寸的快递箱子，小了要舍弃商品，大了会浪费空间。”快思慢想研究院院长、原商汤智能产业研究院创始院长田丰对记者解释说，FlashMLA就像可随意伸缩的快递箱子，通过精准分配GPU资源，处理可变长度文本序列，实现了MLA的高效解码。

　　除FlashMLA之外，DeepSeek“开源周”开放的DeepEP、DeepGEMM等均是AI大模型开发中会用到的关键技术。“开源就意味着企业把自己的研发成果免费提供给全球开发者，开发者们在不同环境试用或迭代的过程中，会主动找到开源模型的不足并进行完善，进而推动技术的快速迭代更新。”在田丰看来，这就是模型开源的重要价值所在。

　　DeepSeek成立至今，开源是其一贯坚持的策略。今年年初，开源模型DeepSeek-R1横空出世，一时间，DeepSeek“接入潮”涌动，“开源”功不可没。如今，DeepSeek通过“开源周”主动开放核心代码库，扩大开源程度，田丰认为，这将有力助推AI大模型实现模型、算力、应用3个层面的普惠“破圈”。

　　田丰提到，在模型方面，DeepSeek打破了一直以来少数国际巨头对顶尖大模型的技术垄断，使得开发者能够像拼乐高一样，按需组装大模型的核心代码；在算力方面，DeepSeek通过软件优化弥补了硬件上的差距，让全球开发者都可以用个人级算力搞科研创新。在应用方面，田丰预计，基于开源的DeepSeek系列模型，市场上近期可能涌现出上百个行业应用大模型，或将覆盖农业、工业、服务业等。

　　长江证券2月25日发布的研报认为，此次DeepSeek开源代码库，或将围绕降本增效这一核心，通过开源模式与低成本路径，改变此前“大力出奇迹”，即堆算力、堆数据的AI开发逻辑，加速技术普惠化。同时，DeepSeek继续其开源策略，也将进一步加速AI技术平权，并在其基础上催生大量垂类应用，进一步带动算力需求爆发。

　　在AI界有这样一个说法：2023年Meta开源大模型LLaMA为全球开发者带来ChatGPT水平的智能，2025年DeepSeek-R1的开源为大家带来了OpenAI o1水平的智能。如今，开源策略已成为DeepSeek扩大影响力的重要途径。

　　截至2月24日，DeepSeek-R1在国际知名开源社区Hugging Face上已获得上万点赞，成为该平台150万个公开模型中最受欢迎的开源大模型之一。公开信息显示，目前，已有多个团队成功复现了DeepSeek的核心模型，比如Hugging Face的Open-R1、香港科技大学的simpleRL-reason等。

　　“开源模型之间的竞争在于开放程度，众人拾柴火焰高。”田丰提到，他身边就有不少人自己在家里部署了DeepSeek系列模型，并积极地在模型上面创新，训练行业模型。田丰认为，围绕DeepSeek的开源社区生态已经逐渐建立起来，其扩张的速度取决于社区内开发者的数量。“只要我们坚持开源，足够开放，绝对会有越来越多的全球开发者参与进来，为DeekSeek社区作贡献。”他说。

　　真正的“护城河”在哪里

　　值得一提的是，今年1月DeepSeek火爆出圈以来，越来越多的AI厂商开始拥抱开源。今年2月，字节跳动、昆仑万维、百度文心一言等均推出开源模型。2月25日，阿里云旗下视觉生成基座模型万相2.1（Wan）正式开源，阿里云自此实现了全模态、全尺寸大模型的开源。

　　“AI以及整个计算机科学的底层推动逻辑，始终是建立在开源精神之上的。”清华大学计算机科学与技术系长聘副教授、面壁智能创始人刘知远对记者说，通过开源，所有开发者都可以基于已有的、可信赖的技术基石，快速迭代、创新，“未来，开源会更深入、更广泛地应用”。

　　在国内，AI大模型开源似乎已成趋势，但从全球来看，这种趋势尚未统一。比如OpenAI依然坚持走闭源路线，Google则采取混合策略，其核心模型Gemini为闭源产品，Gemma等小型模型则为开源。

　　记者在采访中了解到，对AI企业来说，闭源模式有利于形成技术壁垒，通过控制代码的使用和分发，能够为企业提供稳定的收入来源。反过来，则可能会影响其核心竞争力，这也是投资圈对AI模型开源存在的忧虑之一。

　　“开源的代码或模型只是基础，真正的竞争力往往体现在如何将其打磨、优化，并应用到大规模、复杂的实际场景中。”清华大学计算机系助理研究员、面壁智能首席研究员韩旭认为，单点技术的开源不会削弱其核心优势，反而可能丰富整个行业的生态，“真正的护城河依然掌握在那些能够整合、优化，并持续推进技术演进的企业手中”。

　　大模型“开源潮”涌起，要想继续留在这张“牌桌”上比拼，AI企业未来的发力点在哪？田丰指出，一方面，要进一步提高开源模型的推理能力、计算性能，降低部署门槛。他以DeepSeek-V3为例说，部署该模型的“满血版”依然有一定的算力要求，如果模型部署门槛能进一步降低，将会有更多的开发者拥抱DeepSeek，也会带动更大范围的硬件智能+物联网、软件智能+应用生态链的升级。

　　另一方面，在开源底层基础模型之外，芯片、数据、应用等层面的软硬件协同创新也很关键。“国产GPU、存储系统如何与AI技术深度适配，数据处理模块如何更高效地支持模型运行等，在模型之上，还有大量生态需要中国甚至全球的开发者去补足。”田丰说，这是开源生态构建的重要内容，也是众多企业应该抓住的机会。

　　中青报·中青网记者贾骥业来源：中国青年报

上一篇：走在乡间的大路上——安徽合肥：90后“当家人”领跑乡村振兴路

下一篇：AI大模型潮起年轻人如何应对

DeepSeek“开源周”发布多项重要成果深度开源助推AI大模型普惠“破圈”

相关内容

热门资讯

DeepSeek“开源周”发布多项重要成果 深度开源助推AI大模型普惠“破圈”

相关内容

热门资讯

DeepSeek“开源周”发布多项重要成果深度开源助推AI大模型普惠“破圈”