在上周五,DeepSeek 重磅宣布开启连续五天的开源计划,计划开源五大软件库,这一消息在开源领域引发了广泛关注。如今,开源周第二弹震撼来袭,DeepSeek 的行动再次吸引了众多目光。
DeepEP 开源,技术优势显著
今日,DeepSeek 选择先在 GitHub 上线关键成果,随后在官推发布更新通知,宣布将 DeepEP 正式向公众开放。消息一经宣布,便迅速引发热烈反响,在短短约 20 分钟内,DeepEP 在 GitHub、微软(MSFT.US)等平台上收获了超过 1000 个 Star 收藏。
据悉,DeepEP 是 MoE 模型训练和推理的 Expert Parallelism 通信基础。它能够实现高效优化的全到全通信,全力支持包括 FP8 在内的低精度计算,在现代高性能计算场景中表现出色。DeepEP 还针对从 NVLink 到 RDMA 的非对称带宽转发场景进行了深度优化,不仅能提供高吞吐量,还支持对流式多处理器数量进行控制,从而在训练和推理任务中实现卓越的高吞吐量性能。
DeepSeek 在官推介绍,DeepEP 作为首个用于 MoE 模型训练和推理的开源 EP 通信库,具备诸多显著特点:它拥有高效且优化的全对全通信功能,借助 NVLink 和 RDMA 支持节点内和节点间通信;具备用于训练和推理预填充的高吞吐量内核,以及用于推理解码的低延迟内核;原生支持 FP8 调度,同时提供灵活的 GPU 资源控制,可实现计算与通信的重叠。
资料显示,采用混合专家(MoE)架构的大型语言模型在未显著增加计算量的情况下,大幅提升了模型容量。不过,这种架构也带来了挑战,尤其是在 GPU 之间的通信方面。在 MoE 模型中,对于任意给定令牌,仅有部分专家处于活动状态,因此在设备间高效交换数据至关重要。传统全对全通信方法易形成瓶颈,导致延迟增加和 GPU 资源利用率低下。在对延迟敏感的实时推理等场景中,即使极微小的延迟也会影响整体性能。而 DeepSeek 推出的 DeepEP,正是专门为 MoE 模型和专家并行(EP)设计的通信库,有效解决了在 GPU 之间调度和聚合令牌时存在的低效率问题。该通信库提供高吞吐量、低延迟的全对全 GPU 内核(通常称为 MoE 调度和组合内核),极大简化了训练和推理过程中的数据交换。值得一提的是,DeepEP 支持低精度操作(包括 FP8),与 DeepSeek – V3 论文中详述的技术一致,此版本切实应对了在节点内和节点间环境中扩展 MoE 架构的挑战。此外,DeepEP 通过自适应配置进一步提升灵活性,用户可调整正在使用的 SM 数量等参数,或设置环境变量来管理流量隔离。低延迟内核目前支持的自适应路由有助于在高负载下均匀分配网络流量,从而增强稳健性。
DeepSeek 相关动态与市场影响
券商中国记者在 DeepSeek API 开放平台留意到,DeepSeek 已重新开放 API 充值。此前,由于资源紧张,DeepSeek 曾一度暂停充值。如今,DeepSeek – Chat 模型优惠期结束,调用价格已变更为每百万输入 tokens 2 元,每百万输出 tokens 8 元。
据路透社消息,中国企业推出的低成本人工智能模型 DeepSeek,显著推动了模型所使用的英伟达人工智能芯片在中国市场的需求增长。路透社援引知情人士消息称,多家互联网巨头对同款 H20 芯片的订单出现激增。与此同时,中国医疗保健、教育等领域规模较小的企业也开始采购配备 DeepSeek 人工智能模型和英伟达 H20 芯片的服务器。在此之前,通常只有财力更为雄厚的金融和电信领域企业才会采购人工智能计算系统。报道指出,尽管美国政府正探讨进一步收紧对华出口芯片的限制,这可能在一定程度上促使芯片订单增加,但知情人士认为,DeepSeek 才是推动订单增长的主要因素。
此外,除了 DeepSeek 的一系列动作,阿里 Qwen 团队今日早间在社交媒体宣布发布新推理模型 —— 深度思考(QwQ)。这是在 QWQ – MAX – PREVIEW 支持下,一个基于 Qwen2.5 – Max 的推理模型。QwQ 可同时支持深度思考和联网搜索,并会展示完整的思维链。Qwen 团队称,QWQ – MAX 官方版本即将发布,同步还会发布 Android 和 iOS 应用程序,并且会推出更小的可在本地设备部署的模型,如 QWQ – 32B 等。随着这些模型的推出,对算力的需求无疑将大幅增长。今日,智算龙头公司寒武纪一度大涨近 5%,股价突破 818 元。GPU 概念股也再度冲高,北京君正涨逾 6%,龙芯中科涨逾 3% ,市场对相关领域的关注度和投资热情正不断攀升。