文 | 上海数据交易所研究院
DeepSeek作为一家新兴的中国AI公司,以其高效、开源且低成本的大模型(DeepSeek-R1和DeepSeek-V3)迅速崛起,挑战了硅谷所代表的AI开发范式。其创新路径的三个关键因素包括:市场驱动的自主创新、算法与硬件的协同创新,以及数据与AI的相互促进。
一
市场驱动的自主创新
1.“从市场来”:好奇心驱使的技术理想主义
DeepSeek的诞生肇因于市场的自发探索,并非政府规划或政策扶持。技术自有其内在逻辑,这是一条自我迭代的路径,中间道路往往是曲折的,无法预计也难以规划。梁文锋在接受采访时反复提及他做DeepSeek的目的就是满足好奇心,招聘新员工时最看重的也是这些人是否有足够的好奇心。正如OpenAI研究员Kenneth Stanley在《为什么伟大不能被计划》所提及的,明确的预设目标往往不能导致伟大的创新,最重要的是由兴趣引出的一块又一块踏脚石连接而成的创新链条。
2.“往市场去”:开源生态的技术普惠主义
通过诚意满满的开源,DeepSeek吸引了全球开发者参与优化,形成“技术平权”效应。一是直接开源671B模型,并发布了多个流行架构下的蒸馏模型,这些模型在多项任务中性能对标OpenAI o1-mini,为资源有限的中小企业提供了高效解决方案。二是采用宽松的MIT开源协议,允许任何人自由使用和修改,并支持二次商业开发,允许用户利用模型输出进行蒸馏训练,显著降低技术门槛。三是发布的论文及技术报告包含大量技术细节,V3模型和R1模型的论文分别长达50页和150页,被称为开源社区里“最详细的技术报告”。这意味着拥有相似资源的个人或企业可以按照这一“说明书”复现模型。
DeepSeek不做垂类应用,而是做研究和探索,并通过开源来赋能千行百业。梁文锋判断,当前阶段是技术创新的爆发期,而不是应用的爆发期。长远来说DeepSeek希望形成一种生态,就是业界直接使用其技术和产出,DeepSeek只负责基础模型和前沿创新,然后其它公司在其基础上构建to B、to C的业务。“只要市场能自发形成完整的产业上下游,DeepSeek就不会做应用”。
DeepSeek的目标是用低成本、高性能技术,打破国际巨头在人工智能领域的垄断。梁文锋访谈中提到“在颠覆性的技术面前,闭源形成的护城河是短暂的。即使OpenAI闭源,也无法阻止被别人赶超。所以我们把价值沉淀在团队上,积累很多know-how,形成可以创新的组织和文化,这就是我们的护城河。我们不会闭源,我们认为先有一个强大的技术生态更重要”。
二
“算法-硬件”协同创新
1.算法创新降低硬件依赖
纯强化学习(RL)范式及GRPO算法减少了对人类标注数据的数据依赖,降低硬件需求。DeepSeek-R1最大的训练范式创新是纯强化学习(RL)的应用。一是减少数据预处理需求,减轻数据存储与运输负担。以RL增强模型的推理能力,跳过传统的监督微调(SFT),直接用规则定义奖励,减少了数据预处理和存储需求,降低了硬盘容量和数据传输的硬件要求。二是避免传统价值模型计算,降低GPU计算需求。GRPO优化了训练效率,减少对大规模标注数据和复杂价值模型的需求,从而降低计算资源消耗,使模型在较少硬件支持下也能实现高性能。
2.硬件优化提高资源利用率
DeepSeek在计算、存储、通信等多方面进行优化,提高了硬件利用率和模型训练效率。例如,使用更底层的PTX代码优化GPU计算,提升硬件资源利用率;通过DualPipe算法,实现了重叠前向和后向计算与通信从而减少了流水线气泡,实现了近乎零开销的跨节点通信。从效果看,DeepSeek训练成本显著低于竞争对手,DeepSeek V3的全部训练成本总计仅为557.6万美元,而其对标的OpenAI GPT-4则需1亿美元。这种协同创新使DeepSeek能够在资源受限的情况下(如受美国芯片出口限制影响)仍取得高性能,挑战了传统依赖大规模算力堆积的AI开发模式,并通过适配国产芯片带动了算力市场从“英伟达依赖”向“多元适配”转型。
三
数据与AI的双向赋能
1.高质量数据推动AI进化
DeepSeek模型的训练依赖高精度数据集。例如其R1模型在数学和编码任务上表现优异,部分归功于其训练数据的高质量和多样性,资料显示,其训练数据包括14.8万亿个高质token,涵盖多种领域。同时,诸多迹象表明DeepSeek使用了模型使用了数据蒸馏技术,即利用别的大模型的高精度原始复杂数据进行了训练,从而得到更精炼准确的结果。
2.AI推动数据行业价值释放
DeepSeek同时表明,AI的数据优化能力可实现数据价值释放的指数级增长,即增强的AI能力反过来促进数据行业的进步。例如,DeepSeek模型可用于数据总结、洞察提取和生成新数据,提升数据利用效率。传统数据预处理需要耗费大量人力进行清洗与标注,而DeepSeek-R1的主动学习框架可通过模型自动识别低质量数据并生成标注建议。通过开源模型,更多开发者可使用这些工具,间接促进数据生态系统的发展。
DeepSeek的创新之路揭示了一条市场驱动、算法-硬件协同创新、数据-AI相互赋能的人工智能发展路径。上海数据交易所也将一如既往秉承共识共创、互利共赢、高效智能的创新精神,借助人工智能、区块链、数据空间等构建创新的数据交易智能应用,提供更精准、更便捷、更高效的数据搜寻、供需匹配、产品评价服务,帮助客户洞察数据交易市场的潜在商机,繁荣数据要素市场创新生态。