杨晨度研报1229:关于最热的deepseek模型
发布时间:2024-12-29 文章来源:量学大讲堂
DeepSeek-V3上线,模型性能提升较快。2024年12月,幻方旗下深度求索公司上线DeepSeek-V3系列模型首个版本,较前代模型DeepSeek-V2.5有显著提升。为了深入探索该模型的能力,我们采用了覆盖逻辑、数学、代码、文本等领域的多个问题对模型进行测试,将其生成结果与豆包、Kimi以及通义千问大模型生成的结果进行比较。
通过有限的实测结果,我们发现,DeepSeek总体能力与其他大模型相当,但在逻辑推理和代码生成领域具有自身特点。例如,在密文解码任务中,DeepSeek是唯一给出正确答案的大模型;而在代码生成的任务中,DeepSeek给出的代码注释、算法原理解释以及开发流程的指引最为全面。在文本生成和数学计算能力方面,DeepSeek并未展现出明显优于其他大模型之处。
DeepSeek-V3通过数据与算法层面的优化,大幅提升算力利用效率,实现了协同效应。在大规模MoE模型的训练中,DeepSeek-V3采用了高效的负载均衡策略、FP8混合精度训练框架以及通信优化等一系列优化措施,显著降低了训练成本,以及通过优化MoE专家调度、引入冗余专家策略、以及通过长上下文蒸馏提升推理性能。证明了模型效果不仅依赖于算力投入,即使在硬件资源有限的情况下,依托数据与算法层面的优化创新,仍然可以高效利用算力,实现较好的模型效果。
DeepSeek-V3算力成本降低的原因有两点。第一,DeepSeek-V3采用的DeepSeekMoE是通过参考了各类训练方法后优化得到的,避开了行业内AI大模型训练过程中的各类问题。第二,DeepSeek-V3采用的MLA架构可以降低推理过程中的kv缓存开销,其训练方法在特定方向的选择也使得其算力成本有所降低。
算力依然是推动大模型发展的核心驱动力。DeepSeek-V3通过技术创新和资源优化,大幅降低了成本,展现了算力的高效性。在该技术路线得到充分验证后,有望驱动相关AI应用的快速发展,应用推理驱动算力需求增长的因素也有望得到增强。
以大规模通用模型为基础,聚焦特定领域突出自身特点的模型应用开发或许是下一阶段的商业化探索方向。DeepSeek-V3为未来大模型技术的发展提供了重要启发,未来或将从依赖大规模通用模型转向发展一些更具特色、成本更低、更适合具体应用场景的模型,随着这些特色模型的不断成熟,AI商业化的边际成本有望降低,应用前景更为广阔。