深度求索DeepSeek推出超大型开源模型DeepSeek-V3

AIFUC

4 个月前

幻方量化旗下深度求索DeepSeek宣布推出其最新成果——DeepSeek-V3，这是一个拥有6710亿个参数的超大型开源人工智能模型。该模型通过Hugging Face平台获得许可发布，并表现出色，超越了Meta的Llama-3.1和阿里巴巴的Qwen等领先的开源模型，同时与OpenAI的GPT-4o和Anthropic的Claude 3.5等闭源模型相媲美。

DeepSeek最初是High-Flyer Capital Management旗下的一个项目，一直致力于开发先进的开源技术。公司认为，DeepSeek-V3是实现通用人工智能（AGI）的重要一步，这种人工智能能够掌握各种人类智力任务。

DeepSeek-V3的核心设计采用了混合专家（MoE）架构，这一创新使得对于任何给定任务，只需激活6710亿个参数中的370亿个即可。这种设计在保持训练和推理效率的同时，实现了强大的任务性能。此外，该模型还采用了辅助无损负载平衡策略和多令牌预测（MTP）等创新技术，进一步提高了生成速度和模型性能。

在训练过程中，DeepSeek-V3处理了14.8万亿个不同的token，通过两个阶段将上下文长度扩展到128,000个token。训练后的改进包括监督微调和强化学习，使模型与人类偏好保持一致，同时保持了准确度和生成长度之间的平衡。

值得一提的是，DeepSeek-V3的开发成本总计仅为557万美元，远低于类似项目如Llama-3.1的开发成本（超过5亿美元）。这凸显了DeepSeek-V3在成本效益方面的优势。

DeepSeek的基准测试表明，DeepSeek-V3是目前最强大的开源AI模型之一。它在中文和数学基准测试中的表现尤为出色，在Math-500上得分为90.2，远高于Qwen的80分。同时，该模型在大多数任务上也可与GPT-4o等闭源模型相媲美。

然而，Anthropic的Claude 3.5在MMLU-Pro和SWE Verified等特定任务中仍保持优势，这为开源AI的未来发展留下了空间。尽管如此，DeepSeek-V3的发布仍然凸显了开源和闭源AI模型之间的日益平等，促进了竞争并减少了对垄断者的依赖。

DeepSeek-V3模型可在GitHub上根据DeepSeek的许可进行访问，企业可以以促销价使用API，有效期至指定日期。该模型的出色性能和实惠价格有望加速人工智能开发的创新，为企业提供多种工具来增强其人工智能驱动的解决方案。

今年5月，DeepSeek率先在国内发起了大模型价格战，进一步推动了人工智能领域的竞争和发展。随着DeepSeek-V3的推出，该公司在人工智能领域的地位将进一步巩固，并有望为行业的未来发展做出更大贡献。

THE END

新闻

深度求索

DeepSeek-V3

支持一下吧

请先登录

深度求索DeepSeek推出超大型开源模型DeepSeek-V3

谷歌发布Gemini 2.0人工智能模型，开启智能体时代新篇章

Character.AI摊上"大事儿"！儿童“受害”，青少年还险自杀？

谷歌地图引入Gemini人工智能，提升用户体验