深度求索DeepSeek推出超大型开源模型DeepSeek-V3

用户头像
AIFUC
4 个月前
0
28
0
新闻图片

幻方量化旗下深度求索DeepSeek宣布推出其最新成果——DeepSeek-V3,这是一个拥有6710亿个参数的超大型开源人工智能模型。该模型通过Hugging Face平台获得许可发布,并表现出色,超越了Meta的Llama-3.1和阿里巴巴的Qwen等领先的开源模型,同时与OpenAI的GPT-4o和Anthropic的Claude 3.5等闭源模型相媲美。

DeepSeek最初是High-Flyer Capital Management旗下的一个项目,一直致力于开发先进的开源技术。公司认为,DeepSeek-V3是实现通用人工智能(AGI)的重要一步,这种人工智能能够掌握各种人类智力任务。

DeepSeek-V3的核心设计采用了混合专家(MoE)架构,这一创新使得对于任何给定任务,只需激活6710亿个参数中的370亿个即可。这种设计在保持训练和推理效率的同时,实现了强大的任务性能。此外,该模型还采用了辅助无损负载平衡策略和多令牌预测(MTP)等创新技术,进一步提高了生成速度和模型性能。

在训练过程中,DeepSeek-V3处理了14.8万亿个不同的token,通过两个阶段将上下文长度扩展到128,000个token。训练后的改进包括监督微调和强化学习,使模型与人类偏好保持一致,同时保持了准确度和生成长度之间的平衡。

值得一提的是,DeepSeek-V3的开发成本总计仅为557万美元,远低于类似项目如Llama-3.1的开发成本(超过5亿美元)。这凸显了DeepSeek-V3在成本效益方面的优势。

DeepSeek的基准测试表明,DeepSeek-V3是目前最强大的开源AI模型之一。它在中文和数学基准测试中的表现尤为出色,在Math-500上得分为90.2,远高于Qwen的80分。同时,该模型在大多数任务上也可与GPT-4o等闭源模型相媲美。

然而,Anthropic的Claude 3.5在MMLU-Pro和SWE Verified等特定任务中仍保持优势,这为开源AI的未来发展留下了空间。尽管如此,DeepSeek-V3的发布仍然凸显了开源和闭源AI模型之间的日益平等,促进了竞争并减少了对垄断者的依赖。

DeepSeek-V3模型可在GitHub上根据DeepSeek的许可进行访问,企业可以以促销价使用API,有效期至指定日期。该模型的出色性能和实惠价格有望加速人工智能开发的创新,为企业提供多种工具来增强其人工智能驱动的解决方案。

今年5月,DeepSeek率先在国内发起了大模型价格战,进一步推动了人工智能领域的竞争和发展。随着DeepSeek-V3的推出,该公司在人工智能领域的地位将进一步巩固,并有望为行业的未来发展做出更大贡献。

THE END
新闻
深度求索
DeepSeek-V3
支持一下吧
点赞
评论 (0)
请先登录