【DeepSeek 于 AIHuggingFace 发布新模型 DeepSeek-Prover-V2-671B】30 日,DeepSeek 在 AIHuggingFace 推出新模型。据悉,该模型使用更高效的 safetensors 文件格式,支持多种计算精度,参数达 6710 亿,或为去年发布的 Prover-V1.5 数学模型升级版本。其在模型架构上使用 DeepSeek-V3 架构,采用 MoE 模式,有 61 层 Transformer 层、7168 维隐藏层,支持超长上下文,最大位置嵌入达 16.38 万,还采用 FP8 量化,能减小模型大小,提高推理效率。
(责任编辑:刘畅)