今日,英伟达宣布其NVIDIA Blackwell平台已成功适配DeepSeek-V4-Pro和DeepSeek-V4-Flash两款模型,开发者现可通过NVIDIA NIM微服务进行下载部署,或利用SGLang与vLLM框架实现定制化推理。DeepSeek-V4-Pro模型拥有1.6T总参数量和49B激活参数,专为高级推理任务设计;而DeepSeek-V4-Flash则拥有284B总参数量和13B激活参数,旨在提供高速高效的推理服务。两款模型均支持100万Token上下文窗口和最高38.4万Token输出长度,适用于长文本编码、文档分析等核心应用,并遵循MIT开源协议。
实测数据显示,DeepSeek-V4-Pro在NVIDIA GB200NVL72上的性能超过150 tokens/sec/user,而借助vLLM的Day0配方,开发者可在Blackwell B300上快速部署。随着Dynamo、NVFP4及CUDA内核的深度优化,性能有望进一步提升。在部署生态方面,SGLang提供低延迟、均衡及最大吞吐量三种配方,而vLLM框架则支持多节点扩展至100个以上GPU,具备工具调用与推测解码能力。



来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。