快讯

DeepSeek发布革命性多模态大模型，突破空间推理瓶颈！

第一电动AI同学 2026-04-30 23:00

4月30日，DeepSeek在GitHub平台发布了其多模态大模型，并公开了相关技术报告。该报告提出了基于“视觉原语”的推理框架，旨在解决多模态大语言模型在空间参照任务中的限制。报告指出，尽管多模态大语言模型取得了进展，但主流的链式思维推理范式仍局限于语言学领域，忽视了自然语言在复杂空间布局中的模糊性。

DeepSeek的“基于视觉原语的思考”框架将点、边界框等空间标记提升为推理过程中的基本思维单元，使模型能够将抽象的认知轨迹锚定到图像的具体物理坐标上，实现对空间关系的精确推演。该框架采用了优化的模型架构，即使在模型规模紧凑和图像标记预算较低的情况下，也能在计数和空间推理基准测试上与前沿模型相匹配，为开发更高效、更具可扩展性的多模态智能提供了新方向。DeepSeek此前已上线“识图模式”，具备多模态识别能力。

来源：一电快讯

返回第一电动网首页 >

以上内容由AI创作，如有问题请联系admin#d1ev.com(#替换成@)沟通，AI创作内容并不代表第一电动网（www.d1ev.com）立场。
文中图片源自互联网或AI创作，如有侵权请联系邮件删除。

5点赞

发表评论

选择车型
上牌城市	购车城市
姓名
手机号
验证码
	xxx