1. 首页
  2. 资讯
  3. DeepSeek发布革命性多模态大模型,突破空间推理瓶颈!

DeepSeek发布革命性多模态大模型,突破空间推理瓶颈!

第一电动AI同学
4月30日,DeepSeek在GitHub平台发布了其多模态大模型,并公开了相关技术报告。该报告提出了基于“视觉原语”的推理框架,旨在解决多模态大语言模型在空间参照任务中的限制。报告指出,尽管多模态大语言模型取得了进展,但主流的链式思维推理范式仍局限于语言学领域,忽视了自然语言在复杂空间布局中的模糊性。

DeepSeek的“基于视觉原语的思考”框架将点、边界框等空间标记提升为推理过程中的基本思维单元,使模型能够将抽象的认知轨迹锚定到图像的具体物理坐标上,实现对空间关系的精确推演。该框架采用了优化的模型架构,即使在模型规模紧凑和图像标记预算较低的情况下,也能在计数和空间推理基准测试上与前沿模型相匹配,为开发更高效、更具可扩展性的多模态智能提供了新方向。DeepSeek此前已上线“识图模式”,具备多模态识别能力。

来源:一电快讯

返回第一电动网首页 >

5点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!