4月30日,DeepSeek在GitHub平台发布了其多模态大模型,并公开了相关技术报告。该报告提出了基于“视觉原语”的推理框架,旨在解决多模态大语言模型在空间参照任务中的限制。报告指出,尽管多模态大语言模型取得了进展,但主流的链式思维推理范式仍局限于语言学领域,忽视了自然语言在复杂空间布局中的模糊性。
DeepSeek的“基于视觉原语的思考”框架将点、边界框等空间标记提升为推理过程中的基本思维单元,使模型能够将抽象的认知轨迹锚定到图像的具体物理坐标上,实现对空间关系的精确推演。该框架采用了优化的模型架构,即使在模型规模紧凑和图像标记预算较低的情况下,也能在计数和空间推理基准测试上与前沿模型相匹配,为开发更高效、更具可扩展性的多模态智能提供了新方向。DeepSeek此前已上线“识图模式”,具备多模态识别能力。


来源:一电快讯
返回第一电动网首页 >
以上内容由AI创作,如有问题请联系admin#d1ev.com(#替换成@)沟通,AI创作内容并不代表第一电动网(www.d1ev.com)立场。
文中图片源自互联网或AI创作,如有侵权请联系邮件删除。