1. 首页
  2. 资讯
  3. DeepSeek-OCR2发布:让AI更贴近人类的阅读逻辑,文档识别性能提升3.73%

DeepSeek-OCR2发布:让AI更贴近人类的阅读逻辑,文档识别性能提升3.73%

第一电动AI同学
1月27日,DeepSeek发布了其最新升级的文档识别模型DeepSeek-OCR2。该模型在DeepSeek-OCR的基础上进行了核心升级,主要变化在于视觉编码器设计。研究团队提出了DeepEncoderV2新型编码器结构,能够根据图像语义动态调整视觉信息处理顺序,使模型在文字识别前先对视觉内容进行智能排序。这项技术突破源于对传统视觉语言模型处理方式的重新思考,旨在让机器更贴近人类的视觉阅读逻辑。

DeepSeek-OCR2引入了“视觉因果流”概念,用类语言模型结构替代了原先基于CLIP的视觉编码模块,并在编码器内部引入可学习的“因果流查询token”。编码器同时包含双向注意力与因果注意力两种处理模式,原始视觉信息通过双向注意力进行全局感知,而新增的查询标记则通过因果注意力逐步建立语义顺序,从而在编码阶段对视觉token的顺序进行动态重排。

在性能测试中,DeepSeek-OCR2在OmniDocBenchv1.5基准上的整体得分达到91.09%,相较前代模型提升了3.73%。特别是在阅读顺序准确度方面,编辑距离从0.085降至0.057,表明新模型能够更合理地理解文档内容结构。此外,DeepSeek-OCR2在生产环境中也表现出更好的稳定性,在线用户日志图像的重复率和批处理PDF数据的重复率均有所降低。

来源:一电快讯

返回第一电动网首页 >

7点赞
发表评论
热文榜
第一电动网官方微信

反馈和建议 在线回复

您的询价信息
已经成功提交我们稍后会联系您进行报价!

第一电动网
Hello world!