开源文字识别领域新霸主! DeepSeek OCR 2:性能超越 Gemini 3 Pro,Token 数剧减 80%

不到三个月的时间,DeepSeek 近日再度于视觉理解(VLM)领域丢出震撼弹,正式发布采用全新升级版光学字符辨识(OCRDeepSeek OCR 2。 这项技术彻底颠覆了传统 AI 对图像「由左至右、由上而下」的机械式扫描模式,改采模仿人类视觉逻辑的灵活处理方式,不仅号称在文件解析精准度上超越了 谷歌 的 Gemini 3 Pro,更实现了前所未有的极高运算效率。

开源文字识别领域新霸主! DeepSeek OCR 2:性能超越 Gemini 3 Pro,Token 数剧减 80% - 安卓手赚网

DeepSeek OCR 2 技术核心:DeepEncoder V2 与「视觉因果流」

DeepSeek OCR 2 之所以强大,在于其底层架构 DeepEncoder V2 的革命性设计「视觉因果流」(Visual Causal Flow):

开源文字识别领域新霸主! DeepSeek OCR 2:性能超越 Gemini 3 Pro,Token 数剧减 80% - 安卓手赚网
  • 舍弃传统组件:研发团队将业界通用的CLIP组件更换为基于Qwen2 0.5B的小型语言模型,强化了系统对细节的初步理解。
  • 模仿人类视线:引入独创的「视觉因果流」(Visual Causal Flow)。 这些可学习的查询 Token 能在正式进入大型语言模型处理前,先根据影像上下文重新组织视觉信息。 这意味着系统是先「看懂」二维画面的关联,而非单纯的像素扫描,这让它在处理排版混乱、布局复杂的文件时具有极大优势。

惊人的效率:用 20% 的算力做更好的事

在性能评测中,DeepSeek OCR 2 展现了令人咋舌的节能效果:

  • Token 消耗极低:一般同类模型解析一张图通常需要 6,000 个以上的 Token,但 DeepSeek OCR 2 仅需 256 至 1,120 个视觉 Token。 这意味着在相同任务下,它能节省约 80% 的运算资源(Token 使用量)。
  • 实测超越旗舰机型:根据 OmniDocBench v1.5 的权威测试,DeepSeek OCR 2 的整体得分高达 91.09%。 在文件解析任务中,其精确度与防止重复文字生成的表现,甚至优于拥有庞大运算预算的谷歌 Gemini 3 Pro。

尽管 DeepSeek OCR 2 在处理高文字密度的极端场景(如微型字体的报纸)仍有进步空间,但其 DeepEncoder V2 架构被视为迈向「统一多模态处理」的重要基石。 研究团队指出,未来此架构有望无缝整合文字、语音与影像,实现真正的全维度内容理解。

目前,DeepSeek 一如往常的将该模型的代码与权重于 GitHub 与 Hugging Face 全面开源,这不仅为开发者提供了极其高效的工具,也预计将加速全球高质量 AI 训练数据集的生成速度。

结语:AI 算力竞赛的转折点?

DeepSeek OCR 2 的出现再次证明:如同当年的 DeepSeek V3 那样,AI 的进化不一定非要靠堆叠算力,通过更优雅的算法与架构设计,同样能达到甚至超越顶级旗舰的效果。 这对于追求高效能、低成本部署的企业与开发者而言,无疑是 2026 年初最重要的一份大礼。

(0)
MobileAficionadoMobileAficionado

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注