开源文字识别领域新霸主！ DeepSeek OCR 2：性能超越 Gemini 3 Pro，Token 数剧减 80%

不到三个月的时间，DeepSeek 近日再度于视觉理解（VLM）领域丢出震撼弹，正式发布采用全新升级版光学字符辨识（OCR）DeepSeek OCR 2。这项技术彻底颠覆了传统 AI 对图像「由左至右、由上而下」的机械式扫描模式，改采模仿人类视觉逻辑的灵活处理方式，不仅号称在文件解析精准度上超越了谷歌的 Gemini 3 Pro，更实现了前所未有的极高运算效率。

DeepSeek OCR 2 技术核心：DeepEncoder V2 与「视觉因果流」

DeepSeek OCR 2 之所以强大，在于其底层架构 DeepEncoder V2 的革命性设计「视觉因果流」（Visual Causal Flow）：

舍弃传统组件：研发团队将业界通用的CLIP组件更换为基于Qwen2 0.5B的小型语言模型，强化了系统对细节的初步理解。
模仿人类视线：引入独创的「视觉因果流」（Visual Causal Flow）。这些可学习的查询 Token 能在正式进入大型语言模型处理前，先根据影像上下文重新组织视觉信息。这意味着系统是先「看懂」二维画面的关联，而非单纯的像素扫描，这让它在处理排版混乱、布局复杂的文件时具有极大优势。

惊人的效率：用 20% 的算力做更好的事

在性能评测中，DeepSeek OCR 2 展现了令人咋舌的节能效果：

Token 消耗极低：一般同类模型解析一张图通常需要 6,000 个以上的 Token，但 DeepSeek OCR 2 仅需 256 至 1,120 个视觉 Token。这意味着在相同任务下，它能节省约 80% 的运算资源（Token 使用量）。
实测超越旗舰机型：根据 OmniDocBench v1.5 的权威测试，DeepSeek OCR 2 的整体得分高达 91.09%。在文件解析任务中，其精确度与防止重复文字生成的表现，甚至优于拥有庞大运算预算的谷歌 Gemini 3 Pro。

尽管 DeepSeek OCR 2 在处理高文字密度的极端场景（如微型字体的报纸）仍有进步空间，但其 DeepEncoder V2 架构被视为迈向「统一多模态处理」的重要基石。研究团队指出，未来此架构有望无缝整合文字、语音与影像，实现真正的全维度内容理解。

目前，DeepSeek 一如往常的将该模型的代码与权重于 GitHub 与 Hugging Face 全面开源，这不仅为开发者提供了极其高效的工具，也预计将加速全球高质量 AI 训练数据集的生成速度。