一、 范式转移:从“检测+识别”到“端到端生成”
传统的 OCR(如 PaddleOCR 或 Tesseract)通常分为两步:
- 检测(Detection): 先用一个模型找出文字在哪里,画出框(Bounding Box)。
- 识别(Recognition): 再把框里的图切出来,交给另一个模型去猜是什么字。
这种架构的死穴在于:如果第一步框画歪了,第二步就彻底没救。DeepSeek-OCR 彻底抛弃了“框”的概念。 它采用的是端到端生成式架构:图片输入,文字(或 Markdown/JSON)直接输出。
二、 核心架构:视觉编码器与大模型的深度融合
DeepSeek-OCR 的强大源于其独特的“双塔”结构:
- 动态分辨率视觉编码器(Vision Encoder): 不同于早期模型强制将图片缩放为 224×224(导致小字模糊),DeepSeek-OCR 采用动态切片技术。它会将高清文档切分成多个小块并行处理,确保即使是发票底部的小五号字也能保留清晰的特征。
- Decoder-only 语言模型(LLM): 视觉特征被转化为一系列“视觉 Token”,就像单词一样输入到 DeepSeek 的大模型底座中。这意味着模型不仅在“看”字,还在用强大的语言先验知识“理解”字。
三、 核心技术创新:统一坐标表征
为了让模型知道文字在图片上的物理位置,DeepSeek 在训练中引入了坐标 Token。
- 空间感知: 模型在训练时学习了
(x1, y1, x2, y2)等位置坐标。 - 逻辑重建: 即使视觉上文字是错乱的,LLM 也能根据语义将它们重新排列成正确的阅读顺序。这正是它处理多栏报纸或倾斜文档时远超传统 OCR 的原因。
四、 训练策略:三阶段进化论
DeepSeek-OCR 的卓越表现并非偶然,而是经过了三个严苛的训练阶段:
- 大规模预训练: 在数以亿计的“图-文”对上学习基础的文字感知。
- 结构化专项训练: 针对表格(HTML/Markdown)、数学公式(LaTeX)进行深度强化。
- 指令微调(SFT): 让模型听懂指令,例如“只提取金额”或“把结果转成 JSON”。
五、 结语:文字识别的“语义化”时代
DeepSeek-OCR 的机理告诉我们:OCR 的未来不再是像素的匹配,而是视觉语义的提取。它不再仅仅识别出“这里有个字”,而是理解“这是一份合同,总金额在右下角”。