DeepSeek-OCR 底层机理：如何用 Vision-Language 模型重塑文字识别？

zhangmu

作者

📅 2026年02月01日

发布时间

👁️ 15 次

阅读量

⏱️ 1 分钟

阅读时长

一、范式转移：从“检测+识别”到“端到端生成”

传统的 OCR（如 PaddleOCR 或 Tesseract）通常分为两步：

检测（Detection）： 先用一个模型找出文字在哪里，画出框（Bounding Box）。
识别（Recognition）： 再把框里的图切出来，交给另一个模型去猜是什么字。

这种架构的死穴在于：如果第一步框画歪了，第二步就彻底没救。DeepSeek-OCR 彻底抛弃了“框”的概念。 它采用的是端到端生成式架构：图片输入，文字（或 Markdown/JSON）直接输出。

二、核心架构：视觉编码器与大模型的深度融合

DeepSeek-OCR 的强大源于其独特的“双塔”结构：

动态分辨率视觉编码器（Vision Encoder）： 不同于早期模型强制将图片缩放为 224×224（导致小字模糊），DeepSeek-OCR 采用动态切片技术。它会将高清文档切分成多个小块并行处理，确保即使是发票底部的小五号字也能保留清晰的特征。
Decoder-only 语言模型（LLM）： 视觉特征被转化为一系列“视觉 Token”，就像单词一样输入到 DeepSeek 的大模型底座中。这意味着模型不仅在“看”字，还在用强大的语言先验知识“理解”字。

三、核心技术创新：统一坐标表征

为了让模型知道文字在图片上的物理位置，DeepSeek 在训练中引入了坐标 Token。

空间感知： 模型在训练时学习了 (x1, y1, x2, y2) 等位置坐标。
逻辑重建： 即使视觉上文字是错乱的，LLM 也能根据语义将它们重新排列成正确的阅读顺序。这正是它处理多栏报纸或倾斜文档时远超传统 OCR 的原因。

四、训练策略：三阶段进化论

DeepSeek-OCR 的卓越表现并非偶然，而是经过了三个严苛的训练阶段：

大规模预训练： 在数以亿计的“图-文”对上学习基础的文字感知。
结构化专项训练： 针对表格（HTML/Markdown）、数学公式（LaTeX）进行深度强化。
指令微调（SFT）： 让模型听懂指令，例如“只提取金额”或“把结果转成 JSON”。

五、结语：文字识别的“语义化”时代

DeepSeek-OCR 的机理告诉我们：OCR 的未来不再是像素的匹配，而是视觉语义的提取。它不再仅仅识别出“这里有个字”，而是理解“这是一份合同，总金额在右下角”。

发布时间：2026年02月01日 阅读量：15 次

标签： #DeepSeek-OCR

关于作者

zhangmu

资深OCR技术专家

相关文章

GOT-OCR 2.0：全能视觉模型的“大统一”之路

在视觉语言模型（VLM）百花齐放的今天，…

阅读更多 →

从 OCR 到视觉推断：Qwen2-VL 的跨界能力

在多模态人工智能的演进历程中，传统的 O…

阅读更多 →

Qwen2-VL：开启视觉语言模型的新纪元

在人工智能领域，多模态大模型（LMM）正…

阅读更多 →