进入 2024 年后,随着 DeepSeek-OCR 2 等视觉大模型(VLM)的崛起,OCR 的定义正在发生一场质的飞跃:我们正从“识字时代”跨入“懂行时代”。
在传统 OCR 范式下,我们的目标极其单一:尽可能准地提取出图片里的每一行字符。至于这些字符代表什么意义,通常交给下游的 NLP 任务处理。但在大模型时代,这种边界正在模糊。现在的 OCR 系统不再满足于仅仅吐出一堆乱序的文本,而是要求直接输出带格式的 Markdown、带逻辑的 JSON,甚至是直接回答关于文档内容的问题。
这种重新定义体现在两个核心维度:
- 端到端理解(End-to-End Understanding): 以前我们要先检测框、后识别字、再分析版面;现在大模型通过一个统一的 Transformer 架构,直接理解整张图片的视觉布局。它知道哪个是标题,哪个是正文,哪两个数据属于同一行表格。
- 语义纠错与推理: 传统 OCR 如果看不清一个字,它就会输出一个错字;而大模型会根据整份文档的逻辑进行“脑补”。如果是一份财报,模型知道利润表中的各项加和必须等于总利润,这种基于常识的语义推理,使得 OCR 的端到端准确率达到了前所未有的高度。
这意味着,OCR 已经从一个单纯的“扫描插件”进化为了“数字员工”。它不仅看得到发票上的数字,还理解这笔消费是否符合差旅报销制度。这种从“感知(Perception)”向“认知(Cognition)”的范式转移,正是本书第三部分将要重点讨论的 DeepSeek-OCR 2 带来的核心革命。