OCR 引擎或 OCR 软件通过以下步骤工作:

图像采集
扫描仪读取文档并将这些文档转换为二进制数据。OCR 软件分析扫描的图像,将淡色区域分类为背景,将深色区域分类为文本。

预处理
OCR 软件首先清理图像并删除错误,以为读取做好准备。以下为其使用的一些清理技术:

扫描期间,对扫描文档进行轻微的偏移校正或倾斜,以修复对齐问题。
去除杂点、移除数字图像斑点或平滑文本图像边缘。
清理图像中的边框和线条。
多语言 OCR 技术的脚本识别
文本识别
OCR 软件用于文本识别的 OCR 算法或软件流程的两个主要类型为模式匹配和特征提取。

模式匹配
模式匹配分离字符图像(称为标志符号),并将其与存储的类似标志符号进行对比。模式匹配仅在存储的标志符号具有与输入的标志符号类似的字体和大小时才能发挥作用。对于以已知字体输入的文档的扫描图像,此方法效果很好。

特征提取
特征提取将标志符号分割或分解为线条、闭环、线条方向和线条焦点等特征。然后,其使用这些特征在存储的多种标志符号中查找最佳匹配或最相近的匹配。

后处理
分析后,系统将提取的文本数据转换为机器可读的文本文件。某些 OCR 系统可以创建带注释的 PDF 文件,内含扫描文档的扫描前后版本。