OCR程序分为4种类型,复杂程度依次递增:
简易OCR:分析方法是逐个字符进行模式匹配,将扫描的字符与存储的字形进行比较。由于字体和语言组合众多,可分析的文档类型受到限制。
光学标记识别 (OMR):用于识别已勾选的方框和 其他标记,例如调查问卷中的气泡或表格上的签名,以及徽标、符号和水印。所有这些都可以通过与存储的图像进行匹配来识别,就像简单的 OCR 一样。
智能字符识别 (ICR): 如前所述,ICR 引入了人工智能的强大功能。通过使用 机器学习 或 深度学习,OCR 程序可以像人类一样通过持续的练习和训练来学习阅读。神经网络会反复审查文本,寻找独特的属性:曲线、交叉点、直线和环的位置。
智能单词识别:这是之前 ICR 识别的自然演进,但现在人工智能已经过训练,可以识别单个图像中的单词,最终速度更快。