光学字符识别 (OCR) 是一种利用自动数据提取技术快速将文本图像转换为机器可读格式的技术。

OCR有时也被称为文本识别。OCR程序可以从扫描文档、相机图像和纯图像PDF中提取并重新利用数据。OCR软件识别图像中的字母,将它们组成单词,然后再将单词组成句子,从而实现对原始内容的访问和编辑。它还避免了重复的手动数据录入工作。

OCR系统结合硬件和软件,将纸质印刷文档转换为机器可读文本。硬件(例如光学扫描仪或专用电路板)负责复制或读取文本,而软件通常负责进行高级处理。

OCR软件可以利用 人工智能(AI)技术 ,实现更先进的智能字符识别(ICR)方法,用于识别语言或手写文本。机构通常使用OCR技术将纸质法律或历史文件转换为PDF文档,以便用户能够像使用文字处理软件一样编辑、格式化和搜索这些文档。