Tesseract 是一款可在多种操作系统上使用的光学字符识别引擎。它是免费软件,基于 Apache 许可证发布。本指南将详细介绍我在 Windows 11电脑上安装 Tesseract 的完整步骤。

步骤 1:使用 exe 安装包在 Windows 10 安装 Tesseract OCR

安装语言数据:

sudo port install tesseract-<语言代码>

语言代码列表可在 MacPorts Tesseract 页面与 Homebrew 页面查看。

安装 Windows 版 Tesseract OCR 的第一步,是下载与你的操作系统匹配的 exe 安装程序。

步骤 2:配置安装

接下来需要配置 Tesseract 安装。如果你只需要默认英文环境,全程使用默认选项安装即可。

安装程序语言

这里仅设置安装界面与帮助信息的语言。Tesseract OCR for Windows 支持多语言识别:

Tesseract OCR for Windows 安装程序语言选择界面

Tesseract OCR for Windows 安装程序语言选择界面

Tesseract OCR 安装准备

安装界面建议关闭其他应用程序后再继续。

Tesseract OCR for Windows 安装准备界面

Tesseract OCR for Windows 安装准备界面

选择安装位置

接下来选择安装路径。请务必复制安装路径到文本文件,后续需要将其添加到系统环境变量。

选择安装位置界面]

选择安装位置界面

选择组件

默认已勾选:ScrollView、训练工具、快捷方式、语言数据。若无特殊需求,保持全部勾选即可。

Tesseract OCR for Windows 默认安装组件

[Tesseract OCR for Windows 默认安装组件]

向下滚动展开 “Additional script data”,可选择安装额外的脚本数据,有助于提升特定语种文字提取精度,可按需安装。

可选脚本组件安装项

可选脚本组件安装项

选择开始菜单文件夹

安装最后一步,设置 Tesseract OCR 快捷方式的开始菜单文件夹,我保留默认名称:Tesseract-OCR

选择 Tesseract OCR for Windows 开始菜单文件夹

选择 Tesseract OCR for Windows 开始菜单文件夹

点击安装,Tesseract OCR for Windows 开始安装。下一步将安装路径添加到系统环境变量。

步骤 3:将安装路径添加到环境变量

控制面板

打开开始菜单,搜索 “环境变量”,找到 “编辑系统环境变量”。

路径:开始菜单 → 控制面板 → 编辑系统环境变量。

搜索 “环境变量” 界面

搜索 “环境变量” 界面

系统属性

在弹出的 “系统属性” 窗口,切换到高级选项卡,点击右下角环境变量按钮。

系统属性窗口

系统属性窗口

环境变量

在系统变量区域,点击编辑

环境变量窗口

环境变量窗口

在 “编辑环境变量” 界面,点击新建,粘贴步骤 2 复制的安装路径,然后点击确定

将 Tesseract OCR 安装目录添加到环境变量

添加安装目录到环境变量操作界面

添加安装目录到环境变量操作界面

完成!安装完成并配置环境变量后,即可用测试图片验证安装是否成功。

步骤 4:用测试图片运行 Windows 版 Tesseract OCR

打开命令提示符,输入 tesseract 命令。若出现 Tesseract 使用说明,则安装成功。

检查 Tesseract OCR for Windows 安装成功界面

检查 Tesseract OCR for Windows 安装成功界面

恭喜!你已在 Windows 上成功安装 Tesseract OCR。