海康威视与工业视觉：当 OCR 遇上 FPGA

互联网 OCR 追求的是“什么都能认”，工业 OCR 追求的是“在那 10 毫秒里，绝对不能认错”。

在工厂里，OCR 通常运行在 智能相机（Smart Camera） 或者 工控机（IPC） 上。这里没有 Python 的解释器慢吞吞地跑，只有 FPGA、DSP 或者定制的 ASIC 芯片在狂飙。

1. 核心差异：OCV vs OCR

在工业界，我们更多时候是在做 OCV (Optical Character Verification)，而不是 OCR。

OCR：读出这是什么字。（输出："2025-10-01"）
OCV：判断这个字是不是我想要的。（输入："2025-10-01", 摄像头看一眼，输出：True/False）

海康威视等工业厂商的算法核心，在于**“模板匹配”与“缺陷检测”。比如喷码机喷出的点阵字体，可能会出现“断针”（数字 8 变成了 3）。通用的深度学习模型（如 PaddleOCR）可能会脑补成 8，但在工业上这是严重的质量事故**，必须报错剔除。

2. 硬件加速：把算法烧进芯片里

为什么海康的工业相机能做到单秒处理 100 帧以上？因为它们把算法进行了极致的量化（Quantization）和剪枝。

FPGA 加速：在图像传感器（Sensor）出来的瞬间，FPGA 就完成了预处理（二值化、边缘查找）。
模型压缩：模型参数从 FP32（浮点）压缩到 INT8（整型）。虽然精度损失了 0.1%，但推理速度提升了 10 倍，且能跑在低功耗芯片上。

3. 通信协议：告别 HTTP，拥抱 Modbus/TCP

在工业现场，OCR 识别完之后，不是存数据库，而是要告诉 PLC（可编程逻辑控制器）：

“这个产品是合格的，放行。”
“这个产品喷码错了，启动气缸把它踢出去。”

这走的是 Modbus、Profinet 或者 TCP Socket 协议，而不是 REST API。

4. 代码实战：模拟工业级 OCR 触发与剔除逻辑

工业 OCR 的开发通常使用图形化软件（如海康 VisionMaster 或 Cognex ViDi）。但作为程序员，如果我们要用代码实现一个 IPC（工控机） 级的 OCR 检测闭环，逻辑是完全不同的。

下面这段 Python 代码模拟了一个 “软硬结合” 的检测流程：

监听外部硬件触发信号（Trigger）。
调用轻量级模型（这里用 ONNX Runtime 模拟加速后的模型）进行毫秒级推理。
通过 Modbus 协议控制 PLC 执行剔除动作。

Python

import time
import cv2
import numpy as np
import onnxruntime as ort
from pymodbus.client import ModbusTcpClient

# 模拟工业场景配置
PLC_IP = '192.168.1.100'
CAMERA_ID = 0
MODEL_PATH = 'industrial_date_code_int8.onnx' # 量化后的 INT8 模型

class IndustrialInspectionSystem:
    def __init__(self):
        # 1. 初始化硬件连接
        print("连接 PLC...")
        self.plc = ModbusTcpClient(PLC_IP)
        # self.plc.connect() # 实际使用需连接
        
        print("初始化工业相机...")
        self.cap = cv2.VideoCapture(CAMERA_ID)
        # 设置相机为高帧率、低曝光模式（防止运动模糊）
        self.cap.set(cv2.CAP_PROP_FPS, 60)
        self.cap.set(cv2.CAP_PROP_EXPOSURE, -6) 

        # 2. 加载加速推理引擎 (ONNX Runtime)
        # 工业上通常使用 TensorRT 或 OpenVINO，这里用 ONNX 演示
        print("加载 AI 模型 (INT8 Quantized)...")
        self.sess = ort.InferenceSession(MODEL_PATH)
        self.input_name = self.sess.get_inputs()[0].name

    def wait_for_trigger(self):
        """
        模拟等待光电传感器触发信号
        在实际中，这通常是读取 PLC 的某个寄存器或 GPIO 电平
        """
        # 伪代码：while not self.plc.read_coils(address=0, count=1).bits[0]: pass
        time.sleep(0.5) # 模拟生产节拍，每 0.5秒 来一个料
        return True

    def reject_product(self):
        """
        发送信号给 PLC，驱动气缸剔除废品
        """
        print(">> [NG] 剔除信号已发送至 PLC (Modbus Address 10)")
        # self.plc.write_coil(address=10, value=True)

    def process_frame(self, frame):
        # 3. 极速预处理
        # 工业 OCR 往往只关注特定 ROI (Region of Interest) 区域
        # 裁剪出喷码区域，减少推理计算量
        roi = frame[200:400, 300:600] 
        
        # 预处理：转灰度 -> 归一化 -> 增加维度
        img = cv2.cvtColor(roi, cv2.COLOR_BGR2GRAY)
        img = cv2.resize(img, (128, 32))
        input_tensor = img.astype(np.float32) / 255.0
        input_tensor = input_tensor.reshape(1, 1, 32, 128)

        # 4. 推理 (Inference)
        # 这一步在工业 IPC 上要求 < 10ms
        t0 = time.time()
        preds = self.sess.run(None, {self.input_name: input_tensor})
        infer_time = (time.time() - t0) * 1000
        
        # 简单解码演示
        result_text = self.decode_preds(preds)
        return result_text, infer_time

    def decode_preds(self, preds):
        # 这里省略 CTC 解码逻辑，直接返回模拟结果
        return "20251001" 

    def run_loop(self):
        print("--- 系统就绪，开始检测流水线 ---")
        while True:
            # 1. 等待触发 (光电感应)
            if self.wait_for_trigger():
                # 2. 抓拍 (硬触发抓图)
                ret, frame = self.cap.read()
                if not ret: break

                # 3. 算法处理
                text, ms = self.process_frame(frame)
                
                # 4. 逻辑判断 (OCV)
                target_code = "20251001"
                status = "OK"
                if text != target_code:
                    status = "NG"
                    self.reject_product() # 立即剔除
                
                print(f"识别结果: {text} | 状态: {status} | 耗时: {ms:.2f}ms")

if __name__ == "__main__":
    # 注意：运行此代码需要真实的 onnx 模型，这里仅为逻辑演示
    # 实际工业开发中，这套逻辑通常跑在 C++ 环境里
    system = IndustrialInspectionSystem()
    try:
        system.run_loop()
    except KeyboardInterrupt:
        print("停止检测")

5. 什么时候该选海康/工业视觉方案？

如果你的需求符合以下 “三高” 特征，请放弃互联网 OCR，选择海康威视、基恩士（Keyence）或康耐视（Cognex）：

高速度：检测对象是运动的，且每分钟产量超过 60 件。
高精度：容错率为 0。把“生产日期”读错一个数，可能导致整批产品被召回。
高恶劣环境：现场有油污、粉尘、震动，或者没有互联网连接。

总结： 在工业 OCR 里，Python 只是胶水，C++ 和 FPGA 才是底色。 这里不相信“大模型”，只相信“硬实时”。

海康威视与工业视觉：当 OCR 遇上 FPGA

1. 核心差异：OCV vs OCR

2. 硬件加速：把算法烧进芯片里

3. 通信协议：告别 HTTP，拥抱 Modbus/TCP

4. 代码实战：模拟工业级 OCR 触发与剔除逻辑

5. 什么时候该选海康/工业视觉方案？

关于作者

zhangmu

相关文章

文通与中安的“私有化全栈”能力

中国国内 TOP 10 OCR 厂商的技术侧综合盘点

全球 10 大 OCR 技术力量：云端巨头与垂直领域的统治者

海康威视与工业视觉：当 OCR 遇上 FPGA

1. 核心差异：OCV vs OCR

2. 硬件加速：把算法烧进芯片里

3. 通信协议：告别 HTTP，拥抱 Modbus/TCP

4. 代码实战：模拟工业级 OCR 触发与剔除逻辑

5. 什么时候该选海康/工业视觉方案？

关于作者

zhangmu

相关文章

文通与中安的“私有化全栈”能力

中国国内 TOP 10 OCR 厂商的技术侧综合盘点

全球 10 大 OCR 技术力量：云端巨头与垂直领域的统治者

联系我们