2023 年我们接了个硬骨头:某直辖市社保中心要稽核过去 10 年的参保档案,2000 万份纸质材料堆在仓库里。

人工翻?算了一下要 300 人干一年。

最后用 OCR 批量数字化 + AI 稽核,72 小时完成初筛,揪出 3.7 万条异常数据。

这 2000 万份档案包括:

  • 参保登记表(手写 + 打印混合)
  • 缴费基数申报表(表格格式)
  • 身份证复印件(各种版本)
  • 劳动合同(A4 扫描,有折痕)
  • 工资发放表(Excel 打印,有些是针式打印机)

每种格式的 OCR 模型都不一样。

1. 文档分类

先用 ResNet50 训练一个分类器,把档案分成 5 类。准确率 98.4%。

2. 分类型 OCR

  • 表格类:用 TableMaster 提取结构化数据
  • 文字类:用 PaddleOCR 通用识别
  • 身份证:用专用身份证 OCR 模型
  • 手写体:用 TrOCR 微调

3. 数据清洗

OCR 输出后做标准化:

  • 身份证号校验(18 位规则)
  • 日期格式统一(YYYY-MM-DD)
  • 金额去逗号、去”元”字
  • 企业名称模糊匹配工商库

数字化后,用规则引擎跑稽核:

规则 1:缴费基数异常

  • 基数低于当地最低工资标准
  • 基数高于社平工资 300%
  • 基数与工资表不一致

规则 2:参保时间异常

  • 参保时间早于成立时间
  • 退休年龄仍在职参保
  • 同一人多单位重复参保

规则 3:身份信息异常

  • 身份证号校验位错误
  • 姓名与身份证不一致
  • 死亡人员仍在参保

72 小时连续运行:

  • 处理档案 2000 万份
  • 提取结构化数据 1.2 亿条
  • 发现异常 3.7 万条
  • 核实后追缴社保费 2.3 亿元

投入产出比:1:47

坑 1:图像质量参差不齐

有些档案是 2010 年扫描的,分辨率只有 150dpi,还有歪斜。我们加了图像增强预处理,包括去噪、锐化、矫正。

坑 2:手写体识别率低

老档案里的手写体,OCR 识别率只有 70%。后来我们收集了 10 万张手写样本微调模型,提升到 89%。

坑 3:表格线识别错误

有些表格线是虚线,OCR 容易把跨单元格的内容当成一格。我们用表格结构识别模型单独处理。

这套方案可以复制到:

  • 医保基金稽核
  • 公积金稽核
  • 税务稽查
  • 审计署专项审计

核心逻辑一样:OCR 数字化 → 结构化提取 → 规则稽核 → 异常上报。

关键词:社保稽核、OCR 批量处理、历史档案数字化、AI 稽核、基金监管