2023 年我们接了个硬骨头:某直辖市社保中心要稽核过去 10 年的参保档案,2000 万份纸质材料堆在仓库里。
人工翻?算了一下要 300 人干一年。
最后用 OCR 批量数字化 + AI 稽核,72 小时完成初筛,揪出 3.7 万条异常数据。
这 2000 万份档案包括:
- 参保登记表(手写 + 打印混合)
- 缴费基数申报表(表格格式)
- 身份证复印件(各种版本)
- 劳动合同(A4 扫描,有折痕)
- 工资发放表(Excel 打印,有些是针式打印机)
每种格式的 OCR 模型都不一样。
1. 文档分类
先用 ResNet50 训练一个分类器,把档案分成 5 类。准确率 98.4%。
2. 分类型 OCR
- 表格类:用 TableMaster 提取结构化数据
- 文字类:用 PaddleOCR 通用识别
- 身份证:用专用身份证 OCR 模型
- 手写体:用 TrOCR 微调
3. 数据清洗
OCR 输出后做标准化:
- 身份证号校验(18 位规则)
- 日期格式统一(YYYY-MM-DD)
- 金额去逗号、去”元”字
- 企业名称模糊匹配工商库
数字化后,用规则引擎跑稽核:
规则 1:缴费基数异常
- 基数低于当地最低工资标准
- 基数高于社平工资 300%
- 基数与工资表不一致
规则 2:参保时间异常
- 参保时间早于成立时间
- 退休年龄仍在职参保
- 同一人多单位重复参保
规则 3:身份信息异常
- 身份证号校验位错误
- 姓名与身份证不一致
- 死亡人员仍在参保
72 小时连续运行:
- 处理档案 2000 万份
- 提取结构化数据 1.2 亿条
- 发现异常 3.7 万条
- 核实后追缴社保费 2.3 亿元
投入产出比:1:47
坑 1:图像质量参差不齐
有些档案是 2010 年扫描的,分辨率只有 150dpi,还有歪斜。我们加了图像增强预处理,包括去噪、锐化、矫正。
坑 2:手写体识别率低
老档案里的手写体,OCR 识别率只有 70%。后来我们收集了 10 万张手写样本微调模型,提升到 89%。
坑 3:表格线识别错误
有些表格线是虚线,OCR 容易把跨单元格的内容当成一格。我们用表格结构识别模型单独处理。
这套方案可以复制到:
- 医保基金稽核
- 公积金稽核
- 税务稽查
- 审计署专项审计
核心逻辑一样:OCR 数字化 → 结构化提取 → 规则稽核 → 异常上报。
—
关键词:社保稽核、OCR 批量处理、历史档案数字化、AI 稽核、基金监管