社保稽核审计：OCR 批量处理历史档案案例

zhangmu

作者

📅 2026年03月18日

发布时间

👁️ 108 次

阅读量

⏱️ 1 分钟

阅读时长

2023 年我们接了个硬骨头：某直辖市社保中心要稽核过去 10 年的参保档案，2000 万份纸质材料堆在仓库里。

人工翻？算了一下要 300 人干一年。

最后用 OCR 批量数字化 + AI 稽核，72 小时完成初筛，揪出 3.7 万条异常数据。

一、档案类型复杂到想哭

这 2000 万份档案包括：

参保登记表（手写 + 打印混合）
缴费基数申报表（表格格式）
身份证复印件（各种版本）
劳动合同（A4 扫描，有折痕）
工资发放表（Excel 打印，有些是针式打印机）

每种格式的 OCR 模型都不一样。

二、技术方案

1. 文档分类

先用 ResNet50 训练一个分类器，把档案分成 5 类。准确率 98.4%。

2. 分类型 OCR

表格类：用 TableMaster 提取结构化数据
文字类：用 PaddleOCR 通用识别
身份证：用专用身份证 OCR 模型
手写体：用 TrOCR 微调

3. 数据清洗

OCR 输出后做标准化：

身份证号校验（18 位规则）
日期格式统一（YYYY-MM-DD）
金额去逗号、去”元”字
企业名称模糊匹配工商库

三、稽核规则

数字化后，用规则引擎跑稽核：

规则 1：缴费基数异常

基数低于当地最低工资标准
基数高于社平工资 300%
基数与工资表不一致

规则 2：参保时间异常

参保时间早于成立时间
退休年龄仍在职参保
同一人多单位重复参保

规则 3：身份信息异常

身份证号校验位错误
姓名与身份证不一致
死亡人员仍在参保

四、实际效果

72 小时连续运行：

处理档案 2000 万份
提取结构化数据 1.2 亿条
发现异常 3.7 万条
核实后追缴社保费 2.3 亿元

投入产出比：1:47

五、踩过的坑

坑 1：图像质量参差不齐

有些档案是 2010 年扫描的，分辨率只有 150dpi，还有歪斜。我们加了图像增强预处理，包括去噪、锐化、矫正。

坑 2：手写体识别率低

老档案里的手写体，OCR 识别率只有 70%。后来我们收集了 10 万张手写样本微调模型，提升到 89%。

坑 3：表格线识别错误

有些表格线是虚线，OCR 容易把跨单元格的内容当成一格。我们用表格结构识别模型单独处理。

六、可复用场景

这套方案可以复制到：

医保基金稽核
公积金稽核
税务稽查
审计署专项审计

核心逻辑一样：OCR 数字化 → 结构化提取 → 规则稽核 → 异常上报。

—

关键词：社保稽核、OCR 批量处理、历史档案数字化、AI 稽核、基金监管

社保稽核审计：OCR 批量处理历史档案案例

一、档案类型复杂到想哭

二、技术方案

三、稽核规则

四、实际效果

五、踩过的坑

六、可复用场景

关于作者

zhangmu

相关文章

公积金贷款审批：OCR 加速收入证明审核

租房提取便捷化：OCR 自动核验租赁合同

购房提取自动化：OCR 识别房产证 + 合同双证

联系我们