一、2000 万份档案:一个地市级社保中心的”历史包袱”

2024 年 3 月,某地市级社保中心迎来了一位新主任。上任第一周,他被带到一个地方——档案库。

推开门,映入眼帘的是密密麻麻的密集架,架子上堆满了泛黄的纸质档案。工作人员告诉他:”这是 1995 年到 2020 年的参保单位档案,大约 2000 万份。每年还要新增 80 万份。”

“为什么不用电子档案?” “早期扫描过一部分,但识别准确率太低,没法用。现在还是靠人工查阅。”

问题很快暴露:2024 年 5 月,省社保稽核审计组进驻,要求调取 2018-2023 年所有参保单位的缴费基数申报材料。按传统方式,需要:

2000 万份档案,每份平均 20 分钟,合计 4 亿分钟,折合 760 年。就算投入 100 个人全年无休,也需要 7.6 年。

稽核审计等不了 7 年。社保中心必须找到新的解决方案。

二、技术方案:批量 OCR 的”三个核心挑战”

批量 OCR 和单张 OCR 是完全不同的问题。单张识别追求准确率,批量识别追求吞吐量和成本。

挑战 1:图像质量参差不齐

2000 万份档案,来源复杂:

统一用一套模型处理,效果肯定不行。我们采用了”质量分级 + 模型路由”的策略:

质量分级模型