在户籍档案数字化过程中,最让人头疼的就是手写体识别。90 年代以前的户口本、迁移证,基本都是手写,字迹潦草、墨水褪色,OCR 识别率一直是个难题。
手写体识别的难点
手写体识别难在哪里?
- 字迹潦草:每个人写字习惯不同,连笔、简化字普遍
- 墨水褪色:年代久远的档案,字迹模糊不清
- 纸张老化:泛黄、斑点、折痕影响识别
- 格式混乱:不同年代、不同地区的表格格式不统一
我们的解决方案
经过 3 年研发,我们攻克了手写体识别难题:
- 深度学习模型:基于百万级手写样本训练的专用模型
- 上下文纠错:利用姓名、地址等上下文信息自动纠错
- 多模型融合:多个识别模型投票,提高准确率
- 人工辅助:低置信度结果自动标记,人工快速校对
识别效果
| 字段类型 | 识别率 |
| 姓名 | 96.5% |
| 身份证号 | 98.2% |
| 出生日期 | 97.8% |
| 住址 | 93.5% |
| 整体准确率 | 95%+ |
现在,即使是 80 年代的手写户籍档案,也能准确识别了。