智慧财务:医院票据智能识别与结构化解析解决方案
将纸质病历数字化,建立结构化电子病历系统,支持病历检索和数据分析。
对此方案感兴趣?
方案详情
在商业保险理赔、医保零星报销、企业员工补充医疗报销等场景中,医院票据(门诊/住院发票、费用明细清单)是资金结算的核心依据。然而,面对全国数万家医院千差万别的票据版式、模糊的针式打印字体、以及动辄数十页的住院清单,传统 OCR 识别率低,人工录入成本高企。
本方案基于**“深度学习表格还原”与“专有票据预处理”**技术,提供从影像输入到结构化数据输出的端到端解决方案,实现医疗费用的自动理算与核查。
一、 核心痛点与技术挑战
- 票据版式非标: 虽有财政部监制章,但各省市、各医院的打印排版位置差异巨大,传统模板匹配无法通用。
- 针式打印断点: 医院常使用针式打印机,字迹不仅有断点(非实心),且常出现色带墨浅、偏斜错位等问题。
- 红色印章遮挡: 医院公章往往直接盖在“金额”或“姓名”等关键字段上,导致 OCR 无法识别。
- 长清单跨页: 住院费用清单往往长达数页甚至数十页,如何将多页图片还原为一张完整的逻辑表格是最大难点。
二、 解决方案逻辑架构
本方案采用 “票据分类 -> 图像增强 -> 结构化提取 -> 逻辑重组” 的流水线架构。

三、 关键技术突破
1. 针对性去印章技术 (Seal Removal)
针对医院红章遮挡文字问题,我们不采用简单的颜色过滤(容易误伤红色字体的发票头),而是采用 GAN(生成对抗网络) 进行智能修复。
- 第一步: 提取红色印章层,保留并另存(用于后续鉴伪)。
- 第二步: 修复被印章遮盖的黑色文字笔画,补全断字。
2. 跨页长清单合并 (Multi-page Table Merging)
这是处理住院清单的核心。用户上传 10 张图片,系统通过页眉页脚特征,自动识别出它们属于同一份清单,并进行逻辑拼接。
3. 针式打印体专项优化
训练了包含 500 万张针式打印样本的专用 OCR 模型。
- 断笔连接: 自动连接针式打印的点阵笔画。
- 模糊增强: 针对色带墨尽导致的浅色字迹进行二值化增强。
四、 核心功能与价值
1. 全字段结构化 (Full-Field Structuring)
不仅仅提取总金额,而是将票据拆解为三个层级:
- Header(头): 发票代码、号码、开票日期、医院名称、姓名、医保类型。
- Body(体): 每一行药品、诊疗项目、材料的名称、规格、单价、数量、自付比例。
- Footer(尾): 个人账户支付、统筹支付、现金支付、收款人。
2. 药品目录自动映射 (Standardization)
医院开出的单据通常写的是“院内别名”。系统内置国家医保药品目录库和ICD-10 诊断库。
- 输入:
头孢拉定胶囊 (0.25g*24) - 输出: 标准编码
X01A...,剂型胶囊,规格0.25g,甲类药。 这使得保险公司可以直接判断该药品是否在理赔范围内。
3. 算术逻辑自证 (Self-Validation)
系统输出数据前会自动运行校验脚本:
单行金额=单价×数量总金额=所有明细行金额之和总金额=统筹支付+个人支付+其他支付任何一项不平衡,系统都会标记该单据为“需人工复核”,并高亮错误行。
五、 应用场景
医保飞检/控费: 监管机构批量扫描医院历史病案,自动分析是否存在过度医疗、串换药品等违规行为。
商业健康险理赔: 实现“拍照即理赔”,自动剔除自费药,计算赔付金额。
企业补充医疗报销: 员工直接上传发票,HR 系统自动审核额度,无需人工贴票。
