# 医保报销”读秒级”审核:OCR 技术实战案例

一、”这个药能不能报?”——医保窗口的日常拷问

只要你在地市级医保局服务大厅待过,就一定见过这样的场景:

参保人拿着一叠医疗票据,排在窗口前。轮到他的时候,把票据递给工作人员。工作人员接过票据,开始手工审核:

“这张住院发票,金额 12580 元……”

“这张费用清单,甲类药品 3200 元,乙类药品 1800 元,自费药品 560 元……”

“这张诊断证明,疾病编码 J18.900……”

“这张处方,药品名称、规格、数量、单价……”

一份完整的报销材料,通常包括:

  • 住院发票(1-3 张)
  • 费用明细清单(5-20 页)
  • 诊断证明(1 张)
  • 出院小结(2-5 页)
  • 处方笺(3-10 张)
  • 检查报告(若干)

工作人员需要逐项核对:

  • 票据真伪(是否有财政监制章)
  • 费用分类(甲类、乙类、自费)
  • 药品目录(是否在医保目录内)
  • 报销比例(根据医院等级、参保类型)
  • 起付线、封顶线计算

一份材料,熟练的工作人员需要 15-20 分钟。如果遇到复杂情况(异地就医、大病保险、医疗救助),时间翻倍。

2024 年,某市医保局统计:日均报销业务 450 笔,按每笔 18 分钟计算,需要 135 个窗口工时。实际配置 45 个窗口,人均日工作 9 小时,窗口工作人员长期加班。

更严重的是人为差错。抽样审计显示:手工审核的差错率约 3.2%,主要集中在费用分类错误、目录匹配错误、计算错误。

“能不能让机器来审?”

2025 年 3 月,某省医保局启动了”医保报销智能审核系统”项目。核心目标:把审核时间从 18 分钟压缩到 30 秒——”读秒级”审核。

二、技术方案:OCR+ 规则引擎的双轮驱动

#### 整体架构

“`

票据扫描/上传

OCR 识别引擎

↓ 输出:结构化数据

  • 发票代码、号码、日期、金额
  • 药品名称、规格、数量、单价
  • 诊疗项目名称、编码
  • 疾病诊断编码

规则引擎

↓ 执行:

  • 票据真伪校验
  • 医保目录匹配
  • 报销比例计算
  • 起付线/封顶线判断

审核结果

  • 可报销金额
  • 自费金额
  • 拒绝原因(如有)

“`

#### OCR 识别:处理百种票据格式

医保票据的复杂性远超想象。

1. 票据类型多样性

“`

  • 住院发票:各省财政监制,版式各异
  • 门诊发票:医院自制,格式不统一
  • 费用清单:无标准格式,表格/文本混合
  • 诊断证明:医院自制,版式千差万别
  • 处方笺:手写/打印混合,字迹潦草
  • 检查报告:设备生成,包含图像、表格

“`

某省统计:省内有效医疗票据版式超过 300 种,跨省票据版式超过 1000 种。

2. 识别策略

策略 1:版式聚类

“`

  • 收集 10 万 + 票据样本
  • 使用图像相似度聚类(感知哈希)
  • 每类训练专用 OCR 模板
  • 新票据自动匹配最相似模板

“`

策略 2:关键字段定位

“`

不管版式如何变化,某些字段是必须的:

  • 发票代码(通常位于右上角)
  • 发票号码(通常位于代码下方)
  • 金额(通常有大写 + 小写)
  • 财政监制章(红色圆形/椭圆形)

使用目标检测模型(YOLOv8)定位这些关键字段,然后局部识别。

“`

策略 3:表格结构化提取

“`

费用清单是典型的表格文档:

  • 使用表格检测模型(TableNet)识别表格区域
  • 使用行列检测算法划分单元格
  • 对每个单元格执行 OCR 识别
  • 根据表头语义标注列类型(药品名称、规格、数量、单价、金额)

“`

3. 识别准确率

某省实测数据(1000 张票据样本):

  • 发票代码/号码:99.2%
  • 金额(大写):97.8%
  • 金额(小写):98.5%
  • 药品名称:94.3%
  • 诊疗项目:92.1%
  • 疾病编码:96.7%

#### 规则引擎:医保政策的数字化

OCR 解决”读出来”的问题,规则引擎解决”怎么算”的问题。

1. 医保目录匹配

“`

输入:药品名称、规格

过程:

1. 标准化药品名称(去除商品名、别名)

2. 匹配国家医保药品目录

3. 返回:甲类/乙类/自费、报销比例

技术难点:

  • 同药异名:阿司匹林肠溶片 = 拜阿司匹灵 = Aspro
  • 规格差异:0.1g×24 片 vs 100mg×24 片
  • 目录版本:国家目录 vs 省级增补目录

解决方案:

  • 建立药品别名库(10 万 + 条目)
  • 规格归一化(g/mg 转换、片/粒转换)
  • 目录版本管理(按参保地、参保类型)

“`

2. 报销比例计算

“`

报销比例取决于多个因素:

  • 医院等级:一级 90%、二级 85%、三级 80%
  • 参保类型:职工 85%、居民 70%
  • 在职/退休:退休 +5%
  • 连续参保年限:每 +1 年 +0.5%
  • 大病保险:超封顶线部分 60%

规则引擎需要支持:

  • 多层条件判断
  • 优先级处理
  • 公式计算

“`

3. 异常检测

“`

识别可疑报销:

  • 同一人同日多家医院就诊
  • 药品用量超出合理范围(如感冒药开 3 个月)
  • 诊疗项目与诊断不符(如骨科手术开眼科用药)
  • 发票号码重复
  • 金额异常(如门诊发票超 10 万)

发现异常时,自动标记转人工审核。

“`

三、系统性能:如何做到 30 秒审核

#### 性能指标

某省医保局要求:

  • P50 响应时间:<15 秒
  • P95 响应时间:<30 秒
  • P99 响应时间:<60 秒
  • 并发能力:100 请求/秒
  • 服务可用性:99.9%

#### 优化措施

1. OCR 加速

“`

  • GPU 推理集群(4 卡 T4)
  • 批量处理(一次处理 10 张票据)
  • 缓存机制(相同票据不重复识别)
  • 异步处理(识别与审核并行)

效果:OCR 识别时间从 8 秒降至 2 秒

“`

2. 规则引擎优化

“`

  • 规则预编译(避免运行时解析)
  • 目录数据内存缓存(Redis)
  • 计算结果缓存(相同输入返回缓存)

效果:规则执行时间从 5 秒降至 0.5 秒

“`

3. 数据库优化

“`

  • 参保人信息缓存(24 小时)
  • 历史报销记录索引(按身份证号 + 日期)
  • 批量查询优化(一次查询多条记录)

效果:数据库查询时间从 3 秒降至 0.3 秒

“`

#### 实测性能

2025 年 6 月上线后实测数据(10 万笔业务):

  • P50:12.3 秒
  • P95:26.8 秒
  • P99:48.5 秒
  • 平均:14.7 秒

达到”读秒级”审核目标。

四、实战效果:效率与准确率双提升

#### 效率提升

| 环节 | 传统人工 | 智能审核 | 提升 |

|——|———-|———-|——|

| 票据录入 | 5 分钟 | 30 秒(OCR) | 10 倍 |

| 目录匹配 | 5 分钟 | 2 秒(自动) | 150 倍 |

| 金额计算 | 3 分钟 | 1 秒(自动) | 180 倍 |

| 结果复核 | 5 分钟 | 30 秒(抽检) | 10 倍 |

| 合计 | 18 分钟 | 32 秒 | 34 倍 |

#### 准确率提升

| 指标 | 传统人工 | 智能审核 |

|——|———-|———-|

| 费用分类正确率 | 96.8% | 99.5% |

| 目录匹配正确率 | 94.2% | 99.1% |

| 金额计算正确率 | 97.5% | 99.9% |

| 整体差错率 | 3.2% | 0.8% |

#### 业务数据(上线后 6 个月)

  • 月均审核业务:13500 笔
  • 自动审核通过率:87.3%(无需人工干预)
  • 转人工审核率:12.7%(复杂/异常情况)
  • 窗口人力释放:从 45 人降至 18 人(释放 27 人)
  • 参保人等待时间:从平均 2.5 小时降至 25 分钟

#### 成本节约

  • 人力成本:27 人×15 万/年 = 405 万元/年
  • 差错损失:按年报销 10 亿元、差错率降低 2.4% 计算,节约 2400 万元/年
  • 参保人时间成本:按每笔节约 17 分钟、每小时 50 元计算,年节约 2295 万元
  • 社会总成本节约:约 5100 万元/年

五、踩过的坑

坑 1:手写处方识别

部分老医生习惯手写处方,字迹潦草难以识别。

解决:建立手写处方专用模型,识别率从 62% 提升至 85%;剩余转人工。

坑 2:票据折叠/污损

参保人提交的票据有折叠、污损、褪色。

解决:图像增强预处理;严重污损的直接转人工。

坑 3:目录更新滞后

医保目录每季度更新,规则引擎需要同步更新。

解决:建立目录更新自动化流程,更新后自动测试验证。

坑 4:异地就医票据

跨省票据版式差异大,识别率低。

解决:建立全国票据版式库,按省份路由识别模型。

六、下一步:从”智能审核”到”智能风控”

当前系统解决了”审得快”的问题,下一步要解决”审得准”的问题。

1. 欺诈检测

“`

使用机器学习模型识别可疑报销:

  • 特征工程:就诊频率、药品用量、医院选择、金额分布
  • 模型训练:历史欺诈案例作为正样本
  • 实时评分:每笔报销输出欺诈风险分
  • 高风险转人工深度审核

“`

2. 临床路径校验

“`

基于临床指南校验诊疗合理性:

  • 诊断与用药匹配(如感冒不开抗生素)
  • 检查与诊断匹配(如骨折需要 X 光)
  • 住院天数合理性(如阑尾炎 3-7 天)

“`

3. 参保人画像

“`

建立参保人健康档案:

  • 历史就诊记录
  • 慢性病史
  • 用药习惯
  • 风险等级

用于个性化审核策略和健康管理。

“`

七、结语

“读秒级”审核,听起来是个技术指标,背后却是实实在在的民生改善。

当参保人不再需要排队 2 小时、当工作人员不再需要加班到深夜、当医保基金不再因为差错而流失——OCR 技术和规则引擎的组合,才真正体现了技术的价值。

医保报销智能审核,只是医保数字化转型的一小步。但当这一小步迈出去,释放的人力可以去做更有价值的事(如政策宣传、健康指导),节约的资金可以用于提高报销比例、扩大保障范围。

技术人的使命,不就是让这个世界变得更好一点吗?