医保报销”读秒级”审核：OCR 技术实战案例

# 医保报销”读秒级”审核：OCR 技术实战案例

一、”这个药能不能报？”——医保窗口的日常拷问

只要你在地市级医保局服务大厅待过，就一定见过这样的场景：

参保人拿着一叠医疗票据，排在窗口前。轮到他的时候，把票据递给工作人员。工作人员接过票据，开始手工审核：

“这张住院发票，金额 12580 元……”

“这张费用清单，甲类药品 3200 元，乙类药品 1800 元，自费药品 560 元……”

“这张诊断证明，疾病编码 J18.900……”

“这张处方，药品名称、规格、数量、单价……”

一份完整的报销材料，通常包括：

住院发票（1-3 张）
费用明细清单（5-20 页）
诊断证明（1 张）
出院小结（2-5 页）
处方笺（3-10 张）
检查报告（若干）

工作人员需要逐项核对：

票据真伪（是否有财政监制章）
费用分类（甲类、乙类、自费）
药品目录（是否在医保目录内）
报销比例（根据医院等级、参保类型）
起付线、封顶线计算

一份材料，熟练的工作人员需要 15-20 分钟。如果遇到复杂情况（异地就医、大病保险、医疗救助），时间翻倍。

2024 年，某市医保局统计：日均报销业务 450 笔，按每笔 18 分钟计算，需要 135 个窗口工时。实际配置 45 个窗口，人均日工作 9 小时，窗口工作人员长期加班。

更严重的是人为差错。抽样审计显示：手工审核的差错率约 3.2%，主要集中在费用分类错误、目录匹配错误、计算错误。

“能不能让机器来审？”

2025 年 3 月，某省医保局启动了”医保报销智能审核系统”项目。核心目标：把审核时间从 18 分钟压缩到 30 秒——”读秒级”审核。

二、技术方案：OCR+ 规则引擎的双轮驱动

#### 整体架构

“`

票据扫描/上传

↓

OCR 识别引擎

↓ 输出：结构化数据

发票代码、号码、日期、金额
药品名称、规格、数量、单价
诊疗项目名称、编码
疾病诊断编码

↓

规则引擎

↓ 执行：

票据真伪校验
医保目录匹配
报销比例计算
起付线/封顶线判断

↓

审核结果

可报销金额
自费金额
拒绝原因（如有）

“`

#### OCR 识别：处理百种票据格式

医保票据的复杂性远超想象。

1. 票据类型多样性

“`

住院发票：各省财政监制，版式各异
门诊发票：医院自制，格式不统一
费用清单：无标准格式，表格/文本混合
诊断证明：医院自制，版式千差万别
处方笺：手写/打印混合，字迹潦草
检查报告：设备生成，包含图像、表格

“`

某省统计：省内有效医疗票据版式超过 300 种，跨省票据版式超过 1000 种。

2. 识别策略

策略 1：版式聚类

“`

收集 10 万 + 票据样本
使用图像相似度聚类（感知哈希）
每类训练专用 OCR 模板
新票据自动匹配最相似模板

“`

策略 2：关键字段定位

“`

不管版式如何变化，某些字段是必须的：

发票代码（通常位于右上角）
发票号码（通常位于代码下方）
金额（通常有大写 + 小写）
财政监制章（红色圆形/椭圆形）

使用目标检测模型（YOLOv8）定位这些关键字段，然后局部识别。

“`

策略 3：表格结构化提取

“`

费用清单是典型的表格文档：

使用表格检测模型（TableNet）识别表格区域
使用行列检测算法划分单元格
对每个单元格执行 OCR 识别
根据表头语义标注列类型（药品名称、规格、数量、单价、金额）

“`

3. 识别准确率

某省实测数据（1000 张票据样本）：

发票代码/号码：99.2%
金额（大写）：97.8%
金额（小写）：98.5%
药品名称：94.3%
诊疗项目：92.1%
疾病编码：96.7%

#### 规则引擎：医保政策的数字化

OCR 解决”读出来”的问题，规则引擎解决”怎么算”的问题。

1. 医保目录匹配

“`

输入：药品名称、规格

过程：

1. 标准化药品名称（去除商品名、别名）

2. 匹配国家医保药品目录

3. 返回：甲类/乙类/自费、报销比例

技术难点：

同药异名：阿司匹林肠溶片 = 拜阿司匹灵 = Aspro
规格差异：0.1g×24 片 vs 100mg×24 片
目录版本：国家目录 vs 省级增补目录

解决方案：

建立药品别名库（10 万 + 条目）
规格归一化（g/mg 转换、片/粒转换）
目录版本管理（按参保地、参保类型）

“`

2. 报销比例计算

“`

报销比例取决于多个因素：

医院等级：一级 90%、二级 85%、三级 80%
参保类型：职工 85%、居民 70%
在职/退休：退休 +5%
连续参保年限：每 +1 年 +0.5%
大病保险：超封顶线部分 60%

规则引擎需要支持：

多层条件判断
优先级处理
公式计算

“`

3. 异常检测

“`

识别可疑报销：

同一人同日多家医院就诊
药品用量超出合理范围（如感冒药开 3 个月）
诊疗项目与诊断不符（如骨科手术开眼科用药）
发票号码重复
金额异常（如门诊发票超 10 万）

发现异常时，自动标记转人工审核。

“`

三、系统性能：如何做到 30 秒审核

#### 性能指标

某省医保局要求：

P50 响应时间：<15 秒
P95 响应时间：<30 秒
P99 响应时间：<60 秒
并发能力：100 请求/秒
服务可用性：99.9%

#### 优化措施

1. OCR 加速

“`

GPU 推理集群（4 卡 T4）
批量处理（一次处理 10 张票据）
缓存机制（相同票据不重复识别）
异步处理（识别与审核并行）

效果：OCR 识别时间从 8 秒降至 2 秒

“`

2. 规则引擎优化

“`

规则预编译（避免运行时解析）
目录数据内存缓存（Redis）
计算结果缓存（相同输入返回缓存）

效果：规则执行时间从 5 秒降至 0.5 秒

“`

3. 数据库优化

“`

参保人信息缓存（24 小时）
历史报销记录索引（按身份证号 + 日期）
批量查询优化（一次查询多条记录）

效果：数据库查询时间从 3 秒降至 0.3 秒

“`

#### 实测性能

2025 年 6 月上线后实测数据（10 万笔业务）：

P50：12.3 秒
P95：26.8 秒
P99：48.5 秒
平均：14.7 秒

达到”读秒级”审核目标。

四、实战效果：效率与准确率双提升

#### 效率提升

| 环节 | 传统人工 | 智能审核 | 提升 |

|——|———-|———-|——|

| 票据录入 | 5 分钟 | 30 秒（OCR） | 10 倍 |

| 目录匹配 | 5 分钟 | 2 秒（自动） | 150 倍 |

| 金额计算 | 3 分钟 | 1 秒（自动） | 180 倍 |

| 结果复核 | 5 分钟 | 30 秒（抽检） | 10 倍 |

| 合计 | 18 分钟 | 32 秒 | 34 倍 |

#### 准确率提升

| 指标 | 传统人工 | 智能审核 |

|——|———-|———-|

| 费用分类正确率 | 96.8% | 99.5% |

| 目录匹配正确率 | 94.2% | 99.1% |

| 金额计算正确率 | 97.5% | 99.9% |

| 整体差错率 | 3.2% | 0.8% |

#### 业务数据（上线后 6 个月）

月均审核业务：13500 笔
自动审核通过率：87.3%（无需人工干预）
转人工审核率：12.7%（复杂/异常情况）
窗口人力释放：从 45 人降至 18 人（释放 27 人）
参保人等待时间：从平均 2.5 小时降至 25 分钟

#### 成本节约

人力成本：27 人×15 万/年 = 405 万元/年
差错损失：按年报销 10 亿元、差错率降低 2.4% 计算，节约 2400 万元/年
参保人时间成本：按每笔节约 17 分钟、每小时 50 元计算，年节约 2295 万元
社会总成本节约：约 5100 万元/年

五、踩过的坑

坑 1：手写处方识别

部分老医生习惯手写处方，字迹潦草难以识别。

解决：建立手写处方专用模型，识别率从 62% 提升至 85%；剩余转人工。

坑 2：票据折叠/污损

参保人提交的票据有折叠、污损、褪色。

解决：图像增强预处理；严重污损的直接转人工。

坑 3：目录更新滞后

医保目录每季度更新，规则引擎需要同步更新。

解决：建立目录更新自动化流程，更新后自动测试验证。

坑 4：异地就医票据

跨省票据版式差异大，识别率低。

解决：建立全国票据版式库，按省份路由识别模型。

六、下一步：从”智能审核”到”智能风控”

当前系统解决了”审得快”的问题，下一步要解决”审得准”的问题。

1. 欺诈检测

“`

使用机器学习模型识别可疑报销：

特征工程：就诊频率、药品用量、医院选择、金额分布
模型训练：历史欺诈案例作为正样本
实时评分：每笔报销输出欺诈风险分
高风险转人工深度审核

“`

2. 临床路径校验

“`

基于临床指南校验诊疗合理性：

诊断与用药匹配（如感冒不开抗生素）
检查与诊断匹配（如骨折需要 X 光）
住院天数合理性（如阑尾炎 3-7 天）

“`

3. 参保人画像

“`

建立参保人健康档案：

历史就诊记录
慢性病史
用药习惯
风险等级

用于个性化审核策略和健康管理。

“`

七、结语

“读秒级”审核，听起来是个技术指标，背后却是实实在在的民生改善。

当参保人不再需要排队 2 小时、当工作人员不再需要加班到深夜、当医保基金不再因为差错而流失——OCR 技术和规则引擎的组合，才真正体现了技术的价值。

医保报销智能审核，只是医保数字化转型的一小步。但当这一小步迈出去，释放的人力可以去做更有价值的事（如政策宣传、健康指导），节约的资金可以用于提高报销比例、扩大保障范围。

技术人的使命，不就是让这个世界变得更好一点吗？

医保报销”读秒级”审核：OCR 技术实战案例

一、”这个药能不能报？”——医保窗口的日常拷问

二、技术方案：OCR+ 规则引擎的双轮驱动

三、系统性能：如何做到 30 秒审核

四、实战效果：效率与准确率双提升

五、踩过的坑

六、下一步：从”智能审核”到”智能风控”

七、结语

关于作者

zhangmu

相关文章

公积金贷款审批：OCR 加速收入证明审核

租房提取便捷化：OCR 自动核验租赁合同

购房提取自动化：OCR 识别房产证 + 合同双证

联系我们