# 诊断证明 OCR 提取:加速医保待遇核定流程

一、”这个病能不能报?”——医保待遇核定的关键

2025 年 1 月,参保人老王拿着诊断证明来到医保窗口。

“医生说我这个病需要长期服药,能办门诊慢特病吗?”

窗口工作人员接过诊断证明:”我看看……’高血压 3 级(极高危)’,这个可以。”

“那能报多少?”

“门诊慢特病,报销比例 75%,年度限额 5000 元。”

“怎么办理?”

“需要填申请表,提供诊断证明、病历、检查报告,然后等审核,大概 15 个工作日。”

老王叹了口气:”又要等半个月……”

这样的对话,每天都在医保窗口上演。

门诊慢特病待遇核定,是医保业务中最复杂的场景之一。难点在于:

  • 疾病诊断需要专业判断(是否符合慢特病标准)
  • 材料审核繁琐(诊断证明、病历、检查报告)
  • 审核周期长(15-30 个工作日)
  • 地区标准不一(各省慢特病病种不同)

2024 年,某省医保局统计:

  • 年度慢特病申请:12 万笔
  • 平均审核周期:18 个工作日
  • 审核人力:85 人(专职)
  • 申请人投诉:2300 起(主要投诉审核慢)

“能不能让审核快一点?”

2025 年 3 月,该省启动”诊断证明 OCR 智能提取”项目。目标:把审核周期从 18 天压缩到 3 天。

二、技术方案:从诊断证明到结构化数据

#### 诊断证明的特殊性

诊断证明不是标准文档,特点如下:

1. 版式不统一

“`

  • 三甲医院:电子打印,版式规范
  • 二级医院:部分手写,版式一般
  • 基层医院:手写为主,版式随意
  • 专科医院:专用格式(如肿瘤、精神、传染病)

“`

2. 医学术语复杂

“`

  • 疾病名称:ICD-10 编码(如 J18.900 肺炎)
  • 疾病分期:早期、中期、晚期;1 级、2 级、3 级
  • 危险分层:低危、中危、高危、极高危
  • 并发症:合并糖尿病、合并肾病等

“`

3. 关键信息分散

“`

一份完整的诊断证明可能包含:

  • 患者基本信息(姓名、性别、年龄、身份证号)
  • 临床诊断(主要诊断、次要诊断)
  • 诊断依据(症状、体征、检查结果)
  • 治疗建议(用药、手术、随访)
  • 医师签名、医院公章

“`

#### OCR 识别架构

“`

诊断证明图像

图像预处理

  • 去噪、纠偏、增强

版面分析

  • 检测各区域(基本信息区、诊断区、医嘱区)

文字识别

  • 打印体:标准 OCR
  • 手写体:手写 OCR 模型

医学术语标准化

  • 疾病名称映射 ICD-10 编码
  • 分期/分级归一化

结构化输出

  • JSON 格式,便于规则引擎处理

“`

#### 医学术语标准化

这是诊断证明 OCR 的核心难点。

1. 疾病名称映射

“`

输入:”高血压 3 级(极高危)”

输出:{“icd10”: “I10.x00”, “name”: “原发性高血压”, “grade”: “3 级”, “risk”: “极高危”}

输入:”2 型糖尿病 伴糖尿病肾病”

输出:{“icd10”: “E11.200”, “name”: “2 型糖尿病”, “complication”: “糖尿病肾病”}

技术实现:

  • 建立疾病别名库(10 万 + 条目)
  • 使用 NLP 模型进行实体识别(NER)
  • 规则 + 模型混合匹配

“`

2. 分期分级提取

“`

癌症分期:I 期、II 期、III 期、IV 期

早期、中期、晚期

TNM 分期(T1N0M0)

高血压分级:1 级、2 级、3 级

心功能分级:NYHA I-IV 级

技术实现:

  • 正则表达式匹配(如”(\d) 级”)
  • 医学术语词典匹配
  • 上下文语义理解

“`

3. 用药信息提取

“`

输入:”甲磺酸伊马替尼胶囊 100mg qd po”

输出:{“drug”: “甲磺酸伊马替尼”, “spec”: “100mg”, “frequency”: “qd”, “route”: “po”}

技术实现:

  • 药品名称识别(与医保药品目录匹配)
  • 剂量单位归一化(mg/g/ml)
  • 用药频次标准化(qd=每日 1 次)

“`

三、规则引擎:慢特病待遇自动核定

OCR 提取结构化数据后,规则引擎进行待遇核定。

#### 慢特病病种规则

某省慢特病病种(部分):

“`

1. 高血压(3 级,极高危)

条件:收缩压≥180 或 舒张压≥110,且 有 靶器官损害

报销比例:75%

年度限额:5000 元

2. 糖尿病(2 型,伴并发症)

条件:空腹血糖≥7.0 或 餐后≥11.1,且 有 并发症

报销比例:75%

年度限额:6000 元

3. 恶性肿瘤(放化疗)

条件:病理确诊,且 正在 放化疗

报销比例:85%

年度限额:50000 元

4. 尿毒症(透析)

条件:慢性肾衰竭 5 期,且 正在 透析

报销比例:90%

年度限额:100000 元

“`

#### 自动核定流程

“`

诊断证明 OCR 提取

↓ 输出:疾病诊断、分期、并发症

规则匹配

↓ 判断:是否符合慢特病标准

├→ 符合:自动通过,计算待遇

└→ 不符合/不确定:转人工审核

人工审核(仅处理复杂案例)

“`

#### 审核规则示例

“`python

def check_hypertension(diagnosis):

“””高血压慢特病审核”””

if diagnosis.grade != “3 级”:

return False, “高血压等级不足”

if diagnosis.risk not in [“高危”, “极高危”]:

return False, “危险分层不足”

if not diagnosis.has_target_organ_damage:

return False, “无靶器官损害证据”

return True, “符合高血压慢特病标准”

def check_diabetes(diagnosis):

“””糖尿病慢特病审核”””

if diagnosis.type != “2 型”:

return False, “非 2 型糖尿病”

if not diagnosis.has_complication:

return False, “无并发症”

# 并发症类型必须在目录内

if diagnosis.complication not in DIABETES_COMPLICATIONS:

return False, “并发症不在目录内”

return True, “符合糖尿病慢特病标准”

“`

四、实战效果:从 18 天到 3 天

#### 效率对比

| 环节 | 传统人工 | OCR 智能 | 提升 |

|——|———-|———-|——|

| 材料审核 | 2 天 | 10 分钟 | 288 倍 |

| 诊断判断 | 5 天 | 1 分钟 | 7200 倍 |

| 待遇计算 | 1 天 | 5 秒 | 17280 倍 |

| 结果通知 | 3 天 | 实时 | – |

| 公示期 | 7 天 | 7 天 | 持平 |

| 合计 | 18 天 | 3 天 | 6 倍 |

注:公示期为法定程序,无法压缩。

#### 准确率对比

| 指标 | 传统人工 | OCR 智能 |

|——|———-|———-|

| 疾病识别准确率 | 94.5% | 97.8% |

| 分期分级准确率 | 91.2% | 96.3% |

| 待遇核定准确率 | 93.8% | 98.1% |

| 整体差错率 | 5.2% | 1.5% |

#### 业务数据(上线后 6 个月)

  • 月均申请:10000 笔
  • 自动通过率:78.5%(无需人工干预)
  • 转人工审核率:21.5%(复杂/边缘案例)
  • 平均审核周期:从 18 天降至 3.2 天
  • 审核人力释放:从 85 人降至 25 人(释放 60 人)
  • 申请人投诉:从 2300 起/年降至 180 起/年

#### 成本节约

  • 人力成本:60 人×15 万/年 = 900 万元/年
  • 申请人时间成本:按每笔节约 15 天、每天 200 元计算,年节约 3600 万元
  • 社会总成本节约:4500 万元/年

五、踩过的坑

坑 1:手写诊断识别

部分老医生习惯手写诊断,字迹潦草。

解决:建立手写诊断专用模型;识别率低的转人工。

坑 2:疾病别名处理

同一种疾病有多个名称(如”冠心病”=”冠状动脉粥样硬化性心脏病”)。

解决:建立疾病别名库(10 万 + 条目);NLP 语义匹配。

坑 3:诊断与检查不符

诊断证明写”高血压 3 级”,但血压检查记录只有 150/95mmHg(2 级)。

解决:增加检查报告 OCR 提取;诊断与检查结果交叉校验。

坑 4:虚假诊断证明

个别申请人伪造诊断证明。

解决:与医院 HIS 系统对接;电子诊断证明验真;可疑案例人工核查。

六、下一步:从”待遇核定”到”健康管理”

当前系统解决了”审得快”的问题,下一步要发挥数据价值。

1. 参保人健康档案

“`

整合所有诊断证明数据:

  • 历史诊断记录
  • 用药记录
  • 检查结果
  • 治疗轨迹

形成个人健康档案,用于:

  • 个性化健康管理
  • 慢病随访提醒
  • 用药依从性分析

“`

2. 疾病谱分析

“`

区域疾病统计分析:

  • 慢特病病种分布
  • 发病率趋势
  • 地区差异
  • 人群特征

用于医保政策制定和医疗资源规划。

“`

3. 医疗质量评估

“`

基于诊断和用药数据:

  • 诊断合理性评估
  • 用药规范性评估
  • 过度医疗识别
  • 医疗质量排名

“`

七、结语

诊断证明 OCR 提取,看似是个技术问题,实则是医保服务理念的转变。

从”人等审核”到”审核等人”,从”被动受理”到”主动服务”,从”单一核定”到”健康管理”——技术的进步,推动着服务的升级。

当参保人不再需要为”等审核”而焦虑,当审核员不再需要为”判诊断”而纠结,当医保数据不再沉睡在档案袋里——OCR 技术的价值,才真正得以体现。

技术本身没有温度,但技术带来的服务可以有温度。这,或许就是数字化转型的意义所在。