诊断证明 OCR 提取：加速医保待遇核定流程

一、”这个病能不能报？”——医保待遇核定的关键

2025 年 1 月，参保人老王拿着诊断证明来到医保窗口。

“医生说我这个病需要长期服药，能办门诊慢特病吗？”
窗口工作人员接过诊断证明：”我看看……’高血压 3 级（极高危）’，这个可以。”

“那能报多少？”
“门诊慢特病，报销比例 75%，年度限额 5000 元。”

“怎么办理？”
“需要填申请表，提供诊断证明、病历、检查报告，然后等审核，大概 15 个工作日。”

老王叹了口气：”又要等半个月……”

这样的对话，每天都在医保窗口上演。

门诊慢特病待遇核定，是医保业务中最复杂的场景之一。难点在于：

疾病诊断需要专业判断（是否符合慢特病标准）
材料审核繁琐（诊断证明、病历、检查报告）
审核周期长（15-30 个工作日）
地区标准不一（各省慢特病病种不同）

2024 年，某省医保局统计：

年度慢特病申请：12 万笔
平均审核周期：18 个工作日
审核人力：85 人（专职）
申请人投诉：2300 起（主要投诉审核慢）

“能不能让审核快一点？”

2025 年 3 月，该省启动”诊断证明 OCR 智能提取”项目。目标：把审核周期从 18 天压缩到 3 天。

二、技术方案：从诊断证明到结构化数据

#### 诊断证明的特殊性

诊断证明不是标准文档，特点如下：

1. 版式不统一
“`

三甲医院：电子打印，版式规范
二级医院：部分手写，版式一般
基层医院：手写为主，版式随意
专科医院：专用格式（如肿瘤、精神、传染病）

“`

2. 医学术语复杂
“`

疾病名称：ICD-10 编码（如 J18.900 肺炎）
疾病分期：早期、中期、晚期；1 级、2 级、3 级
危险分层：低危、中危、高危、极高危
并发症：合并糖尿病、合并肾病等

“`

3. 关键信息分散
“`
一份完整的诊断证明可能包含：

患者基本信息（姓名、性别、年龄、身份证号）
临床诊断（主要诊断、次要诊断）
诊断依据（症状、体征、检查结果）
治疗建议（用药、手术、随访）
医师签名、医院公章

“`

#### OCR 识别架构

“`
诊断证明图像
↓
图像预处理

去噪、纠偏、增强

↓
版面分析

检测各区域（基本信息区、诊断区、医嘱区）

↓
文字识别

打印体：标准 OCR
手写体：手写 OCR 模型

↓
医学术语标准化

疾病名称映射 ICD-10 编码
分期/分级归一化

↓
结构化输出

JSON 格式，便于规则引擎处理

“`

#### 医学术语标准化

这是诊断证明 OCR 的核心难点。

1. 疾病名称映射
“`
输入：”高血压 3 级（极高危）”
输出：{“icd10”: “I10.x00”, “name”: “原发性高血压”, “grade”: “3 级”, “risk”: “极高危”}

输入：”2 型糖尿病伴糖尿病肾病”
输出：{“icd10”: “E11.200”, “name”: “2 型糖尿病”, “complication”: “糖尿病肾病”}

技术实现：

建立疾病别名库（10 万 + 条目）
使用 NLP 模型进行实体识别（NER）
规则 + 模型混合匹配

“`

2. 分期分级提取
“`
癌症分期：I 期、II 期、III 期、IV 期
早期、中期、晚期
TNM 分期（T1N0M0）

高血压分级：1 级、2 级、3 级
心功能分级：NYHA I-IV 级

技术实现：

正则表达式匹配（如”(\d) 级”）
医学术语词典匹配
上下文语义理解

“`

3. 用药信息提取
“`
输入：”甲磺酸伊马替尼胶囊 100mg qd po”
输出：{“drug”: “甲磺酸伊马替尼”, “spec”: “100mg”, “frequency”: “qd”, “route”: “po”}

技术实现：

药品名称识别（与医保药品目录匹配）
剂量单位归一化（mg/g/ml）
用药频次标准化（qd=每日 1 次）

“`

三、规则引擎：慢特病待遇自动核定

OCR 提取结构化数据后，规则引擎进行待遇核定。

#### 慢特病病种规则

某省慢特病病种（部分）：
“`
1. 高血压（3 级，极高危）
条件：收缩压≥180 或舒张压≥110，且有靶器官损害
报销比例：75%
年度限额：5000 元

2. 糖尿病（2 型，伴并发症）
条件：空腹血糖≥7.0 或餐后≥11.1，且有并发症
报销比例：75%
年度限额：6000 元

3. 恶性肿瘤（放化疗）
条件：病理确诊，且正在放化疗
报销比例：85%
年度限额：50000 元

4. 尿毒症（透析）
条件：慢性肾衰竭 5 期，且正在透析
报销比例：90%
年度限额：100000 元
“`

#### 自动核定流程

“`
诊断证明 OCR 提取
↓ 输出：疾病诊断、分期、并发症
规则匹配
↓ 判断：是否符合慢特病标准
├→ 符合：自动通过，计算待遇
└→ 不符合/不确定：转人工审核
↓
人工审核（仅处理复杂案例）
“`

#### 审核规则示例

“`python
def check_hypertension(diagnosis):
“””高血压慢特病审核”””
if diagnosis.grade != “3 级”:
return False, “高血压等级不足”
if diagnosis.risk not in [“高危”, “极高危”]:
return False, “危险分层不足”
if not diagnosis.has_target_organ_damage:
return False, “无靶器官损害证据”
return True, “符合高血压慢特病标准”

def check_diabetes(diagnosis):
“””糖尿病慢特病审核”””
if diagnosis.type != “2 型”:
return False, “非 2 型糖尿病”
if not diagnosis.has_complication:
return False, “无并发症”
# 并发症类型必须在目录内
if diagnosis.complication not in DIABETES_COMPLICATIONS:
return False, “并发症不在目录内”
return True, “符合糖尿病慢特病标准”
“`

四、实战效果：从 18 天到 3 天

#### 效率对比

| 环节 | 传统人工 | OCR 智能 | 提升 |
|——|———-|———-|——|
| 材料审核 | 2 天 | 10 分钟 | 288 倍 |
| 诊断判断 | 5 天 | 1 分钟 | 7200 倍 |
| 待遇计算 | 1 天 | 5 秒 | 17280 倍 |
| 结果通知 | 3 天 | 实时 | – |
| 公示期 | 7 天 | 7 天 | 持平 |
| 合计 | 18 天 | 3 天 | 6 倍 |

注：公示期为法定程序，无法压缩。

#### 准确率对比

| 指标 | 传统人工 | OCR 智能 |
|——|———-|———-|
| 疾病识别准确率 | 94.5% | 97.8% |
| 分期分级准确率 | 91.2% | 96.3% |
| 待遇核定准确率 | 93.8% | 98.1% |
| 整体差错率 | 5.2% | 1.5% |

#### 业务数据（上线后 6 个月）

月均申请：10000 笔
自动通过率：78.5%（无需人工干预）
转人工审核率：21.5%（复杂/边缘案例）
平均审核周期：从 18 天降至 3.2 天
审核人力释放：从 85 人降至 25 人（释放 60 人）
申请人投诉：从 2300 起/年降至 180 起/年

#### 成本节约

人力成本：60 人×15 万/年 = 900 万元/年
申请人时间成本：按每笔节约 15 天、每天 200 元计算，年节约 3600 万元
社会总成本节约：4500 万元/年

五、踩过的坑

坑 1：手写诊断识别
部分老医生习惯手写诊断，字迹潦草。
解决：建立手写诊断专用模型；识别率低的转人工。

坑 2：疾病别名处理
同一种疾病有多个名称（如”冠心病”=”冠状动脉粥样硬化性心脏病”）。
解决：建立疾病别名库（10 万 + 条目）；NLP 语义匹配。

坑 3：诊断与检查不符
诊断证明写”高血压 3 级”，但血压检查记录只有 150/95mmHg（2 级）。
解决：增加检查报告 OCR 提取；诊断与检查结果交叉校验。

坑 4：虚假诊断证明
个别申请人伪造诊断证明。
解决：与医院 HIS 系统对接；电子诊断证明验真；可疑案例人工核查。

六、下一步：从”待遇核定”到”健康管理”

当前系统解决了”审得快”的问题，下一步要发挥数据价值。

1. 参保人健康档案
“`
整合所有诊断证明数据：

历史诊断记录
用药记录
检查结果
治疗轨迹

形成个人健康档案，用于：

个性化健康管理
慢病随访提醒
用药依从性分析

“`

2. 疾病谱分析
“`
区域疾病统计分析：

慢特病病种分布
发病率趋势
地区差异
人群特征

用于医保政策制定和医疗资源规划。
“`

3. 医疗质量评估
“`
基于诊断和用药数据：

诊断合理性评估
用药规范性评估
过度医疗识别
医疗质量排名

“`

七、结语

诊断证明 OCR 提取，看似是个技术问题，实则是医保服务理念的转变。

从”人等审核”到”审核等人”，从”被动受理”到”主动服务”，从”单一核定”到”健康管理”——技术的进步，推动着服务的升级。

当参保人不再需要为”等审核”而焦虑，当审核员不再需要为”判诊断”而纠结，当医保数据不再沉睡在档案袋里——OCR 技术的价值，才真正得以体现。

技术本身没有温度，但技术带来的服务可以有温度。这，或许就是数字化转型的意义所在。

诊断证明 OCR 提取：加速医保待遇核定流程

一、”这个病能不能报？”——医保待遇核定的关键

二、技术方案：从诊断证明到结构化数据

三、规则引擎：慢特病待遇自动核定

四、实战效果：从 18 天到 3 天

五、踩过的坑

六、下一步：从”待遇核定”到”健康管理”

七、结语

关于作者

zhangmu

相关文章

公积金贷款审批：OCR 加速收入证明审核

租房提取便捷化：OCR 自动核验租赁合同

购房提取自动化：OCR 识别房产证 + 合同双证

联系我们