一、”这个病能不能报?”——医保待遇核定的关键

2025 年 1 月,参保人老王拿着诊断证明来到医保窗口。

“医生说我这个病需要长期服药,能办门诊慢特病吗?” 窗口工作人员接过诊断证明:”我看看……’高血压 3 级(极高危)’,这个可以。”

“那能报多少?” “门诊慢特病,报销比例 75%,年度限额 5000 元。”

“怎么办理?” “需要填申请表,提供诊断证明、病历、检查报告,然后等审核,大概 15 个工作日。”

老王叹了口气:”又要等半个月……”

这样的对话,每天都在医保窗口上演。

门诊慢特病待遇核定,是医保业务中最复杂的场景之一。难点在于:

  • 疾病诊断需要专业判断(是否符合慢特病标准)
  • 材料审核繁琐(诊断证明、病历、检查报告)
  • 审核周期长(15-30 个工作日)
  • 地区标准不一(各省慢特病病种不同)

2024 年,某省医保局统计:

  • 年度慢特病申请:12 万笔
  • 平均审核周期:18 个工作日
  • 审核人力:85 人(专职)
  • 申请人投诉:2300 起(主要投诉审核慢)

“能不能让审核快一点?”

2025 年 3 月,该省启动”诊断证明 OCR 智能提取”项目。目标:把审核周期从 18 天压缩到 3 天。

二、技术方案:从诊断证明到结构化数据

诊断证明的特殊性

诊断证明不是标准文档,特点如下:

1. 版式不统一


<ul>
<li>三甲医院:电子打印,版式规范</li>
<li>二级医院:部分手写,版式一般</li>
<li>基层医院:手写为主,版式随意</li>
<li>专科医院:专用格式(如肿瘤、精神、传染病)</li>
</ul>

2. 医学术语复杂


<ul>
<li>疾病名称:ICD-10 编码(如 J18.900 肺炎)</li>
<li>疾病分期:早期、中期、晚期;1 级、2 级、3 级</li>
<li>危险分层:低危、中危、高危、极高危</li>
<li>并发症:合并糖尿病、合并肾病等</li>
</ul>

3. 关键信息分散

一份完整的诊断证明可能包含:

<ul>
<li>患者基本信息(姓名、性别、年龄、身份证号)</li>
<li>临床诊断(主要诊断、次要诊断)</li>
<li>诊断依据(症状、体征、检查结果)</li>
<li>治疗建议(用药、手术、随访)</li>
<li>医师签名、医院公章</li>
</ul>

OCR 识别架构

诊断证明图像
    ↓
图像预处理

<ul>
<li>去噪、纠偏、增强</li>
</ul>
    ↓
版面分析

<ul>
<li>检测各区域(基本信息区、诊断区、医嘱区)</li>
</ul>
    ↓
文字识别

<ul>
<li>打印体:标准 OCR</li>
<li>手写体:手写 OCR 模型</li>
</ul>
    ↓
医学术语标准化

<ul>
<li>疾病名称映射 ICD-10 编码</li>
<li>分期/分级归一化</li>
</ul>
    ↓
结构化输出

<ul>
<li>JSON 格式,便于规则引擎处理</li>
</ul>

医学术语标准化

这是诊断证明 OCR 的核心难点。

1. 疾病名称映射

输入:"高血压 3 级(极高危)"
输出:{"icd10": "I10.x00", "name": "原发性高血压", "grade": "3 级", "risk": "极高危"}

输入:"2 型糖尿病 伴糖尿病肾病"
输出:{"icd10": "E11.200", "name": "2 型糖尿病", "complication": "糖尿病肾病"}

技术实现:

<ul>
<li>建立疾病别名库(10 万 + 条目)</li>
<li>使用 NLP 模型进行实体识别(NER)</li>
<li>规则 + 模型混合匹配</li>
</ul>

2. 分期分级提取

癌症分期:I 期、II 期、III 期、IV 期
         早期、中期、晚期
         TNM 分期(T1N0M0)

高血压分级:1 级、2 级、3 级
心功能分级:NYHA I-IV 级

技术实现:

<ul>
<li>正则表达式匹配(如"(\d) 级")</li>
<li>医学术语词典匹配</li>
<li>上下文语义理解</li>
</ul>

3. 用药信息提取

输入:"甲磺酸伊马替尼胶囊 100mg qd po"
输出:{"drug": "甲磺酸伊马替尼", "spec": "100mg", "frequency": "qd", "route": "po"}

技术实现:

<ul>
<li>药品名称识别(与医保药品目录匹配)</li>
<li>剂量单位归一化(mg/g/ml)</li>
<li>用药频次标准化(qd=每日 1 次)</li>
</ul>

三、规则引擎:慢特病待遇自动核定

OCR 提取结构化数据后,规则引擎进行待遇核定。

慢特病病种规则

某省慢特病病种(部分):

1. 高血压(3 级,极高危)
   条件:收缩压≥180 或 舒张压≥110,且 有 靶器官损害
   报销比例:75%
   年度限额:5000 元

2. 糖尿病(2 型,伴并发症)
   条件:空腹血糖≥7.0 或 餐后≥11.1,且 有 并发症
   报销比例:75%
   年度限额:6000 元

3. 恶性肿瘤(放化疗)
   条件:病理确诊,且 正在 放化疗
   报销比例:85%
   年度限额:50000 元

4. 尿毒症(透析)
   条件:慢性肾衰竭 5 期,且 正在 透析
   报销比例:90%
   年度限额:100000 元

自动核定流程

诊断证明 OCR 提取
    ↓ 输出:疾病诊断、分期、并发症
规则匹配
    ↓ 判断:是否符合慢特病标准
    ├→ 符合:自动通过,计算待遇
    └→ 不符合/不确定:转人工审核
        ↓
人工审核(仅处理复杂案例)

审核规则示例

def check_hypertension(diagnosis):
    """高血压慢特病审核"""
    if diagnosis.grade != "3 级":
        return False, "高血压等级不足"
    if diagnosis.risk not in ["高危", "极高危"]:
        return False, "危险分层不足"
    if not diagnosis.has_target_organ_damage:
        return False, "无靶器官损害证据"
    return True, "符合高血压慢特病标准"

def check_diabetes(diagnosis):
    """糖尿病慢特病审核"""
    if diagnosis.type != "2 型":
        return False, "非 2 型糖尿病"
    if not diagnosis.has_complication:
        return False, "无并发症"
    # 并发症类型必须在目录内
    if diagnosis.complication not in DIABETES_COMPLICATIONS:
        return False, "并发症不在目录内"
    return True, "符合糖尿病慢特病标准"

四、实战效果:从 18 天到 3 天

效率对比

环节 传统人工 OCR 智能 提升
材料审核 2 天 10 分钟 288 倍
诊断判断 5 天 1 分钟 7200 倍
待遇计算 1 天 5 秒 17280 倍
结果通知 3 天 实时
公示期 7 天 7 天 持平
合计 18 天 3 天 6 倍

注:公示期为法定程序,无法压缩。

准确率对比

指标 传统人工 OCR 智能
疾病识别准确率 94.5% 97.8%
分期分级准确率 91.2% 96.3%
待遇核定准确率 93.8% 98.1%
整体差错率 5.2% 1.5%

业务数据(上线后 6 个月)

  • 月均申请:10000 笔
  • 自动通过率:78.5%(无需人工干预)
  • 转人工审核率:21.5%(复杂/边缘案例)
  • 平均审核周期:从 18 天降至 3.2 天
  • 审核人力释放:从 85 人降至 25 人(释放 60 人)
  • 申请人投诉:从 2300 起/年降至 180 起/年

成本节约

  • 人力成本:60 人×15 万/年 = 900 万元/年
  • 申请人时间成本:按每笔节约 15 天、每天 200 元计算,年节约 3600 万元
  • 社会总成本节约:4500 万元/年

五、踩过的坑

坑 1:手写诊断识别 部分老医生习惯手写诊断,字迹潦草。 解决:建立手写诊断专用模型;识别率低的转人工。

坑 2:疾病别名处理 同一种疾病有多个名称(如”冠心病”=”冠状动脉粥样硬化性心脏病”)。 解决:建立疾病别名库(10 万 + 条目);NLP 语义匹配。

坑 3:诊断与检查不符 诊断证明写”高血压 3 级”,但血压检查记录只有 150/95mmHg(2 级)。 解决:增加检查报告 OCR 提取;诊断与检查结果交叉校验。

坑 4:虚假诊断证明 个别申请人伪造诊断证明。 解决:与医院 HIS 系统对接;电子诊断证明验真;可疑案例人工核查。

六、下一步:从”待遇核定”到”健康管理”

当前系统解决了”审得快”的问题,下一步要发挥数据价值。

1. 参保人健康档案

整合所有诊断证明数据:

<ul>
<li>历史诊断记录</li>
<li>用药记录</li>
<li>检查结果</li>
<li>治疗轨迹</li>
</ul>

形成个人健康档案,用于:

<ul>
<li>个性化健康管理</li>
<li>慢病随访提醒</li>
<li>用药依从性分析</li>
</ul>

2. 疾病谱分析

区域疾病统计分析:

<ul>
<li>慢特病病种分布</li>
<li>发病率趋势</li>
<li>地区差异</li>
<li>人群特征</li>
</ul>

用于医保政策制定和医疗资源规划。

3. 医疗质量评估

基于诊断和用药数据:

<ul>
<li>诊断合理性评估</li>
<li>用药规范性评估</li>
<li>过度医疗识别</li>
<li>医疗质量排名</li>
</ul>

七、结语

诊断证明 OCR 提取,看似是个技术问题,实则是医保服务理念的转变。

从”人等审核”到”审核等人”,从”被动受理”到”主动服务”,从”单一核定”到”健康管理”——技术的进步,推动着服务的升级。

当参保人不再需要为”等审核”而焦虑,当审核员不再需要为”判诊断”而纠结,当医保数据不再沉睡在档案袋里——OCR 技术的价值,才真正得以体现。

技术本身没有温度,但技术带来的服务可以有温度。这,或许就是数字化转型的意义所在。