健康险理赔(特别是百万医疗险、门诊险)的业务流程中,最大的痛点莫过于“数据结构化”。

用户生病住院,出院时手里拿着厚厚一叠单据:

  • 医疗门诊/住院收费票据(财政部监制的发票)。
  • 长达几页甚至几十页的 医疗费用清单(打印纸)。
  • 出院小结病历

理赔专员需要人工核对每一笔费用:

  • 这张发票是不是医保定点医院开的?
  • 这盒药是 医保目录 内的“甲类药”,还是纯 自费项目
  • 医保统筹 基金已经报销了多少?剩下的部分扣除 免赔额 后,我们要赔多少?

这种依靠“肉眼识别 + 手工计算器”的模式,处理一个案件往往需要 3-5 天。

一旦遇到流感爆发季,理赔积压严重,用户满意度直线下滑。

今天我们探讨:如何利用 医疗发票OCR 和 费用清单识别 技术,结合 自动理算 引擎,将理赔时效从“天”级缩短到“秒”级(即 秒赔)。

1. 痛点:全国医院票据的“万花筒”

与全国统一的增值税发票不同,医疗发票 虽然有财政部监制,但各省市、各级医院的版式差异巨大。

  • 版式复杂:上海的门诊票是长条的,北京的是A5的,有些乡镇卫生院甚至是针式打印的。
  • 信息分散:有的票上只有总金额,具体的药品明细在另一张 费用清单 上。
  • 术语不通:同一种药,A 医院叫“阿莫西林”,B 医院叫“阿莫西林胶囊(0.25g)”。

传统的模板式 OCR 根本无法应对这种碎片化场景。

2. 核心技术一:全票面结构化与 医保统筹 提取

要实现 秒赔,第一步是精准提取发票上的核心数据。

医疗发票OCR 引擎必须具备“泛化识别”能力,无论票据长什么样,都能提取以下关键字段:

  • 基本信息发票号码医院名称(用于校验是否为定点医院)、开票日期
  • 金额分项:这是最关键的。
    • 金额合计 (Total Amount)
    • 医保统筹支付 (Social Insurance Payment):这部分保险公司不赔,必须精准剔除。
    • 个人账户支付 & 现金支付:这部分是商业保险的理赔基础。

反欺诈逻辑

OCR 同时提取 姓名 字段。

if (发票姓名 != 被保人姓名) -> 自动拒赔

这看似简单,却能拦截大量的“冒名顶替”骗保行为。

3. 核心技术二:费用清单识别ICD-10 映射

仅有发票总额是不够的。对于“剔除自费药”或“责任免除”条款,必须深入到 费用清单 的明细行。

技术实现路径

  1. 明细行提取:OCR 识别长长的清单,提取每一行的 项目名称单价数量金额自付比例
  2. 三大目录匹配 (Three Catalogs Matching):系统内置全国统一的 医保目录(药品、诊疗项目、服务设施)。
    • 清洗:将 OCR 识别的“阿莫西林”映射为标准编码。
    • 分类:判断该项目是 甲类(全额纳入)、乙类(部分自付)还是 丙类(全额自费)。
  3. ICD-10 疾病编码:结合 出院小结 OCR,提取 诊断结论 并映射到 ICD-10 编码。
    • if (ICD-10 == 'E11' (2型糖尿病) AND 投保前未告知) -> 触发既往症拒赔预警

4. 核心技术三:自动理算 引擎 (Auto-Calculation)

当数据被 OCR 结构化后,理赔就变成了一道数学题。

理算公式

$$\text{赔付金额} = (\text{发票总额} – \text{医保统筹} – \text{自费项目} – \text{免赔额}) \times \text{赔付比例}$$

工程落地

  1. 自费剔除:OCR 识别出“美容费”、“营养品”等非医保项目,自动从总额中减去。
  2. 免赔额扣除:系统实时查询该用户本年度的 剩余免赔额(如 1 万免赔,已抵扣 2000,本次再抵扣剩余部分)。
  3. 秒级打款:如果是 3000 元以下的小额案件,且 OCR 数据完整、逻辑无误,系统直接调用银行接口打款,无需人工干预。这就是真正的 “秒赔”

5. 价值总结:降本增效的终极武器

InsurTech 领域,医疗发票OCR 是理赔自动化的基石。

  1. 体验飞跃:用户拍个照,钱就到账了,彻底告别“填单子、寄快递、等一周”的痛苦。
  2. 成本骤降:理赔人效提升 5-10 倍。原本需要 50 个人的理赔团队,现在 5 个人处理异常件即可。
  3. 风控闭环:通过对 自费项目ICD-10 的精准识别,有效防止了把“保健品”当“药”赔的漏洞,降低了赔付率(Loss Ratio)。

对于 健康险 业务负责人而言,谁先攻克了医疗票据的自动化处理,谁就掌握了这一红海市场的成本优势。