在 健康险理赔(特别是百万医疗险、门诊险)的业务流程中,最大的痛点莫过于“数据结构化”。
用户生病住院,出院时手里拿着厚厚一叠单据:
- 医疗门诊/住院收费票据(财政部监制的发票)。
- 长达几页甚至几十页的 医疗费用清单(打印纸)。
- 出院小结 和 病历。
理赔专员需要人工核对每一笔费用:
- 这张发票是不是医保定点医院开的?
- 这盒药是 医保目录 内的“甲类药”,还是纯 自费项目?
- 医保统筹 基金已经报销了多少?剩下的部分扣除 免赔额 后,我们要赔多少?
这种依靠“肉眼识别 + 手工计算器”的模式,处理一个案件往往需要 3-5 天。
一旦遇到流感爆发季,理赔积压严重,用户满意度直线下滑。
今天我们探讨:如何利用 医疗发票OCR 和 费用清单识别 技术,结合 自动理算 引擎,将理赔时效从“天”级缩短到“秒”级(即 秒赔)。
1. 痛点:全国医院票据的“万花筒”
与全国统一的增值税发票不同,医疗发票 虽然有财政部监制,但各省市、各级医院的版式差异巨大。
- 版式复杂:上海的门诊票是长条的,北京的是A5的,有些乡镇卫生院甚至是针式打印的。
- 信息分散:有的票上只有总金额,具体的药品明细在另一张 费用清单 上。
- 术语不通:同一种药,A 医院叫“阿莫西林”,B 医院叫“阿莫西林胶囊(0.25g)”。
传统的模板式 OCR 根本无法应对这种碎片化场景。
2. 核心技术一:全票面结构化与 医保统筹 提取
要实现 秒赔,第一步是精准提取发票上的核心数据。
医疗发票OCR 引擎必须具备“泛化识别”能力,无论票据长什么样,都能提取以下关键字段:
- 基本信息:
发票号码、医院名称(用于校验是否为定点医院)、开票日期。 - 金额分项:这是最关键的。
金额合计(Total Amount)医保统筹支付(Social Insurance Payment):这部分保险公司不赔,必须精准剔除。个人账户支付&现金支付:这部分是商业保险的理赔基础。
反欺诈逻辑:
OCR 同时提取 姓名 字段。
if (发票姓名 != 被保人姓名) -> 自动拒赔。
这看似简单,却能拦截大量的“冒名顶替”骗保行为。
3. 核心技术二:费用清单识别 与 ICD-10 映射
仅有发票总额是不够的。对于“剔除自费药”或“责任免除”条款,必须深入到 费用清单 的明细行。
技术实现路径:
- 明细行提取:OCR 识别长长的清单,提取每一行的
项目名称、单价、数量、金额、自付比例。 - 三大目录匹配 (Three Catalogs Matching):系统内置全国统一的 医保目录(药品、诊疗项目、服务设施)。
- 清洗:将 OCR 识别的“阿莫西林”映射为标准编码。
- 分类:判断该项目是
甲类(全额纳入)、乙类(部分自付)还是丙类(全额自费)。
- ICD-10 疾病编码:结合 出院小结 OCR,提取
诊断结论并映射到 ICD-10 编码。if (ICD-10 == 'E11' (2型糖尿病) AND 投保前未告知)-> 触发既往症拒赔预警。
4. 核心技术三:自动理算 引擎 (Auto-Calculation)
当数据被 OCR 结构化后,理赔就变成了一道数学题。
理算公式:
$$\text{赔付金额} = (\text{发票总额} – \text{医保统筹} – \text{自费项目} – \text{免赔额}) \times \text{赔付比例}$$
工程落地:
- 自费剔除:OCR 识别出“美容费”、“营养品”等非医保项目,自动从总额中减去。
- 免赔额扣除:系统实时查询该用户本年度的
剩余免赔额(如 1 万免赔,已抵扣 2000,本次再抵扣剩余部分)。 - 秒级打款:如果是 3000 元以下的小额案件,且 OCR 数据完整、逻辑无误,系统直接调用银行接口打款,无需人工干预。这就是真正的 “秒赔”。
5. 价值总结:降本增效的终极武器
在 InsurTech 领域,医疗发票OCR 是理赔自动化的基石。
- 体验飞跃:用户拍个照,钱就到账了,彻底告别“填单子、寄快递、等一周”的痛苦。
- 成本骤降:理赔人效提升 5-10 倍。原本需要 50 个人的理赔团队,现在 5 个人处理异常件即可。
- 风控闭环:通过对 自费项目 和 ICD-10 的精准识别,有效防止了把“保健品”当“药”赔的漏洞,降低了赔付率(Loss Ratio)。
对于 健康险 业务负责人而言,谁先攻克了医疗票据的自动化处理,谁就掌握了这一红海市场的成本优势。