2024 年人社部出了 37 个新政策文件,企业 HR 根本看不过来。

哪些政策适用自己公司?能享受什么补贴?申报条件是什么?一问三不知。

某省人社厅用 OCR+RPA+ 大模型,实现”政策找企业”。企业上传营业执照,自动匹配适用政策,推送可申报的补贴项目。

政策类型:

  • 法律(全国人大)
  • 行政法规(国务院)
  • 部门规章(人社部)
  • 地方性法规(省市人大)
  • 规范性文件(人社厅)

格式:

  • PDF 扫描版(图片)
  • Word 文档
  • 网页 HTML
  • 红头文件(图片)

1. 政策文件数字化

  • 扫描版 PDF 用 OCR 转文字
  • 保留文件结构(章节、条款)
  • 提取元数据(发文机关、日期、文号)

2. 政策条款结构化

用大模型提取:

  • 适用对象(企业类型、行业、规模)
  • 政策内容(补贴、减免、优惠)
  • 申报条件(年限、人数、资质)
  • 申报材料(清单)
  • 截止日期

3. 企业画像

从营业执照 + 社保参保数据提取:

  • 企业类型(国企、民企、外企)
  • 行业分类(国标行业代码)
  • 参保人数
  • 成立年限
  • 注册地址

4. 智能匹配

用向量相似度匹配:

  • 企业画像 vs 政策适用对象
  • 输出匹配度评分
  • 排序推荐

匹配到适用政策后,RPA 自动:

1. 填写申报表(从企业数据提取)

2. 准备附件(营业执照、参保证明等)

3. 提交到申报系统

4. 跟踪审批进度

在某省上线 6 个月:

  • 数字化政策文件 2300 份
  • 服务企業 8.7 万家
  • 政策匹配准确率 91%
  • 补贴申报率从 23% 提升到 67%
  • 企业获补贴 4.2 亿元

OCR 模型:

  • 红头文件:专用模板(提取文号、发文机关)
  • 普通文档:PaddleOCR 通用识别
  • 表格:TableMaster 提取结构化数据

大模型微调:

  • 用 500 份政策文件做 SFT
  • 训练条款抽取能力
  • 输出 JSON 格式结构化数据

匹配算法:

  • 企业特征和政策条件做向量嵌入
  • 用余弦相似度计算匹配度
  • 阈值 0.75 以上判定为匹配

问题 1:政策更新快

  • 每天爬取人社部、省政府网站
  • 新政策自动 OCR 数字化
  • 旧政策自动标注失效

问题 2:地方政策差异大

  • 按地市建立政策库
  • 企业注册地址匹配属地政策
  • 跨区域经营企业推送多地政策

问题 3:申报条件复杂

  • 有些政策有多个条件(且/或关系)
  • 用规则引擎解析条件逻辑
  • 逐项验证企业是否符合

同一套能力可用于:

  • 税收优惠政策匹配
  • 科技项目申报
  • 人才引进补贴
  • 稳岗返还申请

关键词:社保政策直达、OCR 政策数字化、RPA 自动申报、政策匹配、企业补贴