2024 年人社部出了 37 个新政策文件,企业 HR 根本看不过来。
哪些政策适用自己公司?能享受什么补贴?申报条件是什么?一问三不知。
某省人社厅用 OCR+RPA+ 大模型,实现”政策找企业”。企业上传营业执照,自动匹配适用政策,推送可申报的补贴项目。
政策类型:
- 法律(全国人大)
- 行政法规(国务院)
- 部门规章(人社部)
- 地方性法规(省市人大)
- 规范性文件(人社厅)
格式:
- PDF 扫描版(图片)
- Word 文档
- 网页 HTML
- 红头文件(图片)
1. 政策文件数字化
- 扫描版 PDF 用 OCR 转文字
- 保留文件结构(章节、条款)
- 提取元数据(发文机关、日期、文号)
2. 政策条款结构化
用大模型提取:
- 适用对象(企业类型、行业、规模)
- 政策内容(补贴、减免、优惠)
- 申报条件(年限、人数、资质)
- 申报材料(清单)
- 截止日期
3. 企业画像
从营业执照 + 社保参保数据提取:
- 企业类型(国企、民企、外企)
- 行业分类(国标行业代码)
- 参保人数
- 成立年限
- 注册地址
4. 智能匹配
用向量相似度匹配:
- 企业画像 vs 政策适用对象
- 输出匹配度评分
- 排序推荐
匹配到适用政策后,RPA 自动:
1. 填写申报表(从企业数据提取)
2. 准备附件(营业执照、参保证明等)
3. 提交到申报系统
4. 跟踪审批进度
在某省上线 6 个月:
- 数字化政策文件 2300 份
- 服务企業 8.7 万家
- 政策匹配准确率 91%
- 补贴申报率从 23% 提升到 67%
- 企业获补贴 4.2 亿元
OCR 模型:
- 红头文件:专用模板(提取文号、发文机关)
- 普通文档:PaddleOCR 通用识别
- 表格:TableMaster 提取结构化数据
大模型微调:
- 用 500 份政策文件做 SFT
- 训练条款抽取能力
- 输出 JSON 格式结构化数据
匹配算法:
- 企业特征和政策条件做向量嵌入
- 用余弦相似度计算匹配度
- 阈值 0.75 以上判定为匹配
问题 1:政策更新快
- 每天爬取人社部、省政府网站
- 新政策自动 OCR 数字化
- 旧政策自动标注失效
问题 2:地方政策差异大
- 按地市建立政策库
- 企业注册地址匹配属地政策
- 跨区域经营企业推送多地政策
问题 3:申报条件复杂
- 有些政策有多个条件(且/或关系)
- 用规则引擎解析条件逻辑
- 逐项验证企业是否符合
同一套能力可用于:
- 税收优惠政策匹配
- 科技项目申报
- 人才引进补贴
- 稳岗返还申请
—
关键词:社保政策直达、OCR 政策数字化、RPA 自动申报、政策匹配、企业补贴