一、 信创基础运行环境要求(建议设为“一票否决项”)
系统必须实现从底层硬件到上层应用的全栈国产化兼容,拒绝“部分信创”或“中间件依赖”。
- 底层算力架构: 必须原生支持并深度适配 ARM 架构(如鲲鹏、飞腾)与 X86 架构(如海光、兆芯)的国产 CPU。如需 GPU 算力加速,需出具针对国产 AI 芯片(如昇腾 NPU、海光 DCU)的适配证明及算力调度方案。
- 操作系统环境: 需提供在统信 UOS(服务器版)及银河麒麟(高级服务器版)上的双重兼容性互认证报告。
- 国产数据库与中间件: 核心业务数据及日志必须支持存储于达梦、人大金仓等国产关系型数据库;系统的消息分发与服务路由需全面兼容东方通、宝兰德等国产中间件。系统内不得暗藏未披露的海外开源底层依赖。
二、 核心性能与高可用压测指标(关键技术评分项)
在全栈信创底座(明确指定某款国产 CPU 核心数及内存大小)下,信创OCR 系统必须通过以下极限压测:
- 跨架构算力损耗率: 同等并发压力下,系统在国产 CPU 架构上的 QPS(每秒查询率)相比于传统 X86(Intel/AMD)架构,性能衰减率不得高于 20%。
- 72小时 OOM 极限测试: 连续 72 小时满负载注入混合票据及长文档识别请求,系统内存与显存占用率必须保持平稳(存在明确上限),不得发生内存泄漏(Memory Leak)导致的系统宕机或进程自动重启。
- 异构并发与 TP99 延迟: 在模拟 200 并发请求时,系统需具备异步队列缓冲能力。99% 的核心财务票据(如增值税发票)识别响应时间(TP99)不得超过 1.5 秒。
三、 财务共享中心专属业务要求
系统不能仅仅是一个“识别黑盒”,必须具备深入财务业务流的结构化数据处理能力。
- 多租户(Multi-tenant)物理级隔离: 系统需支持集团级统一部署,同时为下属各分公司/项目部开辟独立的租户空间。各租户间的表单模板、识别规则与业务数据必须实现严格的逻辑隔离,确保数据互不可见。
- 复杂无线表格与逻辑重构: 针对多页 PDF 格式的银行流水、对账单,系统必须具备版面还原能力。能够精准跨页合并无线表格,并直接输出带有行列对应关系的结构化数据(JSON 或 Excel),不得仅返回散乱的文字坐标。
- 内嵌财务逻辑校验引擎: 系统需自带规则引擎,在输出识别结果前,自动完成基础财务逻辑校验(如:大写金额与小写金额比对、发票单价×数量=总价校验、税额与税率匹配校验),直接拦截无效或篡改单据。
四、 工程化交付与持续迭代能力
- 知识产权与合规: 核心识别算法网络(包含文本检测与字符识别)必须为厂商纯自主研发。针对系统代码,厂商需出具第三方权威机构的代码审计报告,确保不存在因违反 GPL 等开源协议而导致的商业化合规风险。
- 私有化闭环训练工具: 针对集团内部非标准的地方性票据或历史陈旧档案,厂商需在本地局域网内交付一套轻量级的 AI 标注与训练平台。支持业务人员通过小样本标注(Few-shot)自行训练专有模型,确保敏感数据 100% 不出内网。