从 PDF 中提取数据之所以具有挑战性,主要源于技术限制和实际工作流程障碍,核心问题包括:

  1. 大量 PDF 为扫描图像:人类可直接阅读,但计算机必须通过光学字符识别(OCR)技术才能识别其中的文本
  2. 手动操作效率低下:即使经过 OCR 处理的 PDF,手动复制粘贴仍耗时费力、容易出错,且无法应对海量文档
  3. 数据格式不统一:不同来源、不同类型的 PDF 文档格式各异,增加了数据提取的复杂度