15321537236

{label:logot1}

OCR技术

您当前位置>首页 >> OCR技术 >> OCR技术

深度学习在OCR中的训练数据通常来自哪里?

发表时间:2024-11-03 20:45:46

文章来源:超级管理员

浏览次数:1

深度学习在OCR中的训练数据通常来自以下几个渠道:

  1. 公开数据集:许多公共数据集可供使用,例如ICDAR系列、COCO-Text、MNIST、CIFAR等。这些数据集通常由研究人员和组织提供,并已经标注了类别、标签、对象等信息,以便用于机器学习的训练和评估

  2. 合成数据集:合成数据集是通过计算机生成的数据,例如SynthText (ST)数据集,它由牛津大学工程科学系视觉几何组发布,包含80万张图片中人工加入了800万个文本,这种合成并不是很生硬的叠加,而是作了一些处理,使文字在图片中看起来比较自然

  3. 网络爬虫:可以从网络爬虫获取数据,即通过自动化的方式从互联网上抓取包含文本的图像。

  4. 开源数据集:一些项目和研究团队会开源他们的数据集,如百度的PaddleOCR提供的通用中英文OCR数据集

  5. 内部业务系统:一些公司可能会使用自己的数据集,这些数据集可能包括用户行为、产品销售、交易记录、用户评论等,这些数据可能需要经过清理、预处理和标注才能用于训练深度学习模型。

  6. 众包标注:一些平台可以为研究人员和公司提供众包标注服务,例如Amazon Mechanical Turk、Figure Eight等,这些服务通常由人工智能公司或独立供应商提供,旨在帮助研究人员和公司快速获得高质量的数据标注。

  7. 特定领域数据收集:对于特定领域(如医疗、金融等),需要收集该领域特有的文本图像,这些数据可能来自专业机构或通过合作伙伴关系获得

  8. 数据增强:通过对已有数据进行旋转、翻转、缩放等技术处理,增加数据集的多样性和数量,以提高模型的泛化能力。

这些来源可以为深度学习OCR模型提供丰富的训练数据,帮助模型学习识别各种场景下的文本。


相关行业趣文查看更多