📄 开源OCR Doctr:集成 TensorFlow 与 PyTorch 的无缝 OCR 框架 在 OCR 领域,很多工具要么太重(比如 Tesseract… 📅 2 月 08, 2026 ✍️ zhangmu 阅读更多 →
📄 开源OCR 适配各种规模:从 1B 到 78B 的 InternVL 选型 做技术选型,最忌讳的是“只看参数量,不看架构”。 对于多模态… 📅 2 月 07, 2026 ✍️ zhangmu 阅读更多 →
📄 开源OCR InternVL 2.5:大规模视觉语言模型的工业级落地 做过视觉模型落地的人都知道,传统的 LLaVA 架构有一个致… 📅 2 月 07, 2026 ✍️ zhangmu 阅读更多 →
📄 开源OCR 从预训练到推理:在 Hugging Face 上玩转 Microsoft TrOCR 做过 NLP 的同学看到 TrOCR 的架构会觉得极其眼熟。… 📅 2 月 07, 2026 ✍️ zhangmu 阅读更多 →
📄 开源OCR TrOCR:当 Transformer 遇见 OCR,端到端识别的精度巅峰 在 OCR 的技术演进史上,TrOCR 是一个分水岭。 在此… 📅 2 月 07, 2026 ✍️ zhangmu 阅读更多 →
📄 开源OCR Surya 架构深度探析:基于 Vision Transformer 的文本行检测 在 PaddleOCR 称霸的这几年里,DBNet 是绝对的… 📅 2 月 07, 2026 ✍️ zhangmu 阅读更多 →
📄 开源OCR 多列布局识别:Surya 在扫描版书籍数字化中的实战表现 做书籍数字化,最怕的不是字认不出来,而是结构丢了。 扫描版 … 📅 2 月 07, 2026 ✍️ zhangmu 阅读更多 →
📄 开源OCR Surya:挑战传统,号称比传统OCR快4倍的下一代识别引擎 做文档处理的兄弟们,应该都经历过 Tesseract 的折磨… 📅 2 月 07, 2026 ✍️ zhangmu 阅读更多 →