跳转到主要内容

单卡日处理 20 万页文档,DeepSeek-OCR 开源上线

日期: 栏目:建站百科 浏览:

10 月 21 日消息,据「Al寒武纪」报道,DeepSeek 团队近日发布全新研究成果 DeepSeek-OCR,提出「上下文光学压缩」方法,为大模型长文本处理带来突破性思路。

单卡日处理 20 万页文档,DeepSeek-OCR 开源上线

研究显示,通过将长文本渲染为图像,再转化为视觉 token,能够在保持高精度的同时显著降低计算成本。

实验数据显示,在小于 10 倍压缩率下,OCR 解码准确率高达 97%;即便在 20 倍超高压缩率下,准确率仍能维持在约 60%。在权威文档解析基准 OmniDocBench 上,该模型以更少的视觉 token 超越了多项主流 SOTA 模型。

在实际应用中,单台 A100-40G GPU 每天可处理超过 20 万页文档,为大模型训练提供海量数据支持。

目前,相关代码与模型权重已在 GitHub 与 Hugging Face 平台开源。

GitHub:https://github.com/deepseek-ai/DeepSeek-OCR/

Hugging Face:https://huggingface.co/deepseek-ai/DeepSeek-OCR

声明:内容来源公开的各类媒体平台,若收录的内容侵犯了您的权益,请联系邮箱,本站将第一时间处理。
标签: