开云体育(中国)官方网站靠密集全局把稳力捏文档语义-Kaiyun网页版·「中国」开云官方网站登录入口

发布日期：2025-11-15 12:35 点击次数：187

两东说念主小团队，仅用两周就复刻了之前被硅谷夸疯的 DeepSeek-OCR？？

复刻版名叫DeepOCR，归附了原版低 token 高压缩的中枢上风，还在关键任务上追上了原版的线路。

十足开源，何况无需依赖大范围的算力集群，在两张 H200 上就能完成考验。

DeepSeek-OCR 的联想念念想是"靠视觉压缩一切"，通过用小数的视觉 token 来默示蓝本需要大批文本 token 的实验，以此镌汰大模子的诡计支出，贬责了大模子处理长文本的算力爆炸贫瘠。

两东说念主小团队能在短时候里复刻出中枢智商，若何作念到的？

更实用的复刻版

先来浅近纪念一下 DeepSeek-OCR 为啥会大爆。

大模子处理长文本时，算力会随着序列长度呈二次方增长，几百页的文档就能把显存撑爆。

而 DeepSeek-OCR 想出了个反学问的解法——把翰墨渲染成图片，用视觉模态当压缩绪论。

这么一来，蓝本要几千个文本 tokens 智力承载的实验，几百个视觉 tokens 就够了，压缩比能作念到 7-20 倍，何况10 倍压缩下准确率还能保持 97%。

也难怪它一开源就火了，还被称为" AI 的 JPEG 时刻"。

而两东说念主小团队复刻的核情绪策也很明确，先把原版的逻辑架构精确归附。

DeepSeek-OCR 架构

DeepSeek-OCR 的灵魂就在于 DeepEncoder 编码器。在这部分上，团队严格遵从原版联想，罗致「局部处理 - 压缩 - 全局引诱」的三阶段串通结构。

第一步用 SAM-base 处理高分歧率图像，把 1024 × 1024 的图切成 16 × 16 的补丁，靠窗口把稳力适度激活内存，就算生成 4096 个开动 token 也不会让显存过载；

然后用 16 × 卷积压缩器、两层 3 × 3 卷积把 4096 个 token 砍到 256 个，还把特征维度从 256 扩到 1024，为后续的全局把稳力减负；

临了用 CLIP-large 接办，但它不读原图，只处理压缩后的 256 个 tokens，靠密集全局把稳力捏文档语义，闪避了纯全局把稳力的内存爆炸问题。

复刻版还像原版同样，把 CLIP 的补丁特征和展平后的 SAM 特征拼接，输出 2048 维的会通特征。

不外，在解码器上，复刻版作念了个更求实的调整，把原版激活参数为 570M 的DeepSeek-3B-MoE 换成了 Qwen2-7B-Instruct。

作念这个调整倒不是本领归附不了，而是 Qwen2-7B-Instruct 和 VILA 考验框架兼容性更好，何况是十足开源的。

从后头的终端上看，这个替换是合理的，中枢智商没丢，还镌汰了落地门槛。

在考验上，DeepOCR 的低算力友好特点体现得很较着。

罗致两阶段考验过程，且全程冻结 DeepEncoder（SAM+CLIP），这个联想就大幅镌汰了显存需求。

第一阶段仅考验多模态投影仪，冻结 DeepEncoder 与 LLM，罗致 512 的全局 batch size、1e-3 学习率，祛除 AdamW 优化器与 ZeRO-3 卸载本领；

第二阶段是全模子预考验，考验多模态投影仪与 LLM，仍冻结 DeepEncoder，全局 batch size 降至 32，学习率调整为 5e-5，同期开启梯度检查点进一步减少激活内存占用。

这套考验有联想不错在 2 × H200 GPU 上跑通，仍是挺适配中小团队资源条目的。

再看实测数据，压缩遵循上，DeepOCR 用约 250 个视觉 tokens，遵循固然稍失神于 DeepSeek-OCR Base 版，但 Qwen2.5-VL-7B 等基线 VLMs 需要 3949 个 token 智力达到雷同遵循。

这也印证了光学压缩逻辑的灵验性。

基础任务中，英文文本识别和表格领会线路超越，尤其表格领会致使优于原版，这也收成于对原版 2D 空间编码的精确归附。

在 olmOCR 基准里，浅近文档的基础 OCR 智商也很塌实，与原版线路接近。

天然，DeepOCR 和原版客不雅上的差距也有，但并不是架构没归附好，而是考验数据的实现。

团队默示接下来会补没收式、多谈话、旧扫描件等数据，试试动态温度缩放、RLVR 这些本领，把复杂任务的差距再收缩。

两东说念主团队先容

Ming Liu 本科毕业于山东大学，专科是欺诈物理。其后在北京大学拿到了物理硕士学位，现在在爱荷华州立大学攻读诡计机博士，商讨聚焦于多模态领域。

曾在亚马逊担任欺诈科学家实习生，从事 LLM 相干使命。

刘世隆在清华大学拿到了工学学士和诡计机博士学位，现为普林斯顿大学东说念主工智能实验室博士后商讨员。商讨领域在 LLM 智能体、多模态、诡计机视觉等方面。

在加入普林斯顿之前，他曾是字节 Seed 团队的科研东说念主员。还曾在英伟达、微软等公司实习过。

名堂主页：

https://pkulium.github.io/DeepOCR_website/

代码地址：

https://github.com/pkulium/DeepOCR

一键三连「点赞」「转发」「禁绝心」

迎接在评述区留住你的目标！

— 完 —

� � 年度科技风向标「2025 东说念主工智能年度榜单」陈说行将于 11 月 17 日截止！点击了解细目

❤️‍� � 企业、居品、东说念主物 3 大维度，共设置了 5 类奖项，临了时刻一说念冲刺� �

一键温存 � � 点亮星标

科技前沿进展逐日见开云体育(中国)官方网站

开云体育(中国)官方网站靠密集全局把稳力捏文档语义-Kaiyun网页版·「中国」开云官方网站登录入口

热点资讯

相关资讯

开云体育(中国)官方网站靠密集全局把稳力捏文档语义-Kaiyun网页版·「中国」开云官方网站 登录入口

热点资讯

相关资讯

开云体育(中国)官方网站靠密集全局把稳力捏文档语义-Kaiyun网页版·「中国」开云官方网站登录入口