DeepSeek-OCR – 青瓜传媒

Deepseek-OCR使用指南！

青瓜传媒 — Mon, 27 Oct 2025 08:31:31 +0000

在大型语言模型（LLM）的世界里，一直存在一条近乎铁律的成本法则——“令牌经济学”（Tokenomics）。传统上，文本被认为是“令牌高效”的，处理起来相对经济；而图像则是“令牌低效”的，转换成令牌后会消耗海量的计算资源。因此，行业内的普遍共识是，尽可能在文本层面解决问题。

但如果说，让AI处理一篇长文最经济的方式，不是去“阅读”它，而是先把它“看”成一张图片，你会怎么想？

这个彻底违背直觉的想法，正是DeepSeek-OCR模型的核心。本文将为你揭示它带来的4个足以颠覆我们对AI认知的革命性启示。

1. 启示一：AI“读”文本的最佳方式，是先把它变成图像

核心概念解释

DeepSeek-OCR的核心范式转移在于“上下文光学压缩”（Contexts Optical Compression）。它不再将文本视为需要通过分词器（tokenizer）处理的字符序列，而是将其渲染成图像，再作为一种可被高效压缩的视觉信息来处理。模型将整个文档页面视为一幅图像，通过先进的视觉编码器，将其压缩成数量极少但信息密度极高的视觉令牌。

引用权威观点

这一思想的颠覆性得到了业界领袖的认可。如OpenAI联合创始人Andrej Karpathy所指出的，DeepSeek-OCR代表的可能是一种更优越的LLM输入模态。他认为，未来AI应将图像作为主要输入，以此绕开传统分词器的弊端，并将所有信息统一到像素这一通用格式，从而简化和泛化整个输入管道。

分析与反思

这一思想的革命性之处在于，它不仅仅是技术上的改良，更是对LLM处理信息方式的一次根本性重构。它将解决问题的重心从传统的自然语言处理（NLP）转向了以计算机视觉（CV）为核心的解决方案，为突破长文本处理瓶颈开辟了一条全新的道路。

2. 启示二：十五倍压缩，近乎无损——令牌经济学的彻底颠覆

展示惊人数据

DeepSeek-OCR的压缩效率是其最引人注目的特点。具体数据显示，一篇包含1000个单词（在传统分词器下约等于1500个文本令牌）的文章，可以被光学压缩为仅仅100个视觉令牌。这意味着高达 15倍的效率提升，从根本上降低了处理长文本的计算成本。

强调高保真度

高压缩率并没有以牺牲准确性为代价。在Fox基准测试中的数据证明了其卓越的保真度：

在低于10倍的压缩比下，OCR解码精准度高达97%。
在9.7倍的有效压缩下（处理包含900-1000个文本令牌的页面），精准度达到了96.8%。

提炼核心价值

DeepSeek-OCR的真正突破，不在于高压缩率或高准确率本身，而在于同时实现二者。它在将计算成本降低15倍的同时，信息保真度的损失却不足4%（仍保持96.8%的准确率）——这一全新的性价比，从根本上重塑了处理长文档的经济学。它引入了“每令牌准确率”（accuracy-per-token）这一衡量计算效率的新维度，并在此维度上建立了显著的领先地位。

3. 启示三：绕过RAG，实现“无限”上下文的全新可能

点明行业痛点

当前处理长文档的主流技术是检索增强生成（Retrieval-Augmented Generation, RAG）。但RAG系统实现复杂，且其工作方式是检索并处理离散的文本片段，而非对整个知识库进行整体理解。

提出全新方案

光学压缩技术为解决“长上下文难题”提供了一条全新的、可能更优越的路径。一个具体的应用场景是：企业可以将公司所有的内部文档一次性压缩并输入到模型的上下文中，然后对整个知识库进行整体性推理。这与RAG只能检索几个相关片段的方式形成了鲜明对比，光学压缩允许模型对整个数据集的压缩表征进行全面理解。

分析其深远影响

这一变革对企业工作流具有深远的潜在影响。它可能催生出全新的AI应用，从根本上改变企业与海量内部知识库的交互方式，使得真正意义上的“全局知识问答”和深度洞察成为可能。

4. 启示四：模拟人类记忆，AI也能“选择性遗忘”

引入前瞻概念

该技术还为构建更先进的AI记忆系统提供了一个极具前瞻性的理论基础。其可动态调整的压缩比，可以被用来模拟人类的记忆机制。

阐述工作原理

这个“可控的遗忘机制”可以用一个生动的比喻来解释：近期发生的重要信息，可以像高清照片一样，以低压缩率、高保真地存储在AI的“记忆”中；而久远或次要的信息，则被逐渐压缩成一个“模糊”的概要，就像我们对往事的回忆一样，只保留关键轮廓。通过调整压缩率，AI可以在有限的计算资源下，实现理论上无限长的上下文记忆。

探讨未来意义

这一概念的重要性在于，它是迈向更具生物学合理性的AI记忆架构的一步。对于开发能够进行长期持续学习、并与环境进行持久交互的智能体而言，这种动态调整记忆精度的能力具有非凡的意义。

当AI学会“看”世界

DeepSeek-OCR的意义远超一个OCR工具。它是一次成功的技术验证，证明了“上下文光学压缩”是解决AI领域长期挑战的一条潜力巨大的新路径。它不仅在性能和效率上取得了突破，更重要的是，它为我们展示了一种全新的AI信息处理范式。

我们正在见证一个以视觉为中心的AI未来的到来。在这个未来里，计算机视觉和自然语言处理的界限将变得模糊，AI将以一种更统一、更高效的方式处理一切信息。

当AI开始以“看”作为接收所有信息的主要方式时，一个真正统一的人工智能架构离我们还有多远？

作者：灵山下的小妖怪

DeepSeek-OCR 发布：1个视觉token，抵得上10个文本token

青瓜传媒 — Wed, 22 Oct 2025 01:42:24 +0000

之前和 OpenAI 的做交流，突然提了一个问题文字，是信息压缩的最好方式吗？

当时没想太多，直到今天DeepSeek 开源了 DeepSeek-OCR用 10 个视觉 token，表达 100 个文本 token

github.com/deepseek-ai/DeepSeek-OCR

我突然意识到：这个问题可能有答案了具体对比：

DeepSeek-OCR用100个token，超过了GOT-OCR2.0的256个token
DeepSeek-OCR用800个token，超过了MinerU2.0的6000+token
即使压缩到20倍，准确率还有60%

DeepSeek-OCR在不同压缩比下的准确率

为什么重要

现在所有的多模态大模型都面临一个瓶颈：token 消耗太多了

处理一页 PDF 就要消耗几千个 token如果你想处理一本书、一份研究报告、一堆财务文档context window 立刻就爆了每个 token 都要算钱、消耗显存、拖慢推理速度

DeepSeek-OCR 用数据告诉你10 倍压缩，几乎无损

信息论视角

对于这个问题Hacker News 上展开了很大的讨论

是当前 Hacker News 上的最火话题

“为什么这种方法有效？”

“是不是文本 token 太粒状了，没接近理想的熵编码？”

“切换到视觉 token 是不是逃脱了’一次一个词’的限制？”

Hacker News 评论第一条

有个回答说的很有意思文本 token 本质上是离散的查找表你有个小整数（token ID）然后查表得到一个向量

但视觉 token 是连续值向量没有查找表直接从图像编码成向量

这意味着什么？文本 token 的「token 空间」是有限的通常就 10 万个可能的 token每个 token 对应一小段 UTF-8 字节而且大多数分词器不会创建跨越词边界的 token

视觉 token 的「token 空间」要大得多它是高维浮点数向量，每个维度都可以取很多值所以视觉 token 能传达更多的 bits per token这才是压缩的关键

另一个人补充文本 token 是子词单元视觉 token 在语义空间语义空间显然比子词切片压缩得多

免责声明：我不懂

还有人从视觉角度解释人类就是通过视觉看文本的所以文本必须有适应视觉噪声的机制看起来相似的词不能出现在相似的上下文否则会混淆

挺有意思的文本为了适应视觉识别反而在编码上有些”冗余”而视觉 token 直接在语义空间工作可以更高效所以 10 倍的压缩比

从信息论角度看其实挺合理的DeepSeek-OCR 做的事情是把这个直觉量化了用实验数据证明：一图确实胜千言

当然，我并不是这个领域的，评价不到正确与否，有懂的兄弟，还请评论区指导

怎么做到的

DeepSeek 这个东西的核心是一个叫 DeepEncoder 的架构380M 参数

这东西的设计很讲究它由三部分组成80M 的 SAM-base + 16 倍的卷积压缩器 + 300M 的 CLIP-large

DeepEncoder架构流程图

这个设计有两个关键

第一个关键是「低激活」大部分 VLM 的视觉编码器激活值特别大InternVL2-76B 的激活参数是 76BQwen2.5-VL-72B 的激活参数是 72BDeepSeek-OCR 的解码器虽然是 3B 参数但激活参数只有 570M因为它用了 MoE 架构每次只激活一部分专家这意味着推理时显存占用小、速度快

第二个关键是「多分辨率统一」它设计了 6 种模式从 Tiny 模式的 64 个 token到 Gundam 模式的 800+ 个 token你可以根据文档复杂度选择幻灯片用 Tiny 就够了报纸得用 Gundam

另外值得一提的是DeepSeek-OCR 不只能识别文字还能「深度解析」文档里的图表、几何图形、化学式论文里叫这个能力 OCR 2.0比如金融报告里的图表它能直接转成结构化数据化学文档里的结构式它能转成 SMILES 格式

化学结构，也不在话下

这对金融、科研、教育领域太关键了

最有想象力的部分

论文最后有个很酷的设想

用降低图像分辨率来模拟人类的记忆遗忘

这个类比特别有意思人类记忆有个特点越久远的事情，记得越模糊刚发生的事，记得清清楚楚

一小时前的事，还很清晰一天前的事，开始模糊一周前的事，已经很模糊一年前的事，几乎忘光了

视觉感知也是这样10cm 的东西看得清清楚楚20m 的东西几乎看不清DeepSeek-OCR 提出可以用分辨率来模拟这种衰减

DeepSeek-OCR 提出了一个对应关系他们把不同的分辨率模式对应到人类记忆和视觉感知的清晰度等级这个类比是这样的

一小时前的事，还很清晰，对应Gundam模式（800+tokens）
一周前的事，已经很模糊，对应Base模式（256tokens）
一年前的事，几乎忘光了，对应Tiny模式（64tokens）

记忆遗忘机制：时间维度、距离维度、分辨率维度

最近的对话用高分辨率更早的对话逐渐降低分辨率这样既保留了历史信息又控制了 token 数量远期记忆自然「淡化」就像人类遗忘一样

这个设想论文里说还是早期阶段但想象空间很大如果真的能做到就能实现「理论上无限的 context window」

因为你不需要保持所有信息的高保真度只需要让信息随时间衰减就像人类记忆一样

开源和局限

整个项目采用 MIT 许可证开源代码、模型权重、技术论文全部公开

GitHub：

github.com/deepseek-ai/DeepSeek-OCR

Hugging Face：

huggingface.co/deepseek-ai/DeepSeek-OCR

说回来这个模型也有局限它不是聊天机器人因为没有 SFT 阶段某些能力需要用特定的 prompt 才能激活

超过 10 倍的压缩准确率会明显下降记忆遗忘机制还只是设想真正验证它在长上下文场景的效果需要更多实验

但即使有这些局限DeepSeek-OCR 已经证明了一件事视觉-文本压缩这条路是走得通的

最后

DeepSeek-OCR 最有价值的地方不在于它是一个好用的 OCR 工具而在于它用数据验证了一个假设视觉 token 确实可以更高效地表达信息

现在所有的 VLM 都是几千个 token 起步推理慢、显存占用大、长文档处理困难如果能把视觉 token 压缩 10 倍还几乎无损整个多模态系统的效率都能提升一个量级

记忆遗忘机制的设想也很有意思人类会遗忘不是因为大脑容量不够而是因为遗忘本身是一种优化策略

你不需要记住所有细节只需要记住重要的、近期的信息如果这条路真的走通了可能会改变我们对长上下文问题的理解不是无限扩大 context window而是让信息自然衰减就像人类记忆一样

回到开头 OpenAI 朋友的那个问题文字，是信息压缩的最好方式吗？DeepSeek-OCR 用数据给出了答案

而且，它是开源的任何人都可以用、可以改进、可以基于它做研究

作者：赛博禅心

来源：赛博禅心