DeepSeek – 青瓜传媒

确认！DeepSeek多模态AI已经开测

青瓜传媒 — Thu, 30 Apr 2026 03:51:43 +0000

DeepSeek的视觉功能，真的来了！！

DeepSeek研究员陈小康发帖放出一条消息——

Now, we see you.

随后，另一位研究员陈德里也跟了一条，确认V4视觉模式已经开始灰度测试。

怎么说，小鲸鱼的多模态拼图，要补齐了。

已经具备真实图像理解能力

之前上传图片，模型只能识别图片中的文字，做做OCR工作。

今天一个小更新之后，被灰度到的幸运鹅首页已经出现了识图模式，下面还有一行小字表示图片理解能力内测中。

从幸运鹅分享的截图来看，DeepSeek视觉测试版已经具备真实图像理解能力，识别出了图片里的饮品、杯型等信息，思考4秒输出了完整的描述。

这是一张没有明显文字的图，明显与之前仅识别文字的模式不一样了。

V4，满血归来

放出消息的两位研究员，其中一位是陈小康，DeepSee多模态研究组负责人，北大博士毕业。

他是DeepSeek两个重磅多模态项目的核心作者：Janus系列统一多模态理解与生成模型；DeepSeek-VL2基于MoE架构的视觉语言模型。

简单说，DeepSeek的视觉能力，就是他带队搞出来的。

另一位陈德里主要负责语言模型、对齐机制、训练策略及模型泛化能力等核心方向。

在过去两年的时间里，DeepSeek发布的多项重要研究成果，无论是V2、V3还是R1，几乎都能看到他的名字，这次的V4也不例外。

价格打骨折之后，视觉功能又来了，请问还有什么惊喜是我们不知道的！！！

不得不说，DeepSeek V4，这次是真满血归来了。

作者：凹非寺量子位

来源：量子位

DeepSeek-V4 预览版：迈入百万上下文普惠时代

青瓜传媒 — Sat, 25 Apr 2026 00:15:29 +0000

今天，我们全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。

DeepSeek-V4 拥有百万字超长上下文，在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。模型按大小分为两个版本：

即日起登录官网 chat.deepseek.com 或官方App，即可与最新的 DeepSeek-V4 对话，探索 1M 超长上下文记忆的全新体验。API 服务已同步更新，通过修改 model_name 为 deepseek-v4-pro 或 deepseek-v4-flash 即可调用。

DeepSeek-V4-Pro：性能比肩顶级闭源模型

Agent 能力大幅提高：相比前代模型，DeepSeek-V4-Pro 的 Agent 能力显著增强。在 Agentic Coding 评测中，V4-Pro 已达到当前开源模型最佳水平，并在其他 Agent 相关评测中同样表现优异。目前 DeepSeek-V4 已成为公司内部员工使用的 Agentic Coding 模型，据评测反馈使用体验优于 Sonnet 4.5，交付质量接近 Opus 4.6 非思考模式，但仍与 Opus 4.6 思考模式存在一定差距。
丰富的世界知识：DeepSeek-V4-Pro 在世界知识测评中，大幅领先其他开源模型，仅稍逊于顶尖闭源模型 Gemini-Pro-3.1。
世界顶级推理性能：在数学、STEM、竞赛型代码的测评中，DeepSeek-V4-Pro 超越当前所有已公开评测的开源模型，取得了比肩世界顶级闭源模型的优异成绩。

DeepSeek-V4-Flash：更快捷高效的经济之选

相比 DeepSeek-V4-Pro，DeepSeek-V4-Flash 在世界知识储备方面稍逊一筹，但展现出了接近的推理能力。而由于模型参数和激活更小，相较之下 V4-Flash 能够提供更加快捷、经济的 API 服务。
在 Agent 测评中，DeepSeek-V4-Flash 在简单任务上与 DeepSeek-V4-Pro 旗鼓相当，但在高难度任务上仍有差距。

结构创新和超高上下文效率

DeepSeek-V4 开创了一种全新的注意力机制，在 token 维度进行压缩，结合 DSA 稀疏注意力（DeepSeek Sparse Attention），实现了全球领先的长上下文能力，并且相比于传统方法大幅降低了对计算和显存的需求。从现在开始，1M（一百万）上下文将是 DeepSeek 所有官方服务的标配。

DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化

Agent 能力专项优化

DeepSeek-V4 针对 Claude Code 、OpenClaw、OpenCode、CodeBuddy 等主流的 Agent 产品进行了适配和优化，在代码任务、文档生成任务等方面表现均有提升。下图为 V4-Pro 在某 Agent 框架下生成的 PPT 内页示例

API 访问

目前，DeepSeek API 已同步上线 V4-Pro 与 V4-Flash，支持 OpenAI ChatCompletions 接口与 Anthropic 接口。访问新模型时，base_url 不变， model 参数需要改为 deepseek-v4-pro 或 deepseek-v4-flash。

V4-Pro 与 V4-Flash 最大上下文长度为 1M，均同时支持非思考模式与思考模式，其中思考模式支持 reasoning_effort 参数设置思考强度（high/max）。对于复杂的 Agent 场景建议使用思考模式，并设置强度为 max。模型调用与参数调整方法请参考 API 文档：

https://api-docs.deepseek.com/zh-cn/guides/thinking_mode

请大家注意：旧有的 API 接口的两个模型名 deepseek-chat 与deepseek-reasoner 将于三个月后（2026-07-24）停止使用。当前阶段内，这两个模型名分别指向deepseek-v4-flash 的非思考模式与思考模式。

开源权重和本地部署

DeepSeek-V4 模型开源链接：

https://huggingface.co/collections/deepseek-ai/deepseek-v4

https://modelscope.cn/collections/deepseek-ai/DeepSeek-V4

DeepSeek-V4 技术报告：

https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

写在后面的话

「不诱于誉，不恐于诽，率道而行，端然正己。」

感谢每一位用户的信任与支持，大家的肯定、建议和期许，是我们不竭探索、持续进步的动力，也让我们始终坚守初心，专注于不懈的创新。

我们将始终秉持长期主义的原则理念，在尝试与思考中踏实前行，努力向实现 AGI 的目标不断靠近。

作者：Deepseek

DeepSeek悄悄更新：Mega MoE、FP4 Indexer来了！

青瓜传媒 — Sun, 19 Apr 2026 00:05:28 +0000

昨天下午，沉寂许久的 DeepSeek 又有新动作了！

不过正如 DeepSeek 自己在 PR 中强调的，和模型没关系，更新了一下 DeepGEMM 代码库。

不过，此次更新，我们看到了一个新东西：Mega MoE。

链接：https://github.com/deepseek-ai/DeepGEMM/pull/304

Mega MoE 项目贡献者来自 DeepSeek 基础设施团队的 Chenggang Zhao 等人。

Mega MoE 是什么？

如何理解 Mega MoE？先来看看 X 网友思维怪怪的解读：

来源：https://x.com/0xLogicrw/status/2044720884066451645

简单来说，Mega MoE 干的事情是把原本支离破碎的一整套 MoE 计算流程，揉成了一坨，一次性在 GPU 上跑完。

过去的 MoE，有点像一个被拆成很多工位的流水线。token 先被分发（dispatch）到不同专家，然后做一层线性变换，再过激活函数（SwiGLU），再来一层线性，最后再把结果拼回去。听起来没问题，但现实是，每一步都要单独起一个 kernel，中间还夹杂着 GPU 之间的数据通信。

于是你会看到一种很典型的低效：算一会儿，等一会儿；传一会儿，再算一会儿。

Mega MoE 想做的是把这条流水线直接焊死：它把 dispatch、两层线性、SwiGLU、combine 这些步骤全部 fuse 到一个 mega-kernel 里。更关键的是，它不只是「合并步骤」，还在做一件更狠的事情：让数据通信和计算同时发生。

也就是说，一边在 Tensor Core 上算，一边在 NVLink 上传，不再是你等我、我等你。

此做法的影响很直接：GPU 不再频繁停顿，利用率更高，尤其是在多卡、大规模 MoE 场景下，这种优化能被直接感受到。有点像把原来一群人在接力搬砖，变成了一台连续运转的传送带。

当然，DeepSeek 这次也没打算只做一个「更快的 kernel」。你能明显感觉到，他们是在往一个方向死磕：把 MoE 的效率压到极限。

比如他们开始尝试 FP8 × FP4 这样的组合精度，还搞了一个 FP4 的 indexer，用在 MQA logits 上。这种操作基本是在逼近「还能不能再省一点算力」的边界。再加上一些 GEMM 的重构、JIT 编译加速，似乎是想要把 DeepSeek 的 AI 打磨得更加强劲。

还有一个细节挺有意思：他们明确说，Mega MoE 还在开发中，性能数据「之后再说」。看起来，这种级别的优化，往往不是一版代码就能定型的，而是要在不同规模、不同拓扑、不同 workload 下反复调。现在放出来，更像是在给社区一个信号：方向已经定了，我们开始往这条路狂奔了。

在此基础上，DeepSeek 也对 DeepGEMM 的描述进行了一些调整：

DeepGEMM 是一个统一的高性能 Tensor Core 内核库，将现代大语言模型的关键计算原语整合在一起，包括 GEMM（FP8、FP4、BF16）、具备通信重叠的融合 MoE（Mega MoE）、用于 lightning indexer 的 MQA 打分、HyperConnection（HC）等，全部汇聚到一个统一且一致的 CUDA 代码库中。所有内核通过一个轻量级的即时编译（JIT）模块在运行时编译，安装过程中无需进行 CUDA 编译。

所以如果一定要给这次更新一个定位，大概可以这么说：这是一次基础设施层的重构尝试。DeepSeek 正在把 MoE 从一种「理论上很美好，但工程上很折腾」的架构，往「可以被大规模、高效率跑起来」的方向推进。

而 Mega MoE，很可能只是第一块拼图；就是不知道这块拼图是不是 DeepSeek-V4 的一部分？

根据 X 网友 St4r 的解读，这也可能暗示了 DeepSeek 所使用的训练卡还是包含了英伟达 AI 加速卡，还是最新、最顶级的 B 系列（而非几个月以来一直传言的，使用国产 AI 训练卡）。

作者：机器之心

来源：机器之心

DeepSeek为啥又崩了？企业最怕的事来了

青瓜传媒 — Wed, 01 Apr 2026 08:14:57 +0000

DeepSeek 在短短三天内连续两次大规模宕机，不仅打破了用户对国产大模型的热切期待，更引发了企业级市场的深度信任危机。文章犀利指出，对于 To B 业务而言，模型能力决定入场券，而服务稳定性才决定存续命脉。

当网页端、APP 与 API 接口轮番崩溃且官方迟迟无法给出根因解释时，这场危机早已超越了单纯的技术故障，演变为一场关于商业信誉的严峻考验。

DeepSeek又崩了！短短三天内已是第二次大中断。

3月31日下午17:02，DeepSeek状态页突然弹出“网页/APP/API性能异常”警报，数百万用户再次遭遇对话中断、刷新无响应，直至18:05才恢复正常。

就在3月29日晚21:35至3月30日上午10:33，平台还经历了成立以来最长单次宕机，网页端和App近12小时彻底瘫痪。

这不是一次孤立事故，而是三天内连续宕机，且影响面在网页、APP、API之间来回扩散。

更关键的是，官方至今没有给出原因。

这恰恰是问题最大的地方。

一家做大模型的公司，偶尔出故障不稀奇，但故障连续发生，范围从消费端一路蔓延到开发者接口，官方还始终没有给出清晰解释，这就问题大了。

对于普通用户，这意味着今晚写不了东西；

对To B客户来说，这意味着另一件更现实的事：

到底能不能把业务流程、客服系统、内容生产、代码生成、内部知识库、外部产品接口，接到这样一个随时可能宕机的平台上？

企业采购模型，从来不只买聪明，更买稳定。模型能力决定你能不能进场，服务稳定性决定你能不能留下。

如果一个模型一边在发布会上讲性能，一边在工作日把网页、APP、API轮流搞崩，它卖的就不是生产力，而是不确定性。

基于现有信息，关于这次DeepSeek为什么连续崩，至少有几种可能：

猜测一：修复引发了新的故障，或者变更本身就是故障源。

状态页时间线显示，3月30日当天官方曾两次表示“已实施修复并持续监控”，但问题并没有真正结束，第二天3月31日又出现新一轮网页/API 异常。

这个节奏很像先做修补，再做回滚，再触发新的瓶颈，或者某个依赖在补丁后出现连锁反应。它不是单点宕机，更像是变更控制失灵。

猜测二：流量压力和容量管理出了问题。

Times of India和彭博摘要都提到，Downdetector在用户侧捕捉到了集中报障，说明这不是后台自嗨式的小事故，而是外部用户确实大面积感知到了异常。

若流量峰值叠加限流、扩容、排队机制失灵，最常见的症状就是“server busy”、响应超时、部分入口先挂、修好后又反复。

到这个时候还在被容量问题反复击穿，说明平台治理并没有跟上用户规模。

猜测三：底层推理集群或路由调度层不稳。

这几次故障并非固定打在同一个入口：有时是网页/APP，有时是网页/API。入口不同，症状不同，但背后可能指向同一套模型服务和资源池。

如果是推理集群、负载均衡、模型路由、缓存或状态管理出了问题，用户看到的就会是多个入口轮番报错。

官方没有公开根因，所以现在不能下结论，但从受影响面的分布看，这比单纯前端崩了更说得通。

猜测四：和新版本或静默更新有关。

这条在社交平台上讨论很多。Reddit上有人直接猜测DeepSeek可能在为V4或某种服务器端更新做准备，也有人说故障后模型行为似乎出现变化。

但这只能算社交平台猜测。现在没有任何官方证据证明故障与新模型发布直接相关。

但不管答案是哪一种，DeepSeek 现在面对的都已经不是一次简单的公关危机，而是一次信誉危机。

DeepSeek现在最该修复的，恐怕不只是服务器，还有市场对它的信心。

作者：世界模型工场

来源：世界模型工场

DeepSeek AI使用技巧

青瓜传媒 — Fri, 20 Feb 2026 00:05:14 +0000

结合日常工作生活琐事，本文以DeepSeek为例讲解如何高效驾驭“AI”，各场景的提效思路。希望大家未来把它当成一个精通各个领域知识、有各个行业经验的朋友，养成借助AI外挂大脑的习惯，往往能事半功倍。小编总结了8大技巧，也可以八剑归一合为一条叫做“学会用聪明人”。

第一，不要教Deepseek R1（下文简称R1）做事，讲清楚目标即可

面对一个聪明人，我们很多时候不需要教他去怎么做，给他定义清楚目标就好，这也是OKR发明的逻辑，发挥他的主观能动性。过去我们在跟普通的比如说GPT4或者是豆包之类的模型去聊天的时候，传统的指令模型都是张口即来，不习惯思考的，所以我们会给他那种长长的结构化提示词给他发过去，这种提示词，R1的效果就很一般了，比如说R1步骤一步骤二反倒是约束得很死板，因为R1是推理模型，R1很聪明很善于思考，不管说什么之前都会深思熟虑。比如我们随便让R1“生成一个1~10之间的随机数”他都会想半天想了这么多什么叫随机数，可以说是属于多虑了。

所以我们不需要像原来一样去跟R1指定思维链，让Deepseek先想什么后想什么，而且大多数情况下我们也不需要要求他用什么框架来回答，普通人知道的思考方式肯定是没有R1多的，不如让R1自己去想，你只需要定义清楚你的目标是什么就够了。比如“我想了解什么是神经网络，但我只有小学学历”R1这个效果都明显要比解释大师要好。

第二，面对聪明的帮手，R1的习惯是：你一问，他就给你一套解决方案

如果你没把背景说清楚，他也不会再问你，他就根据自己的经验来回答了，所以给他提供必要的任务背景，可以还你一套完整的解决方案，例如：“一个32岁的全职妈妈，孩子两岁上托儿班，英语专八，但是已经荒废了5年，每天有3小时碎片时间，求能带孩子工作的轻创业方案”前面是自己情况的描述，就是基础背景，属于你去咨询任何一个人类也得要说清楚的东西；

看R1的思考里面是我们给的这些情况他都考虑到了的，回答里面会包括一个思考过程和有价值的参考结果输出，这两点就是DeepSeek可使用最底层和最基础的原则。

第三，聪明人不但会给答案，提的问题也都是好问题

所以我们可以借助R1向我们反向提问，帮助我们思考，或者是在我们自己提出问题之前，就先让R1来问我们找到一些原问题。比如“我是一个考了三年，去年刚上岸的公务员，但是我适应不了政府职场的无聊氛围，也不想去社交。我今年30岁了，我想辞职重新规划我的人生，请你向我提出一些问题来引导我反思和规划我的人生。”

你看R1提的这些问题（部分截图…），这些其实很可能都是你没有想清楚的。

第四，可以让聪明人风格多变

比如我们可以让R1“用郭德纲的风格来写一篇直播带货的话术”

如果这个风格是一个名人，我们尽量就不用自己去形容这个风格，什么幽默婉约，不要太相信自己的词汇量，找到一个对标就行了，b站、弹幕、百度贴吧、地摊小说这种都算是风格对标，他比你会更get那叫什么风格，如果你要求的风格没有什么代表人物，也可以去发他一点参考。

第五，可以让聪明人见人，说人话，规定对标的受众知识水平

比如“我要给批发市场的老板写个邮件，但是我只想买三件衣服，他一般20件才起卖，请帮我写的，让人觉得我是非常老练内行的批发商，并且让他同意卖给我”这里面就是目的加上了背景，再加上受众。

这个思维链里面，他还考虑到了让你假装有其他的供应商，去暗示自己有很多选择，有计谋（哈哈！！），包括后面什么小批量测款，周四到仓，用术语的同时还表示你有仓。

第六，让聪明人再借用大佬的思维聪明翻倍

比如“如果你是雷军的话，你会怎么评价我这个方案”

第七，聪明人其实都善于辩证思考，有批判性思维

所以说我们也可以利用R1强制我们也考虑到事情的两面性，我们在做一个决定之前，可以先去让DeepSeek挑一遍毛病作为一个缓冲带，看完他的批判之后，你如果还想去，那你就去，比如一个比较激进的例子“我爱上了一个空姐，思来想去我决定追求真爱，净身出户跟我老婆离婚，你觉得我的决定怎么样？用批判的思维来想可以犀利一点”

看到这，是不是很犀利、很有灵魂共鸣！！！

第八，由于他是个聪明人，很多时候都能产生你想不到的思考

所以我们可以大胆的去尝试问一些开放性的问题，探讨更深刻和本质的问题，比如说你的人生规划可以先不着急让R1出一个职业规划，而是先跟它聊聊“你怎么看28岁的中国二本毕业生的人生以及你觉得做职业规划之前应该先问自己什么问题，或者选择一个城市定居意味着什么”

R1还会给到你这么细节的社会知识系统，因为很多时候我们自己在寻求解决方案之前，就有很多问题是没有想清楚的，DeepSeek会给到你一些很发人深省的宏观思考，除了以上的技巧和案例，也有非常多场景可以用，我根据这几年我用AI的经历总结了这几类常用场景，启发一下大家首先日常答疑解惑。

除了以上的技巧和案例，也有非常多场景可以用，

说学习中的各种疑问提问，找工作的朋友还可以把面试的真题发给他用。
信息收集总结类的，比如说分析一个行业，解读一个事件，资料汇总也很擅长。
策划分析写周报、PPT方案合同。
写作直播的话术稿件的大纲、邮件文案等等。
娱乐，比如说就有很多人拿它算命算星座，无聊也可以单纯的跟R1聊一聊

作者：￥多多

从 DeepSeek R1 看推理模型：更强、更贵、更慢？

青瓜传媒 — Thu, 19 Feb 2026 00:15:32 +0000

2024 之后，大模型开始明显分工：同样是 LLM，有的更擅长写代码，有的专攻多模态，有的围绕检索增强（RAG）和智能体做落地。

进入 2025，这种分工更彻底，不再追求一个模型通吃所有任务，而是让不同模型在不同类型问题上更锋利。

推理模型，就是这波分工里最值得单独理解的一类。它在复杂、多步的问题上往往更稳，但也更慢、更贵；如果用错场景，可能会“想太多”，反而更容易翻车。

这篇文章来自一篇外网的文章，原文过于专业，我进行了“转译”以帮助大家理解，原文可点击文末的“阅读全文”查看。

01 推理模型到底是什么：不是更聪明，而是更会多步骤做题

先用个例子把什么是推理说清楚：

像“法国首都是哪儿”这类直接取知识的问答，本质是检索或记忆，不太需要推理。
像“火车每小时 60 英里，开 3 小时走多远”这种，你得先识别关系（路程=速度×时间），再算出结果，才是推理：有步骤、有中间过程、有多次判断。

所谓“推理模型”，通常指它在更难的推理任务上更强，比如：谜题、数学证明、高难代码题、需要连续决策的复杂问题。

很多普通模型也能写步骤，但推理模型更偏向：遇到复杂问题时，能把任务拆开、逐步验证、减少中途走偏的概率。

推理步骤的呈现方式也分两种：

1. 把中间步骤写出来，让你看见它怎么推导；

2. 模型在内部多轮尝试，但不给你展示完整过程，只给最终答案。

02 推理模型的优劣势

可能不少人和我最初一样，面对任何问题都无脑选择推理模型，认为思考时间更长=更准确。

但实际用下来却发现并非如此，有时候反而会觉得它“想太多”。

推理模型更擅长的任务有：

需要一步步推导的任务，比如谜题、数学、严谨逻辑链；
需要把复杂问题拆成多段步骤、再逐段推进的任务；
复杂决策类任务，比如要综合多个条件反复权衡；
面对没见过的新问题时，泛化能力更好，更会举一反三；

推理模型的不足：

更慢：因为它会生成更多中间步骤或内部尝试更多轮；
更贵：步骤多意味着 token 多、算力消耗更高；
知识问答未必更好：纯知识问题可能不会更强，甚至可能“编得更像真的”；
简单问题会过度思考：本来一句话能回答，它可能绕一圈，反而把自己绕晕

所以：只有当问题需要多步推导/多轮判断时，才值得上推理模型；否则优先用普通模型更省、更快、更稳。

03 从 DeepSeek R1 看推理模型

要理解推理模型怎么练出来，DeepSeek R1 是个很好的样本：公开材料足够细，能看到一条相对完整的训练路径。

它不是只发了一个 R1，而是三个版本：

DeepSeek-R1-Zero
DeepSeek-R1（主力版本）
DeepSeek-R1-Distill（蒸馏小模型版）

这三个版本连起来，基本就是推理能力从哪来的一张路线图。

1. R1-Zero：只靠强化学习，也能“逼出”推理行为

R1-Zero 是一个很有代表性的实验：在底座模型（DeepSeek-V3，671B）上，直接用强化学习训练，不走常见的“先监督微调（SFT）再强化学习”的路径。

关键在于奖励怎么给（模型做得好，奖励高；做得差，奖励低）：

准确性奖励。代码题：用编译器/在线判题验证对不对；数学题：用确定性的规则系统判断结果对不对。
格式奖励。用“评委模型”检查输出格式是否符合要求，比如要求把推理步骤放在特定标签里

这一套的意义在于：即使没有先教模型“怎么写推理步骤”，它也可能在训练中逐渐形成推理痕迹，出现某种“推理行为涌现”的现象。

但需要把话说完整：R1-Zero 更像“证明纯强化学习能把推理行为练出来”，并不等于它就是最强可用的推理模型。

要做成稳定好用的产品级推理能力，还得继续往下走。

2. R1 主力版：SFT + 强化学习，才是更现实的强推理路线

真正作为主力的 DeepSeek-R1，用的是更常见、也更稳的组合拳：

监督微调（SFT）+ 强化学习（RL）

整体过程可以按“先把路铺平，再把它跑顺”来理解：

第一步：用 R1-Zero 生成“冷启动”的监督数据

因为一开始没有足够的推理示例数据，就先用 R1-Zero 生成一批可用样本，作为 SFT 的起点。

第二步：先做一次 SFT，再上强化学习

先用监督数据把“基本回答方式”和“推理格式”稳定下来，再用强化学习把难题能力往上推。

强化学习阶段除了准确性、格式奖励，还加了一致性奖励，比如避免中英夹杂、保持输出风格一致。

第三步：扩大高质量 SFT 数据，再做一次 SFT

这里给了一个很关键的量级信息：

生成60 万条带推理链的 SFT 样本
另生成20 万条偏知识型的 SFT 样本

合计约80 万条再做一轮指令微调，让模型既能推理，也不至于知识问答完全失常。

第四步：最终再做一轮强化学习

用可验证任务（数学、代码）把做对题的能力进一步拉稳。

如果你熟悉 RLHF，可以把它理解为一种更强调推理链数据 + 更强调可验证奖励的版本：

SFT 阶段更重推理链样本
RL 阶段更重能客观判对错的任务带来的稳定反馈

3. R1-Distill：把大模型“教出来的能力”，迁移到小模型里

蒸馏版的核心不是“高阶技巧”，而是一个朴素的工程思路：

让强模型生成大量高质量推理样本；
再用这些样本去微调更小的开源模型，例如 Llama、Qwen 的不同参数规模版本；
让小模型也具备不错的推理能力，便于部署、便于低成本使用。

这里的“蒸馏”更像“用老师模型产出训练数据”，它的价值有两点很实际：

小模型更省钱、更好部署（硬件门槛低很多）
这是一个清晰的对照：不靠强化学习，只靠高质量推理数据，能把小模型推到什么水平

上限也要说清楚：蒸馏模型整体不如主力 R1 强，但“相对体量”已经非常能打，很多时候拿来做应用足够好用。

04 推理能力到底怎么做出来

把上面这些抽象成行业可复用的路径，基本就是四条主路线：

路线 A：推理时多花算力

不改模型、不训练，只是在用的时候让它多想几步。常见做法包括：

引导模型一步步推导，这也会生成更多 token；
多答案生成 + 投票，取多数或取更一致的答案；
用搜索策略挑更优解，有些会引入过程评分/过程奖励模型；

这类方法很多发生在应用层：同一个模型，产品做法不同，效果也会不同。

现实里也常见效果更强但更贵（也会更慢），因为推理过程更长。

路线 B：纯强化学习

R1-Zero 属于这一类。优点是路线干净，研究意义大；但要做到稳定可用、覆盖面广，通常还不够。

路线 C：监督微调 + 强化学习（SFT + RL）

这几乎是目前最稳、最能做出顶级推理模型的一条路。

R1 主力版就是样板：先用 SFT 把形态和基本能力拉平，再用 RL 把难题和稳定性往上推。

路线 D：纯监督微调 / 蒸馏

这条路的现实价值是：成本低、门槛低，适合做小而强。

但它也有天然限制：强依赖老师模型和数据质量，想做“下一代突破”更难。

最后，分享三条我自己如何“提问”更容易得到想要结果的经验：

1. 很多时候不给示例反而效果更好，给了示例可能把模型带偏；

2.把问题和输出格式讲清楚，尤其是需要你要表格、要步骤、要结论、要检查项时，把格式写明白。

3.尽量只用一种语言，同一条提示中英混用，推理过程更容易混乱或输出不稳定。

以上，祝你今天开心。

作者：张艾拉

来源：Fun AI Everyday

DeepSeek最新王炸模型来了！

青瓜传媒 — Wed, 28 Jan 2026 01:28:30 +0000

DeepSeek开源了其面向OCR场景的专用模型DeepSeek-OCR 2，技术报告同步发布。这一模型是对去年DeepSeek-OCR模型的升级，其采用的新型解码器让模型看图、读文件的顺序更像人，而不是像机械的扫描仪。

简单来说，以前的模型阅读模式是从左上到右下，地毯式扫一遍图片，DeepSeek-OCR 2则能够理解结构，按结构一步步读。这种新的视觉理解模式，让DeepSeek-OCR 2可以更好地理解复杂的布局顺序、公式和表格。

在文档理解基准测试OmniDocBench v1.5上，DeepSeek-OCR 2拿到了91.09%的得分，在训练数据和编码器都不变的前提下，较DeepSeek-OCR提升了3.73%。与其他端到端的OCR模型相比，这已经是SOTA成绩，但其表现要略逊于百度的PaddleOCR-VL（92.86%）OCR管线。

同时，在相似的视觉token预算下，DeepSeek-OCR 2在文档解析方面的编辑距离（编辑为正确文本所需的工作量）低于Gemini-3 Pro，这证明DeepSeek-OCR 2在确保优越性能的同时保持了视觉token的高压缩率。

DeepSeek-OCR 2兼具双重价值：既可作为新型VLM（视觉语言模型）架构进行探索性研究，也能作为生成高质量预训练数据的实用工具，服务于大语言模型的训练过程。

论文链接： https://github.com/deepseek-ai/DeepSeek-OCR-2/blob/main/DeepSeek_OCR2_paper.pdf

开源地址： https://github.com/deepseek-ai/DeepSeek-OCR-2?tab=readme-ov-file

01.大模型不懂复杂文件结构？先观察全局再阅读便可解决

从架构上来看，DeepSeek-OCR 2继承了DeepSeek-OCR的整体架构，该架构由编码器和解码器组成。编码器将图像离散化为视觉token，而解码器根据这些视觉token和文本提示生成输出。

关键区别在于编码器：DeepSeek将此前的DeepEncoder升级为DeepEncoder V2，它保留了原有的所有能力，但把原本基于CLIP的编码器换成基于LLM的，同时通过新的架构设计引入了因果推理。

DeepEncoder V2关注的核心问题在于：当二维结构被映射为一维序列并绑定线性顺序后，模型在建模空间关系时不可避免地受到该顺序的影响。

这在自然图像中可能尚可接受，但在OCR、表格、表单等具有复杂布局的场景中，线性顺序往往与真实的语义组织方式严重不匹配，从而限制模型对视觉结构的表达能力。

DeepEncoder V2是如何缓解这一问题的？它首先采用视觉tokenizer对图像进行高效表示，通过窗口注意力实现约16倍的token压缩，在显著降低后续全局注意力计算与显存开销的同时，保持了充分的局部与中尺度视觉信息。

它并未依赖位置编码来规定视觉token的语义顺序，而是引入因果流查询（causal queries），通过内容感知的方式对视觉标记进行重排序与蒸馏。这种顺序不是由空间展开规则决定，而是由模型在观察全局视觉上下文后逐步生成，从而避免了对固定一维顺序的强依赖。

每个因果查询可以关注所有视觉token及先前查询，从而在保持token数量不变的前提下，对视觉特征进行语义重排序与信息蒸馏。最终，仅因果查询的输出被送入下游LLM解码器。

该设计本质上形成了两级级联的因果推理过程：首先，编码器内部通过因果查询对无序的视觉标记进行语义排序。随后，LLM解码器在此有序序列上执行自回归推理。

相较于通过位置编码强制施加空间顺序的做法，因果查询所诱导的顺序更贴合视觉语义本身，也就是符合人类阅读内容的正常习惯。

由于DeepSeek-OCR 2主要关注编码器改进，没有对解码器组件进行升级。遵循这一设计原则，DeepSeek保留了DeepSeek-OCR的解码器：一个具有约5亿活跃参数的3B参数MoE结构。

02.OmniDocBench得分达91.09%，编辑距离低于Gemini-3 Pro

为了验证上述设计的有效性，DeepSeek进行了实验。研究团队分三个阶段训练DeepSeek-OCR 2：编码器预训练、查询增强和解码器专业化。

第一阶段使视觉tokenizer和LLM风格的编码器获得特征提取、token压缩和token重排序的基本能力。第二阶段进一步增强了编码器的token重排序能力，同时增强了视觉知识压缩。第三阶段冻结编码器参数，仅优化解码器，从而在相同的FLOPs下实现更高的数据吞吐量。

为评估模型效果，DeepSeek选择OmniDocBench v1.5作为主要的评估基准。该基准包含1355个文档页面，涵盖中英文的9个主要类别（包括杂志、学术论文、研究报告等）。

DeepSeek-OCR 2在仅使用最小的视觉标记上限（V-token maxmax）的情况下，达到了91.09%的性能。与DeepSeek-OCR基线相比，在相似的训练数据源下，它表现出3.73%的改进，验证了新架构的有效性。

除了整体改进外，阅读顺序（R-order）的编辑距离（ED）也显著下降（从0.085降至0.057），这表明新的DeepEncoder V2可以根据图像信息有效地选择和排列初始视觉标记。

在相似的视觉标记预算（1120）下，DeepSeek-OCR 2（0.100）在文档解析方面的编辑距离低于Gemini-3 Pro（0.115），进一步证明新模型在确保性能的同时保持了视觉标记的高压缩率。

不过，DeepSeek-OCR 2也不是全能的。在文本密度超高的报纸上，DeepSeek-OCR 2识别效果没有其他类型的文本好。这一问题后续可以通过增加局部裁剪数量来解决，或者在训练过程中提供更多的样本。

03.结语：或成新型VLM架构开端

DeepEncoder V2为LLM风格编码器在视觉任务上的可行性提供了初步验证。更重要的是，DeepSeek的研究团队认为，该架构具有演变为统一全模态编码器的潜力。这样的编码器可以在同一参数空间内压缩文本、提取语音特征和重组视觉内容。

DeepSeek称，DeepSeek-OCR的光学压缩代表了向原生多模态的初步探索，未来，他们还将继续探索通过这种共享编码器框架集成额外模态，成为研究探索的新型VLM架构的开端。

作者：陈骏达

来源：智东西

DeepSeek+comfyUI+可灵AI视频创作全流程拆解

青瓜传媒 — Thu, 22 Jan 2026 01:10:44 +0000

短视频时代，AI工具已经成为设计师和视频创作者的“神助攻”！尤其是像DeepSeek这样的AI平台，凭借其强大的AI创作能力，正在改变全行业创作的面貌。

今天，我们将通过一个实际案例——制作一个在抖音投放的短视频，来分享如何利用DeepSeek + comfy UI + 可灵，高效产出AI视频内容。

从分镜设计到生图咒语优化，再到视频生成与后期合成，更先进的AI工具能够帮助我们提升效率，释放更多创意空间。

01 DeepSeek简单上手，快速部署

DeepSeek是一款基于深度学习的AI创作工具，主打智能分析和高质量文本输出。它的核心优势在于：

● 模型强大：能够理解并适应不同设计领域的需求，无论是平面设计、UI/UX设计还是品牌设计，都能提供精准且灵活的支持。

● 部署简单：无论是本地部署还是云端使用，都能快速上手。

● 高效输出：从分镜到咒语，让你的创意快速落地。

1. 访问官网：打开浏览器，进入DeepSeek的官方网站https://www.deepseek.com。

2. 注册账号：如果是第一次使用，先注册，登录后即可开始创作。

3. 选择模型：根据需求选择“模型版本”和“联网模式”等选项。

4. 输入需求：通过文字描述告诉AI你的思路和需求。

5. 生成创意：点击“发送”按钮，AI会根据你的需求生成分镜，回答，分析等等。

02 金融短视频宣传案例实战分析

互联网金融消费贷款业务在抖音等短视频平台做宣传时，经常面临以下问题：

● 内容太枯燥：用户看了没兴趣，甚至直接划走；

● 法务风险高：一不小心就会被投诉甚至罚款；

● 形象不佳：小贷业务形象一直不太好，用户总觉得“坑多水深”。

我们的目标是：

● 吸引用户：让视频内容足够有趣，用户愿意看；

● 合规宣传：确保内容合法合规，避免风险；

● 改善形象：通过生动故事，扭转小贷业务的负面形象；

● 提升品牌：强化品牌认知，让用户对58金融有好感。

为了达到目标，我让deepseek输出了以下几种策略：

方案1. 硬核科普+专家背书

让金融专家出镜，通过短视频讲解贷款知识，比如利息计算、还款计划、逾期后果等。

方案2. 情感共鸣+真实案例

用真实用户案例讲故事，比如“小明因为贷款逾期生活陷入困境，后来按时还款重获新生”。

方案3. IP形象+科普动画

设计一个可爱的IP形象（比如“福宝”），通过动画形式讲解贷款知识，比如“借款前必知的5件事”“逾期后的正确操作”等。最终方案：IP形象+科普动画

这个方案的优势在于：

1. 动画轻松有趣，用户愿意看；

2. IP形象可塑性强，能传递品牌温度和个性。

3.动画内容合规性高，风险可控，且容易持续输出。

03 智能分镜设计：从创意到可视化

将审核过的视频文案发给deepseek,简单的几次调整后可以得到一个包含场景描述的智能分镜设计。

04 生图咒语优化：让AI更懂你的需求i

有了分镜，接下来就是利用分镜书写prompt，放入comfyUI中，搭载之前训练好的lora，用flux模型生成定帧。

在AI视频创作中，生图咒语（Prompt）是决定画面质量的关键。一个好的咒语不仅要描述画面内容，还要包含风格、光线、色彩等细节。

1. 咒语的基本结构

一个完整的生图咒语通常包括以下几个部分：

● 主体描述：画面中的主要人物或物体。

● 场景描述：背景环境、氛围等。

● 风格设定：画面的艺术风格（如卡通、写实、极简等）。

● 细节补充：光线、色彩、动作等。

2. 案例中的咒语优化

以《贷款逾期了会冻结财产吗？》中的第一个镜头为例：

画面内容：福宝穿着休闲睡衣，坐在堆满小玩偶的卧室床上玩手机，手机提示“贷款逾期”，笑容僵住，动作停止。

初始咒语：

“一个白色人偶坐在床上玩手机，床上有很多小玩偶，手机显示‘贷款逾期’。”

用deepseek优化后的咒语：

“卡通风格的白色人偶福宝，穿着红色休闲睡衣，坐在堆满玩偶和零食的卧室床上，低头玩手机，心情很好，阳光明媚，温馨的氛围。”

完整的英文咒语：

fubao,white skin,Fubao is wearing red casual pajamas,sitting on a cozy bedroom bed full of dolls,playing with his mobile phone,with some snacks beside him,sunshine，happy，red carpet，soft lighting and high resolution,masterpiece,c4d,hd

通过优化后的咒语，生图效率更高，投入到comfy UI中，最快1小时就能生成全部的定帧。

3. 咒语优化的技巧

● 关键词分层：将咒语分为主体/场景/风格/细节四个层次，逐层细化。

● 风格统一：确保每个镜头的咒语风格一致，避免画面风格跳跃。

● 情感引导：通过描述光线、色彩等细节，引导AI生成符合情感基调的画面。

05 AI视频生成的实战技巧

1. 多轮迭代，逐步优化

‍

如果生成的画面不符合预期，可以通过修改咒语或调整参数，进行多轮迭代。

2. 分段生成，逐帧调整

AI工具对长视频的处理能力有限，建议将视频分段生成，将每个镜头单独生成视频片段，再在后期软件中合成。

3. 后期合成的注意事项

● 转场效果：使用合适的转场效果，增强视频的连贯性。

● 配音配乐：选择与视频情感基调相符的配音和配乐，提升视频的感染力。

● 字幕设计：确保字幕清晰易读，与画面风格协调。

06 总结与呈现

通过《贷款逾期会冻结财产吗？》这个案例，可以看到DeepSeek等AI工具在视频创作中具有巨大的潜力。从分镜设计到生图咒语优化，视频生成与合成，【deepseek+comfyUI+可灵】这一套AI生产工作流，能够帮助我们高效产出高质量的短视频，适应当下快节奏的推广需要！

AI不是替代设计师，而是放大创意势能的杠杆。当你用DeepSeek3小时产出竞品3天的内容，就能腾出更多时间打磨故事内核——这才是设计师等内容创作者真正的护城河。

作者：宋倩然

来源：58UXD

DeepSeek+剪映打造小红书同款视频！

青瓜传媒 — Mon, 19 Jan 2026 05:42:46 +0000

内容视频化正在成为大势所趋，尤其在小红书平台”破圈”后。相比图文载体，视频具备3倍以上的信息触达效率和优秀的用户留存率，但传统视频制作的高时间成本始终是设计师的最大创作瓶颈。

本文将带你解锁零剪辑基础也能快速产出优质视频内容的方法：

01 AI提效：从脚本到成片的智能创作链路

提效工具一：DeepSeek—AI内容生产”大脑”，攻克创作难关

视频创作的核心在于内容质量，优质的内容逻辑直接影响短视频传播效果。

DeepSeek能实现：

① 突破创意瓶颈

② 精准锁定目标用户

③ 高效构建内容框架

④大幅度提升构思效率。

下面我将通过具体案例，向大家展示如何借助DeepSeek进行构思。你可以使用如下公式进行提问：

身份定位+背景介绍+核心目标+约束条件+受众特征

身份定位：我是一名用户体验设计师。
背景介绍：我们制作了一套名为「AI卡牌全知道」的手册工具书，共分上下两册。上册「AI新生态全景图」包含1张可折叠知识地图和39张AI工作流程卡牌，帮助设计师快速建立AI知识体系；下册「AI创图提示词」包含40张卡牌，专为新手设计，助力快速掌握生图技巧。
具体诉求：将这套AI卡牌的卖点剪辑成视频，在小红书进行宣传推广。请根据以上内容扩写产品卖点，并生成口语化视频脚本。
约束条件：版本文案需3-5条，风格好玩有趣。
受众特征：符合小红书用户群体的短视频偏好。

除产品卖点扩写外，DeepSeek输出了多个版本文案风格：包含 ①轻松搞笑风 ②痛点暴击风 ③福利诱惑风等。

选择中意的文案风格进行调整，输出最终内容稿备用。

接下来正式进入剪辑环节。

提效工具二：剪映—智能剪辑中枢，一键成片剪辑效率倍增

将精选字幕文案与相关视频素材导入剪映（建议准备【5-8组】素材库以提升成片质量）。使用”一键成片”功能—视频文案手动输入—生成初版视频。

这里可同时生成多个版本进行对比，选择较满意版本进行二次创作编辑。

该功能实现智能分割与字幕生成：根据配音自动分割视频片段，同步生成精准字幕，节省80%剪辑时间，视频制作周期从”天”级缩短至”分钟级”。

至此，DeepSeek与剪映的”王炸组合”完成基础视频制作。前者擅长AI生成文案与脚本，后者以”一键成片”剪辑功能见长。

二者结合不仅降低技术门槛，更将视频制作时间从”天”级压缩至”分钟级”，堪称小红书爆款视频的“隐形加速器”。

02 AI赋能：打造小红书爆款视频流量秘密

基础框架搭建完成后，如何让视频更具吸引力？

拆解小红书爆款视频流量密码后，发现优质视频应具备以下四个要素：

密码1：封面和标题是=好勾子

是吸引用户点击的关键，优秀的封面标题组合如同有效钩子，能显著提升视频点击率。

这里推荐使用小红书同款模板在线编辑器，可一键生成图文设计，制作统一风格的精美封面。

该平台操作简单（会打字就能做设计），提供海量模板和图片素材，自带智能版权检测功能，确保商用无忧。

网址在这里

https://www.chuangkit.com/solution/1/w0-e502-p1-o0

密码2：开场黄金5s是吸引注意力的关键时段

这里建议衔接网络爆梗或热门音频制造代入感和反差感。

剪映素材库中关联了很多流行爆梗，总有一款适合你。

密码3：视频节奏侧面影响完播率

像看剧一样，视频剪辑不能一马平川，在陈述观点的同时，别忘了来点新鲜亮眼的小设计。

同样，剪映中提供了丰富的声音，表情，转场等内容，创作者可以根据短视频内容进行增删。添加小红书热门BGM与转场特效。

03 技术赋能：创意回归本质

DeepSeek+剪映的协同创新，不仅是工具层面的革新，更实现了创作思维的升级。设计师和内容创作者得以从繁琐技术中解放，专注于内容创意的打磨与用户价值的传递。期待未来更多优秀的AI工具诞生，为我们的创意赋能！

随着技能门槛的持续降低，相信创意可以冲破传统技术的束缚，更“肆意妄为”的生长和表现出来。

作者：张佳翼

来源：58UXD

DeepSeek开源大模型记忆模块！

青瓜传媒 — Thu, 15 Jan 2026 02:31:59 +0000

DeepSeek节前开始蓄力！

最新论文直接给Transformer加上“条件记忆”（Conditional Memory），补上了原生缺乏的知识查找机制。

结论中明写道：我们将条件记忆视为下一代稀疏模型不可或缺的建模原语。

还是梁文锋署名，并与北京大学王选所赵东岩、张辉帅团队合作。

论文中不仅提出了条件记忆这个全新范式，并给出了具体实现方案Engram模块，实验中让27B参数碾压同规模纯MoE模型，甚至变相提升了大模型的推理能力：

让原来Transformer要用6层注意力才能干的简单任务压缩到1-2层搞定，省出来的资源就可以用于更难的推理任务了。

条件记忆的原理其实也非常“原始”：不靠计算，回归查表，用上了传统N-gram方法。

给大模型一个巨大的词表，专门存那些固定的实体名称和两三个词的短语，不管词表多大，找信息都是O(1)速度。

关键就在于，如此前大模型时代的玩法，DeepSeek如何解决传统N-gram模型存储爆炸和多义性问题，又是让它和现代Transformer结合起来的？

01 让注意力干“苦力活”太浪费了

团队的核心观察是，语言建模其实包含两种性质完全不同的任务，一种是需要深度动态计算的组合推理，另一种则是检索静态知识。

问题在于，现有的Transformer架构缺乏原生的知识查找机制。

当模型需要识别一个实体时，它得消耗好几层注意力和前馈网络，逐层拼凑特征，最终才能完成。

论文中引用了一个具体案例：”Diana, Princess of Wales”

模型需要经过6层才能完成这个识别过程，前几层还在纠结”Wales是英国的一个地区”、”Princess of Wales是某种头衔”这些中间状态，最终才能“想起来”这是指戴安娜王妃。

本质上是在用昂贵的运行时计算来重建一个静态查找表，那些本可以用于更高层推理的网络深度，被浪费在了识别概念这种“苦力活”上。

02 回归查表，回归N-gram

Engram的设计思路相当直接：既然经典的N-gram模型就能用O(1)的时间复杂度捕获这些局部依赖，那为什么不把这个能力直接嵌入Transformer？

具体实现上，团队在原有的Transformer层之间插入Engram模块。每个位置的输入会触发一次哈希查找：把当前token和前面几个token组成的N-gram映射到一个巨大的嵌入表中，直接取出对应的向量。

为了处理哈希冲突和多义性问题，团队引入了上下文感知的门控机制，用当前的隐藏状态作为Query，检索到的记忆作为Key和Value，计算一个0到1之间的标量门控值。

如果检索到的内容和当前上下文不匹配，门控值就趋近于零，相当于自动屏蔽噪声。

下图中，颜色越深说明Engram越判断当前文本片段是“固定静态模式”，倾向于调用记忆库中的对应信息。

颜色越浅代表这段文本越动态灵活，主要靠模型的注意力机制处理。

比如只看到“张”是一个常见姓氏，但是“张仲景”三个字凑一起就是固定历史人物实体了。

接下来还要解决传统N-gram模型的两个痛点。

语义重复，同一个词的不同形式（比如 Apple、apple、Äpple）被当成不同 token，浪费存储。

存储爆炸，所有可能的 N-gram（比如2词、3词组合）数量太多，比如128k词表就要存128k^3种组合，直接存储根本存不下。

DeepSeek团队首先压缩tokenizer，把语义相同但形式不同的token归为一类，128k词表的有效规模直接减少23%，相同语义的token聚在一起，查找更高效。

再用多个哈希函数把N-gram映射成embedding表的索引，这既解决了存储爆炸：不管有多少种N-gram，都通过哈希函数映射到一个固定大小的embedding表里，表的大小是质数。

又减少查找冲突：给每种N-gram阶数（比如2-gram、3-gram）配K个不同的哈希头，每个哈希头对应一个独立的embedding表，把所有N-gram阶数、所有哈希头取出来的 embedding向量拼在一起，形成最终的“记忆向量”eₜ，供后续模块使用。

03 U型曲线：MoE和记忆的最优配比

论文最核心的部分是对”稀疏性分配问题”的系统研究。

团队设计了一个严格的实验框架：固定总参数量和每token的激活参数量（也就是计算量），然后在MoE专家和Engram记忆之间重新分配”闲置参数”预算。

分配比例ρ从100%（纯MoE）逐步降到40%，实验结果画出了一条清晰的U型曲线：

纯MoE反而不是最优解，把大约20%到25%的稀疏参数预算分给Engram记忆时，模型验证集loss达到最低点。

在100亿参数规模下，最优配置比纯MoE基线的loss降低了0.0139。

更重要的是，这个最优分配点在不同计算预算下都相当稳定，大约在ρ=75%到80%之间。

团队解释了U型曲线两端的含义：

MoE主导时，模型缺乏静态模式的专用记忆，被迫通过网络深度和大量计算来低效重建。

Engram主导时，模型丢失了条件计算能力，在需要动态推理的任务上表现下降。

总之，记忆无法替代计算，计算也无法高效模拟记忆。

04 27B规模验证：推理能力提升超预期

按照U型曲线的指导，团队把Engram扩展到更大参数规模进行验证，并对比纯MoE模型和纯密集模型。

所有模型训练条件一致，激活参数量都是38亿，训练token都是2620亿，差异仅在 “稀疏能力分配”。

Dense-4B：纯密集模型。

MoE-27B：纯混合专家模型，72个路由专家+2个共享专家，所有稀疏参数都给MoE。

Engram-27B：MoE+Engram混合模型，55个路由专家+2个共享专家，把5.7B稀疏参数分配给Engram记忆模块。

Engram-40B：进一步扩展Engram模块，保持专家数量不变，Engram记忆参数增至 18.5B，总参数39.5B。

结果MoE-27B和Engram-27B对比，知识密集型任务的提升在预期之内：比如MMLU提升3分，CMMLU提升4.0分，TriviaQA提升1.9分。

但出乎意料的是，通用推理和代码数学领域的提升幅度也很大：BBH大幅提升5.0分，ARC-Challenge提升3.7分，DROP提升3.3分，HumanEval提升3.0分，MATH提升2.4分，GSM8K提升2.2分。

团队用LogitLens和CKA分析揭示了原因。

Engram让模型的早期层不再需要做特征组合的“苦力活”，KL散度曲线显示Engram模型的预测收敛速度明显更快。更直观的证据来自CKA相似度矩阵，Engram-27B第5层的表征，和MoE基线第12层的表征最为相似。

这意味着Engram实际上“加深”了网络的有效深度，省下来的层数被用于更复杂的推理任务。

Engram-40B进一步增加记忆参数后，大部分任务性能持续提升，且训练后期损失仍在下降，说明记忆容量还未饱和，后续可继续扩大。

另外长上下文场景的提升尤为显著。

在RULER测试集上，Multi-Query NIAH从84.2跃升到97.0，Variable Tracking从77.0提升到89.0。

论文解释说，Engram把局部依赖建模卸载给了查找操作，释放了注意力容量去关注全局上下文。

05 百亿参数表放CPU上，延迟几乎没影响

接下来又到了喜闻乐见的软硬结合工程优化环节。

在训练阶段，词表规模会高达100B参数，单个GPU存不下，必须拆分到多个 GPU 上，需要All-to-All通信机制，让所有 GPU 之间互相传递需要的记忆片段。

在推理阶段把词表卸载到CPU内存，同时又不能让记忆调用拖慢计算节奏。

和MoE的动态路由不同，Engram的查找索引只取决于输入token序列，完全可以提前计算。

这个确定性让团队能够把巨大的嵌入表放到CPU内存里，用PCIe异步预取，让通信和前面层的计算重叠。

具体通过把Engram模块插在Transformer网络的特定层，GPU计算前一层的同时，CPU预取当前层需要的Engram记忆，等GPU算完前一层，所需的记忆也已经传输到位。

实验直接把一个1000亿参数的Engram表放到CPU内存，在H800上跑推理。4B密集模型的吞吐量从9031 token/s降到8858 token/s，8B Dense模型从6315 token/s降到6140 token/s，额外开销都在3%以内。

自然语言N-gram天然遵循Zipfian分布，极少数高频模式占据绝大多数访问量。这意味着可以设计多级缓存：高频嵌入放GPU显存，中频放CPU内存，长尾放NVMe SSD，把有效延迟进一步压缩。

DeepSeek团队在结论中写道

Engram将 “硬件感知效率” 确立为核心设计原则：其确定性寻址机制支持存储与计算的解耦，能够将海量参数表卸载至主机内存，且推理开销可忽略不计。我们认为，条件记忆将成为下一代稀疏模型中不可或缺的建模基元。

DeepSeek的下一代稀疏模型，已被曝光将在春节前发布，敬请期待。

作者：梦晨

来源：量子位