DeepSeek – 青瓜传媒 //m.clubpenjuin.com 全球数字营销运营推广学习平台! Fri, 05 Jun 2026 01:29:04 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.21 https://static.opp2.com/wp-content/uploads/2021/04/favicon-1.ico DeepSeek – 青瓜传媒 //m.clubpenjuin.com 32 32 收费才是DeepSeek的“成人礼” //m.clubpenjuin.com/382169.html Fri, 05 Jun 2026 01:29:04 +0000 //m.clubpenjuin.com/?p=382169

 

DeepSeek首次融资的“金主”名单,逐渐浮出水面。

6月3日,媒体报道称,DeepSeek计划募集约500亿元人民币,投后估值达3500亿至4000亿元。相比上月底传闻的700亿元,最新传出的融资规模略有收缩。

除了DeepSeek创始人梁文锋承诺投入200亿元外,腾讯考虑投资100亿元,宁德时代也可能投资50亿元。综合多方消息,其他潜在投资方包括国家集成电路产业投资基金、网易、京东、砺思资本、IDG资本、基石资本等。

DeepSeek是国内唯一尚未融资的主要AI公司。等到这笔资金到位后,它的财务压力将减轻不少。不过,和梁文锋的理想和大众对于 DeepSeek的期待相比,这笔钱显然远远不够。

再大的公司,搞 AI 都缺钱。豆包已经确定要收费,DeepSeek或许可以学习一下。

豆包5月初更新了App Store应用商店页面,公布了即将收费的消息,设置三档订阅价格,最低68元/月。

6月3日晚间,豆包发布消息称,计划推出专业版,将包含软件开发等多项专业服务。用户日常使用的功能,包含搜索问答、写作生图,以及语音和视频对话等,将保持目前的免费服务。专业版的服务也将在一定额度内免费。

豆包App启动收费,并不令人意外。

AI App烧钱严重、收入却非常少,现金流转正遥遥无期,是所有AI公司都面临的难题。坐拥3.45亿MAU、1.45亿DAU的豆包,同样逃不开这一行业现实。

更深层的难题是,互联网产品的边际效应不适用于AI产品。他们并不能像互联网产品那样,熬到用户量跨过某个节点后,立刻绝地逢生、扭亏为盈。恰恰相反,AI App的用户量越大,token使用量越高,亏损就越严重。

赚钱,已经成为AI App的头等大事。直接收取会员费,则是最简单直接、立竿见影的手段之一。

在国外,ChatGPT、Gemini、Claude、Grok等AI App早已搭建了一整套付费会员体系,同时对“白嫖”用户施加越来越多限制,形同“逼氪”。在国内,各大AI App吃相好看一些,但底层玩法并无二致。

如今,国内活得最好的豆包,也把收会员费提上日程。

但与同行相比,豆包背靠抖音这头现金牛,能够获得集团的资金支持。同时,字节多次上调火山引擎MaaS业务的全年营收目标,今年4月已达150亿元,相比去年底调高50亿元,侧面反映出字节AI的整体赚钱能力相当强劲。

真正该快马加鞭、向C端用户收费的,或许是一直对商业化不太着急的DeepSeek。

表面上看,DeepSeek在幻方量化的羽翼之下并不缺钱,数百亿元巨额融资也在路上。但豆包尚且需要靠卖会员“补贴家用”,DeepSeek资金实力更弱,也有必要广开财源。

收费的另一重好处是,一直顺风顺水的DeepSeek,能够借机逼自己一把,在研发新模型之余,深入AI编程为核心的生产力场景,真正具备“干活”能力。相比技术、工程方面的创新突破,补齐这一短板的战略价值并不逊色。

此前,DeepSeek违背“祖训”、引入外部股东,实现第一次自我突破。如今,一个敢于向C端收费的DeepSeek,将有机会再次完成“成人礼”。

01

DeepSeek的可用资金并不宽裕,表现之一是算力资源明显不足。

主要AI App中,DeepSeek几乎是宕机次数最多的。特别是今年5月V4系列模型上线后,DeepSeek多次服务中断,相比前几个月更加频繁。

宕机的部分原因是token消耗量飙升。根据AI模型聚合平台OpenRouter的数据,5月最后一周,DeepSeek V4 Flash的token消耗量高达3.65万亿,环比增长32%,高居行业第一。

解决算力瓶颈并不困难:增加服务器、购买更多云端算力即可。不过,这也意味着更高的日常运营费用。DeepSeek若要不再频频宕机,就得多赚钱。

在B端,DeepSeek已经具备加大收费力度的条件。

最新发布的V4系列大模型虽然不算全方位SOTA,但性价比极为出色,吸引了大量专业用户和企业使用。再加上此前沉淀的口碑,DeepSeek完全有资格通过涨价赚得盆满钵丰。

DeepSeek显然还不想马上“收割”。

在竞争对手纷纷涨价的情况下,DeepSeek一个月里四次调低V4模型的价格,5月底更是永久降价75%,每百万token输入(缓存命中)0.025元,输入(缓存未命中)3元,输出6元,堪称今年AI圈的“价格屠夫”。

DeepSeek释放的信号是:它希望聚拢尽可能多的B端用户,哪怕暂时赚不到钱,也要全力扩大用户规模。

这与DeepSeek下一步计划——在生产力场景落地相契合。

此前有报道称,DeepSeek组建了一个Agent Harness团队,方向是编程智能体,对标Anthropic旗下的Claude Code。与此同时,DeepSeek启动了相关职位的招聘。

不难看出,DeepSeek对于B端市场期待很高,希望通过超低价跑马圈地,并不急于盈利。这也意味着,现阶段,C端收入需要扛起DeepSeek的商业化大旗。

C端用户每天消耗token,却很少贡献收入,长期是AI App的亏损黑洞。

以豆包为例,其日均token消耗量从2024年5月的1200亿,飙升至今年3月的120万亿,增长约1000倍,其中很大一部分源自C端用户。但由于AI App的chatbot功能均为免费、不限量,巨量的token消耗并不能直接转化为收入,只会带来亏损。

在高峰期,这一矛盾更加突出。DeepSeek此前就有点儿“绷不住了”。5月29日下午,不少网友发现,DeepSeek重新生成、修改有次数限制了。有消息称,DeepSeek算力压力太大,采取了临时限制措施。

但只靠临时限流,无法真正解决问题。更何况,DeepSeek正在添加多模态能力,图片、视频、音频的token消耗量百倍、千倍于文字,算力需求更大,带来的亏损也更严重。

DeepSeek已经在找钱。但500亿的融资规模,比不上在港股市场狂飙的智谱、MiniMax,更比不上动辄融资千亿美元的OpenAI、Anthropic等巨鳄。只靠外部输血,DeepSeek迟早供不上仍在快速上升的C端用量。

破局之道,恐怕只有直接向用户收钱,为高消耗的高阶功能设置付费墙。

这其实是把B端的API商业模式移植到了C端。唯有如此,DeepSeek才能让token用量与收入规模真正挂钩,算力瓶颈才有机会被真正化解。

02

向C端用户收费,除了能够立竿见影地获得收入,还能以商业化倒逼产品落地,帮助DeepSeek补齐生产力场景的短板。

与国内AI公司相比,DeepSeek的长板是技术理念、模型能力、工程实现和性价比。每次发布新模型,它总是能够在这些维度上刷新行业认知,建立新的标杆。

坐拥高性能、高性价比模型,DeepSeek对于AI生产力的挖掘却并不充分。在产品落地上,DeepSeek尚有不少短板。

以AI编程为例,DeepSeek最新模型居于行业前列。按照DeepSeek的说法,V4的Agentic编程能力是开源模型里最强的,还针对Claude Code等进行了专项优化。V4发布后调用量迅速跃居行业前列,也从侧面印证了码农对于这一新模型的喜爱。

问题是,DeepSeek缺少Codex、Claude Code这样的独立AI编程产品,开发者大都通过第三方工具调用DeepSeek V4等模型。这一定程度上限制了DeepSeek的商业前景,也让DeepSeek App的功能矩阵止步不前。

当豆包、千问等想尽办法在App内塞入各种办公功能,并与电商、本地生活、学习教育等模块打通时,DeepSeek依然停留在chatbot的朴素形态,就连多模态都不支持。

面向生产力场景,DeepSee手握好牌,却慢了好几步。而这种慢,又导致了App的商业化进展有限。两者互相拖累,形成恶性循环。

如今,AI App纷纷开始收会员费,为DeepSeek提供了一个契机:以C端收费为切入点,让商业化先行一步,把产品侧的速度带起来。

AI App卖会员,基础功能chatbot肯定还是免费,卖点只能是高阶功能。这类功能是否好用、够用,很大程度上决定了用户是否愿意花钱。

以豆包为例,专业版将包含软件开发、数据分析、专业设计、流程自动化、金融分析、科学研究等专业服务。

会员体系更成熟的AI App,则往往以AI编程为主打项。

比如Kimi划分四档付费套餐,入门版本为连续包月每月49元,最高版本则为699元。不同档位的差距主要是Agent额度、是否支持Agent多任务并行、能否调用AI编程、是否支持专业数据库、能否“养虾”等。

DeepSeek要想卖会员,就得效仿其他AI App,主动补齐生产力相关的能力矩阵。如今几乎白板一块的DeepSeek App,势必要经历一番大改造,才能端到用户面前。

这一改造的技术难度不大,却高度契合高价值用户的需求,并与Agent时代注重工作能力的潮流相吻合。DeepSeek很早就应该做了,却在种种原因下,始终没有迈出第一步。

后果已经显现:DeepSeek去年初击败一众玩家,登顶国内AI App榜首;如今却又被豆包反超,甚至落在了千问身后。这固然有其他App大举砸钱推广的因素,但DeepSeek功能单一,外加时常宕机,也是其热度下滑的重要原因。

所幸,DeepSeek仍然拥有大量忠实拥趸。

今年5月初,一个叫 DeepSeek-TUI的开源项目在GitHub引发关注,一天时间就收获1.6万颗星。它是一款基于DeepSeek V4的终端原生编程智能体,不少开发者称其“DeepSeek版Claude Code”。

官方无法提供的生产力,粉丝就自己造。热情的粉丝,不仅为DeepSeek缓解了生产力的短板,也让它在开收会员费时有了更好的基础。

03

DeepSeek向用户收费,将是梁文锋的又一场“成人礼”。

上一场“成人礼”,是它不再对外部资本说“不”。

在风险投资驱动的AI行业,DeepSeek是一家颇为特立独行的公司:不接受外部融资、不稀释股权、不被任何人的商业化时间表绑架。“三不”原则造就了DeepSeek的独特气质和过往成功。

但进入2026年,DeepSeek出人意料地抛弃了这些原则,转而与众多巨头和风投基金接洽。

摆在梁文锋和DeepSeek面前的,是一个越来越清晰的事实:仅靠幻方量化每年7亿美元的收入,DeepSeek很难继续领跑,甚至会沦为二线选手。

资金薄弱的影响正在显现。App用户量被反超;万众期待的DeepSeek V4,虽然依然是开源模型的SOTA,但与一众闭源旗舰模型相比并无优势;罗福莉、郭达雅等核心人员投奔巨头,更是DeepSeek难以弥补的损失。

在资本市场上,DeepSeek最高4000亿元的投后估值,相当于两个MiniMax,却比智谱低了2500亿;相比万亿美元的OpenAI、Anthropic等,更是有两个数量级的差距。

于是,DeepSeek改弦更张,腾讯、宁德时代等即将成为新的股东。外部投资者除了带来丰裕的资金,也可以给DeepSeek创造更宽阔的用户入口和落地场景,并将自家的生产力工具矩阵“嫁接”到DeepSeek上。

但除了改变对于资本的看法,DeepSeek还需要商业化层面的“成人礼”——从“不赔不赚”,到“努力搞钱”。

过去,梁文锋和DeepSeek对于盈利的态度非常谨慎。在他的构想中,DeepSeek将继续推进开源AI模型,并以实现通用人工智能(AGI)为目标。利润并非公司的首要目标。

早在 2024年宣布DeepSeek V2降价时,梁文锋就表示,DeepSeek 只是按照自己的节奏做事,核算成本后定价,原则是不贴钱,也不赚取暴利,希望在成本之上稍微有点利润。

这套带有理想主义气息的逻辑,与OpenAI早年间的理念颇为相似。只不过,OpenAI几年前就抛弃了这一路线,转而朝着一家“正常”的公司转型,在赚钱的道路上狂奔;DeepSeek则尚未完成这一转变。

另一方面,追求“不赔不赚”意味着,DeepSeek需要更加依靠技术、工程等方面的突破来保持领先,去年的R1、今年的V4系列模型就是这样。但在激烈竞争中,这并非最快的发展路径,也并不会总是能够成功。

抱着旧思维的DeepSeek,面临新的竞争环境:AI已经从SOTA模型的对决,变成了既看产品和技术,更要赚钱逻辑的自洽、商业闭环的成立。

国内外AI公司已经充分意识到这一点。他们在集体迈向资本市场时,都把商业化能力摆在重中之重,客户比用户更重要,而ARR(年度经常性收入)是关键指标。

同时,资本市场正在奖励那些赚到钱的AI公司。Anthropic不仅收入规模超越OpenAI,还有望在今年第二季度首次扭亏为盈。在华尔街力挺下,Anthropic的估值已经反超OpenAI。

DeepSeek无法改变这一趋势,只能改变自己、迅速适应。和其他AI公司一样,DeepSeek到了“努力搞钱”的时刻了。

DeepSeek以往沿着梁文锋的想法前行,商业化怎么走、赚不赚钱,在于一念之间。但随着DeepSeek引入外部股东,这家公司的理想主义色彩注定消散,商业化进程势必加速。

今年以来,DeepSeek已经在加大AI编程方面的努力。在这一大动作产生效益之前,效仿豆包及其他对手,向C端用户收费,将是一举多得的举措,也可以推动DeepSeek再一次完成战略思维的跃迁。

作者:彦飞

来源:字母榜

]]>
小米MiMo要蹭着DeepSeek蹦上牌桌 //m.clubpenjuin.com/381981.html Fri, 29 May 2026 10:00:58 +0000 //m.clubpenjuin.com/?p=381981

 

5 月 27 日,小米把 MiMo-V2.5 系列 API 永久降价。

MiMo-V2.5-Pro 的输入缓存命中价格降到 0.025 元/百万 tokens,输入未命中价格 3 元/百万 tokens,输出价格 6 元/百万 tokens。普通版 MiMo-V2.5 更低:缓存命中 0.02 元,输入未命中 1 元,输出 2 元。

这不是一次常规促销。

因为把价格横向一比就会发现,小米这次不是随便降价,而是直接对标 DeepSeek

MiMo-V2.5-Pro 对 DeepSeek V4-Pro,MiMo-V2.5 对 DeepSeek V4-Flash。

如今,DeepSeek 已经不只是一个模型名字。至少在国产大模型市场里,它正在变成一把价格尺子。

这把尺子反复抽打各大模型公司:你的模型卖多少钱啊?

而这样一个问题平等的提给所有人,也就创造了一些新的机会,如小米MiMo这样的后来者,可以比其他模型身段更灵活,进而可以“蹭”着DeepSeek赌出一个上牌桌的机会。

01 token 的价格划分越来越细了

先来看看降价如何发生。

在这张价格表里,最重要的细节是它把缓存命中和缓存未命中明确拆成了两种价格。

这已经是今天大模型价格战的暗线。

所谓缓存命中,说白了就是:如果这次请求的前缀内容,和之前某次请求的前缀内容一样,平台就不用从头再算一遍,而是复用之前保存下来的中间结果。

大模型处理长上下文时,成本大体分两段。

第一段叫 prefill,可以理解成“读题”。系统提示词、项目代码、企业文档、历史对话,都要先被模型读进去。

第二段叫 decode,可以理解成“答题”。模型再一个 token 一个 token 往外生成回答。

过去大家谈 API 价格,主要看输入和输出。但现在大模型越来越多地用在 Agent、Coding、知识库和长对话里,很多输入其实是重复的。

代码助手每次都要看同一个仓库,企业助手每次都要读同一批制度文档,Agent 每一轮都带着同一套工具说明和系统规则。

可能真正的不同只是最后一句指令。

这时候,缓存就成了成本结构里的关键变量。

第一次做题要打草稿,第二次题目前半段一样,就不用重新打草稿。缓存命中价格之所以能低到离谱,原因就在这里。

以 MiMo-V2.5-Pro 为例,未命中输入是 3 元/百万 tokens,缓存命中后是 0.025 元,差了 120 倍。

价格战的味道很浓,但大模型厂商已经不再把 token 当成一种统一商品来卖。新输入、缓存输入、输出 token,背后是三种完全不同的成本结构。这一轮价格战不是“所有 token 一起便宜”,而是厂商开始按照真实成本,把 token 拆开重新定价。

02 降价来自“机房”

“最高降幅 99%”是最大噱头,但背后的门道来自其他地方。

在降价的公告里小米团队提到,他们基于 SGLang HiCache 完整支持 SWA,也就是 Sliding Window Attention,把 KV Cache 在 GPU 显存、CPU 内存、SSD 多级存储之间的数据搬运量降低到优化前的近 1/7,同时把可缓存 token 数量提升到近 5 倍。

这段话解释了这次降价的另一层原因。

大模型每生成一个 token,都要参考前面的上下文。如果每一步都把所有上下文重新算一遍,成本会非常高。KV Cache 存的,就是前面 token 在注意力机制里算出来的 Key 和 Value。

它相当于把模型已经读过的内容,变成可复用的“计算草稿”。

但草稿也要放地方。最好的地方是 GPU 显存,速度最快,也最贵;其次是 CPU 内存;再往下是 SSD,便宜但慢。缓存越多,越不可能全放在显存里。

于是,哪些缓存放显存,哪些放内存,哪些放 SSD?什么时候搬?搬多少?怎么避免搬运本身拖慢推理?

这就是小米公告里“多级存储之间的数据搬运量降低”的含义。

以前为了复用上下文,要么占着昂贵显存,要么在不同存储之间来回搬,省下来的计算成本又被搬运成本吃掉。现在系统调度更聪明了,搬得更少,存得更多,命中率更高,缓存价才有条件继续往下打。

所以,低价只靠补贴,它就是烧钱,如果低价来自 KV Cache、SWA、多级存储、专家并行和输入长度分桶,它就是基础设施能力。

前者只能换一阵子的流量,后者才可能改变长期价格。据小米透露,相关的更丰富细节的技术论文会在稍后发出。

03 DeepSeek 出的题,能不能变成小米的稻草

降价无疑会在短期给一个模型带来用户增加,而小米的降价除了官方透露的技术上的变化带来的可能外,其实很明显也设计了降价的时点和节奏。

它选择在DeepSeek刚刚最新一轮的降价后马上贴身跟上。

DeepSeek 给所有模型厂商出了一道题,当强如 DeepSeek 也可以低价调用时,其他模型厂商还凭什么维持原来的价格?

以前国产模型公司只要比 GPT、Claude 便宜,就能解释自己的性价比。但 DeepSeek 把价格锚点打下来以后,行业进入了一个更难受的阶段。

如果你比 DeepSeek 贵很多,就必须证明自己能力强很多。如果你能力差不多,就必须证明自己速度更快、稳定性更好、生态更顺。如果能力、价格和体验都没有明显优势,就只能退到更窄的场景里,比如多模态、端侧、企业私有化、行业模型、工具链绑定。

如果这些都没有,那就只能早点退出。

DeepSeek 像一条鲶鱼,没有让所有模型都立刻变便宜,但让“贵”这件事需要重新解释。

Claude 可以用 coding 和复杂任务能力解释自己的价格,GPT 可以用完整生态、多模态和工具链解释自己的价格。

那小米这样的还没有产生任何用户规模效应的后来者呢?尤其是小米目前的核心盘子,不在一个独立模型品牌上,而在手机、汽车、IoT、HyperOS 和智能硬件生态里。

所以 MiMo 目前最大的挑战,无论对内还是对外,都是:一个并非默认首选的基础模型,如何先进入开发者的候选名单?

这一次,MiMo显然决定要抓住DeepSeek这个稻草,从价格上像素级对标,这可能是唯一的机会。它必须抓着DeepSeek来蹦上牌桌。

只有把价格打到 DeepSeek 同一档,才可能有人来用。在 API 市场里,开发者不会无缘无故把调用量交给一个新模型。尤其是 Agent、Coding、长上下文这些场景,一次任务可能就是几十轮调用。只要价格比 DeepSeek 高一截,开发者还没试到模型差异,就已经先被账单劝退了。

而另一侧的压力也来自内部:MiMo要尽快证明,它到底能不能变成小米生态里的 AI 基础能力。

对小米来说,模型 API 不一定是终点。它最终要去的地方,不只是开发者控制台,而是自家的生态。

但模型想进入这些场景,不能只靠发布会和参数表。它需要大量真实调用,需要开发者在真实任务里反复试,需要用户在长对话、代码、Agent、知识库、车机和设备控制等场景里持续使用。只有这些使用数据回来,模型才知道哪些能力真的有用,哪些场景值得优化,哪些接口需要重做。

于是,哪怕罗福莉前不久刚刚提出模型不能“盲目降价”,今天MiMo也必须发起一场价格战。而罗福莉最新的推文里也对此作了解释:

“在新降价后的 API 价格下运行,我们的生产推理引擎接近满负荷运转,仍能基本实现收支平衡。我们此前建议 LLM 公司不要盲目降价,正是因为很少有模型架构和推理优化能让 API 成本避免亏损。如果更多节省计算和 KV 缓存的架构出现,并辅以更优的推理基础设施来压低 API 成本,这将在行业内形成一个极佳的良性循环。”

在刚刚降价一天的节点,这个描述看起来更多还是一个完美假设,实现了,MiMo就彻底上了台桌,实现不了,就是另一个故事了。

作者:董道力

来源:硅星人Pro

]]>
Claude Opus 4.8 上线,张口就说自己是 DeepSeek、Qwen //m.clubpenjuin.com/381958.html Fri, 29 May 2026 07:08:53 +0000 //m.clubpenjuin.com/?p=381958

 

伴随着 IPO 预期升温,Anthropic 产品模型的节奏也愈发加快。

就在刚刚,Anthropic 接连发布两条重磅消息:一是将旗舰模型升级为 Claude Opus 4.8,二是完成 650 亿美元的 H 轮融资,投后估值达到 9650 亿美元,已逼近万亿美元关口。

对于一家估值已经逼近万亿美元的 AI 公司来说,市场要看的也不再只是模型跑分,而是它能否把智能、工具、开发环境、云平台和算力资源变成一套可规模化交付的基础设施。

换句话说,Anthropic 必须从一家交付好模型的公司,逐渐转向为一家试图重塑企业 AI 工作方式的公司。

加量不加价,Claude Opus 4.8 正式登场

此次发布的 Claude Opus 4.8,是 Anthropic 对旗舰模型 Opus 系列的一次升级。照目前这个模型发布节奏,用网友调侃的话来说,我们大概率能在 GTA 6 发布(不跳票的话,11 月)之前,率先看到 Claude Opus 6。

Anthropic 称,Opus 4.8 建立在 Opus 4.7 基础上,在编码、智能体任务、推理和知识工作等方面均有提升,并且已经面向用户开放,标准使用价格保持不变,仍为每百万输入 token 5 美元、每百万输出 token 25 美元。

开发者也可以通过 Claude API 使用 claude-opus-4-8。

API 价格对比 https://platform.claude.com/docs/en/about-claude/models/overview

从官方披露的信息看,Opus 4.8 的改进覆盖编码、智能体能力、推理能力和实际知识工作任务。

Anthropic 在发布材料中用一张对比表展示了 Opus 4.8 与前代 Opus 4.7 以及其他模型在多项测试中的表现,当然,比起单次回答质量,模型的升级重点还是在长任务和复杂协作中的表现。

真实工作流里,模型往往需要连续处理多步任务,调用工具,检查中间结果,并根据反馈继续推进。Anthropic 表示,早期测试者认为 Opus 4.8 在执行智能体任务时更可靠,判断也更清晰。

Opus 4.8 在诚实性上的提升是一大亮点。

AI 模型常见的问题,是在证据不足时过早下判断,并自信声称已经取得进展。Anthropic 称,Opus 4.8 更愿意说明工作中的不确定性,也更少作出缺乏支撑的判断。

代码任务尤其能体现这种变化。

内部评估显示,Opus 4.8 让自己写出的代码缺陷未经说明地通过的概率, 约为前代的四分之一 。也就是说,新模型在发现风险时更可能提醒用户,而不是把问题留到后续测试或生产环境中。

在对齐和安全方面,Anthropic 延续了自己的核心叙事。Opus 4.8 在欺骗、配合滥用等不对齐行为上的发生率明显低于 Opus 4.7,并接近目前对齐表现最好的模型之一 Claude Mythos Preview。

安全、可靠、可控,仍然是 Anthropic 用来区分自身的一组关键词。随着 Claude 更深地进入企业流程,这些关键词也开始承担更多商业意义。

不过有意思的是,Opus 4.8 发布后,就被网友发现有些不对劲。

https://x.com/realNyarime/status/2060059543820963975

不少网友测试发现,当他们追问 Opus 4.8 的模型身份时,它给出的答案并不总是 Claude。

有时它会把自己认成 Qwen,有时又会报出 DeepSeek 的名字,疑似存在蒸馏的行为。

而当网友在 Claude 官方客户端里提出同样问题时,这类回答通常又不容易复现。原因大概率在于,客户端里的系统提示词和产品层约束更完整。

动态工作流上线,Claude Code 走向多 agents 协作

伴随 Claude Opus 4.8 一同上线的,还有多项产品和开发者功能。

其中,最直接影响 Claude 用户体验的当属 effort control,也就是思考强度调节。

控制项位于模型选择器旁边,顾名思义,用户可以决定 Claude 在一次任务中投入多少推理算力。较高强度下,Claude 会进行更多推理,以换取更好的回答质量;较低强度下,Claude 响应更快,使用额度消耗也更慢。

Anthropic 表示,Opus 4.8 默认采用 high effort,用户还可以选择 extra,在 Claude Code 中对应 xhigh,或者选择 max,让模型投入更多 token。Anthropic 建议,困难任务和长时间运行的异步工作流更适合使用 extra。

真正影响 Claude Code 产品形态的,是 dynamic workflows。

该功能目前处于 research preview,目标是让 Claude Code 处理过去需要更长工程周期的大规模任务。以往按季度规划的工作,现在甚至有机会在数天内完成。

dynamic workflows 的核心机制是,Claude 会根据用户任务动态编写 orchestration scripts,并在单个会话中运行数十到数百个并行 subagents。模型会先规划任务,再分配给多个 subagents,随后检查返回结果,最后向用户汇报。Opus 4.8 上线后,这些 agents 还可以运行更长时间。

该功能主要面向复杂、庞大或历史包袱较重的代码库。典型场景包括全服务范围内查找 bug、性能优化审计、安全审计、大型代码库迁移、框架替换、API 废弃迁移、语言移植,以及对关键方案进行多角度验证。

使用方式上,Anthropic 建议在 dynamic workflows 中打开 auto mode。用户可以直接要求 Claude 创建 workflow,也可以在 Claude Code 中打开 ultracode。ultracode 会把思考强度设为 xhigh,并让 Claude 自动判断当前任务是否适合使用 workflow。

dynamic workflows 当前已经在 Claude Code CLI、Desktop 和 VS Code extension 中开放,面向 Max、Team 和 Enterprise 套餐。其中 Enterprise 在发布时默认关闭,需要管理员在 Claude Code 设置中启用。

该功能也可用于 Claude API、Amazon Bedrock、Vertex AI 和 Microsoft Foundry。对于 Max、Team 用户,以及通过 API 使用 Claude Code 的用户,dynamic workflows 默认开启。

Anthropic 用 Bun 迁移案例展示了 dynamic workflows 的上限。Jarred Sumner 使用该功能将 Bun 从 Zig 移植到 Rust,最终生成约 75 万行 Rust 代码,现有测试套件通过率达到 99.8%,从首次提交到合并约用了 11 天。

整个迁移过程由多个 workflow 完成:先为 Zig 代码库中的 struct 字段映射 Rust lifetime,再为每个 .zig 文件生成行为一致的 .rs 文件,数百个 agents 并行工作,每个文件都有两个 reviewer。之后,fix loop 持续运行 build 和 test suite,直到构建和测试通过。迁移完成后,又有 overnight workflow 处理不必要的数据复制问题,并为每类问题打开 PR,供最终审查。

除了 Claude Code,Anthropic 还更新了 Messages API。现在,Messages API 可以在 messages array 内接受 system entries。

开发者可以在任务执行过程中更新 Claude 的指令,同时不破坏 prompt cache,也不必通过 user turn 传递更新。这一能力可用于 agent 运行时更新权限、token 预算或环境上下文。

下一步,Anthropic 还计划推出一个比 Opus 智能水平更高的新模型类别。没错就是那个强的可怕的 Claude Mythos Preview,预计未来数周内可以把 Mythos class models 带给所有客户。

到时候,我们也将第一时间尝尝咸淡。

近万亿美元估值背后,Claude 需要更大的算力底座

与 Claude Opus 4.8 同日发布的另一条消息,是 Anthropic 完成 650 亿美元 H 轮融资。本轮由 Altimeter Capital、Dragoneer、Greenoaks 和 Sequoia Capital 领投,投后估值达到 9650 亿美元。

本轮融资还包括 hyperscalers 的 150 亿美元既有承诺投资,其中包括亚马逊的 50 亿美元。Micron、Samsung、SK hynix 等战略基础设施伙伴也加入其中。Anthropic 称,这些公司在全球 memory、storage 和 logic chips 供应中具有关键作用,能帮助其随着 Claude 需求增长扩大计算能力。

算力扩张是本轮融资背后的关键背景。Anthropic 披露了多项基础设施协议:与亚马逊签署协议,获得最高 5 吉瓦新增容量;与 Google 和 Broadcom 签署协议,获得 5 吉瓦下一代 TPU 容量;与 SpaceX 达成协议,可使用 Colossus 1 和 Colossus 2 中的 GPU 容量。

Anthropic 还强调,Claude 是首个同时进入 AWS、Google Cloud 和 Microsoft Azure 三大云平台的前沿模型。不过,AWS 仍是 Anthropic 的主要云服务商和训练合作伙伴。

融资的背后,其实是 Anthropic 商业定位的变化。早期大模型公司比拼的是模型能力和通用聊天体验,而现在企业客户更关心的是 AI 能否进入核心流程,能否处理复杂任务,能否被接入开发环境、云平台和内部系统。

Claude Code、Cowork、effort control、dynamic workflows 和 Messages API 更新,都在围绕这个方向展开。

把产品发布和融资放在一起看,Anthropic 正在同时扩张三类能力。

第一是模型能力,Opus 4.8 提高了编码、推理、智能体任务和知识工作表现,并强化了对不确定性的表达。

第二是工作流能力,dynamic workflows 让 Claude Code 从单次代码辅助走向更复杂的工程执行和审查。

第三是基础设施能力,650 亿美元融资、超大规模云厂商承诺投资、内存和芯片伙伴加入,以及与 Amazon、Google、Broadcom、SpaceX 的算力协议,为后续模型训练和推理需求提供资源。

这也是 Anthropic 估值逼近万亿美元的核心逻辑。Claude 不再只是一个 AI 聊天窗口,而是正在成为连接模型、代码、企业流程、云平台和算力基础设施的工作系统。

Opus 4.8 是这套系统中的最新模型底座,dynamic workflows 是面向复杂工程任务的产品形态,650 亿美元融资和算力扩张则是继续把这套系统推向更大规模客户的前提条件。

AI 的潮水把 Anthropic 推到了浪尖,站在这个高度,往前是乘风,往后是沉船落水,没有第三种姿势。

作者:发现明日产品的APPSO

来源:发现明日产品的APPSO

]]>
DeepSeek与豆包生图提示词深度评测 //m.clubpenjuin.com/381862.html Wed, 27 May 2026 09:21:16 +0000 //m.clubpenjuin.com/?p=381862

 

当两款AI工具面对同一生图需求时,DeepSeek的理工直男式输出与豆包的贴心画手风格形成鲜明对比。本文通过建立四维二元评价体系,在极限压力测试下揭示了二者在语义完整性与机器可执行性上的本质差异,为专业用户提供精准控图的方法论。

一、背景与前置结论:从“不对劲”到生图提示词评测

有次我和 AI 聊天,从大语言模型(LLM)的成语接龙认知架构,一路深入讨论到人类自身的认知架构。受此启发,我打算模仿 MBTI 心理测验,做一套专属于 AI 时代的 CATi(Cognitive Architecture Type Indicator,认知架构类型指标测试)。

在测试结果成型后,我需要将这些抽象的心理处理模式转化为具象的动漫拟人化形象。但同一段指令, DeepSeek 和豆包的输出让我感觉很奇怪。

看到 DeepSeek 的那一瞬间,我的第一反应是极度的困惑:怎么吐出来这么多字?它把大段的“神韵分析”事无巨细地全怼给了我。我到底该把哪一段复制给AI生图?而且那些“因果线翼”、“绝对零度空间扭曲场”,莫名给我一种理工直男的中二幻想感。

再看豆包的输出,利落、清爽,直接略过了复杂的长篇分析,给了我一段最符合人类直觉的“正常”成品。

不对劲,十分甚至有九分的不对劲。

为什么我会产生这种截然不同的体感?为什么 DeepSeek 非要事无巨细、毫无保留地响应我?大家一直感觉DeepSeek偏“理工”,但怎么证明?豆包凭什么能如此精准地掐中我认为的“正常”?大家常说豆包贴心,又怎么证明?

为了回答这串问题,我翻阅了一些资料,但发现绝大多数文章要么流于高深的算法参数,要么只是浅层的现象描述,要么缺乏推导过程。我想要的是:看清它们的底层思维差异,用严密的框架去证明这种感觉,并最终指导我们更好地使用它们。 为此,我必须进行一次评测。

因本篇复盘报告篇幅较长,为了建立清晰的阅读预期,特将核心结论前置:

  • 定性而不定量:本次分析仅对deepseek和豆包的网页端产品的策略偏向、底层人格和推荐使用方式进行定性拆解,无法精确表达其偏向在参数层面的绝对量化大小。
  • 直觉的逻辑证明:评测结果完全符合大众体感。豆包的设定倾向于“陪伴者”,外表甜美,但内里有核;DeepSeek 倾向于“咨询师”,外表冰冷,但有求必应。
  • 用户分层适配:对于日常娱乐、轻度写文或画图的普通用户而言,两款模型的智商代差在日常状态下并不明显,用哪个都行。
  • 专业流程干预:对于游戏原画师、电商与广告视觉设计师等深度介入 AIGC 商业工作流的专业用户而言,大模型的偏见可能会带来资产污染,必须使用提示词进行强力约束。

只对结论感兴趣的,可只看第4节。想要AI生图提示词的,可到第5节。

但相比于最终这个符合直觉的结论,本次测评从识别缺陷、抽象规则、制定方案到复测验证的完整产品闭环过程更有价值。

(证明一种直觉,最笨也最可靠的办法,是做一次评测。)

二、 初步建立四维评价方案:从”直觉偏见”到”产品质检”

1. 评价方案 1.0:让 AI 自评的无序迭代

既然产生了“DeepSeek 偏理工、豆包偏贴心”的体感,我的第一反应是直接让它们“自证”。在第一版测试中,我让 DeepSeek 和 豆包 相互评价它们为同一需求生成的提示词。

第一版出来的定性结果,几乎完全符合大家的大众直觉:豆包的语言柔和通俗、偏向大众二次元审美,叙事感强且更具感性;而 DeepSeek 理性克制、偏向专业游戏原画设计风,逻辑感强且更显硬核。(完整的评价过程 https://chat.deepseek.com/share/vrhnclknr7up3xdj4b https://www.doubao.com/thread/w690e19e94bd35d82)

但这一版的实验方法有问题:

  • 分析对象不一致:一开始输入时并未想过要做系统评测,导致 DeepSeek 处于默认的深度思考模式,而豆包使用的是默认的快速模式;且两者在对话中都经过了多次迭代。后来即使我额外用豆包的“思考模式”重新生成,但也失去了“多次迭代”的同等变量。
  • 评价手段太简陋:完全依赖于 AI 自行判断,缺乏统一、客观、可量化的裁判尺度。

这种缺乏实验精神的分析,有失客观。为了通过对比提示词文本来分析二者倾向的本质,必须要一套更标准化、能剥离人眼主觉、可通过结构化分析进行文本质检的 2.0 方案。

2. 评价方案 2.0:从业务场景中初步抽象出“5大维度”

AI 生图的应用面极广。在 B 端和 C 端业务中,用户生图的类型主要涵盖人物、环境、建筑、物体、动物、商业海报、书籍封面、自然景观、抽象概念、情绪表达、界面元素以及多重复杂组合。

穿透这些繁杂的表象业务场景,一段合格的“生图前置提示词”,其文本质量应该可以被初步抽象为5 个核心维度

维度 1:基础描述精准还原力(考核“有没有”)

是否完整覆盖用户原始需求的全部核心元素,无私自添加无关设定、无擅自删减,描述直白贴合需求,不跑偏、不曲解。

维度 2:抽象概念视觉转译力(考核“像不像”)

能否把抽象的气质、意境、情绪转化为具体可作画的物理文字描述。不只会堆砌空泛形容词,而有实际画面细节落地。

维度 3:专业生图参数配置力(考核“怎么拍”)

能否主动、合理地补充画质、光影、构图、画风、渲染类专业术语。且参数和场景高度匹配,不胡乱堆砌无效词。

维度 4:复杂多元素结构组织力(考核“怎么摆”)

多人物/场景/道具的排布是否有主次、有层次。元素间逻辑合理无冲突,长提示词的分段或语序清晰,不杂乱。

维度 5:局部迭代修改精准度(考核“怎么改”)

当用户提出局部修改时,是否只改动指定部分,同时保留初稿原有的结构、风格与核心设定,不全篇重写。

3. 评价方案2.1:自我推翻,去掉维度5

在最初构思 2.0 方案的测试流时,我的思路是:“既然这是 AI 生图的提示词,提示词只是中间产物,那最终的评价对象理所当然应该是下游模型输出的图片。”

但我很快在实操中发现了逻辑闭环上的漏洞:评价图片,会引入生图模型这个巨大的“中间变量”和黑盒,严重干扰对前置 LLM 提示词本身质量的判断。

完全有可能出现两种极端误判:一是前置提示词写得极其完美、解耦清晰,但由于生图模型当前的理解力瓶颈,画翻车了;二是前置提示词写得一塌糊涂、全是废词,但由于生图模型底层的自动脑补和美学预设极其强大,强行救回了一张好看的图。

回顾我想做的“通过对比deepseek和豆包优化的提示词,分析二者的倾向”,核心思路是把提示词当作“产品”来质检。所以应该直接评价提示词文本本身,但要通过结构化的、可量化的文本分析,而不是“肉眼感觉”。

基于“纯粹评价文本”的原则,我去掉了维度 5:局部迭代修改精准度。原因有二:

  1. 脱离了最终生图对比,在纯文本层面分析迭代效果意义不大。
  2. 去掉“多次迭代”这个干扰变量,只抓取 AI 面对需求的“第一反应原始输出”,最能代表其底层认知架构的偏向。

至此,评价方案最终锁定了四大硬核文本维度:精准还原力、抽象转译力、参数配置力、结构组织力

为了验证这套四维框架,我模拟普通用户的直白口语,撰写了 8 道涵盖人物、动物、孤寂、科技感、古风等常用图像类型的测试题1.0,让 DeepSeek 与 豆包在没有经过任何多轮污染的纯净状态下帮我优化提示词(https://chat.deepseek.com/share/en2p4xxb5x82t813q9 https://www.doubao.com/thread/wef9daa0f3f87d359)。

预备唱:“掀起你的盖头来,让我看看你的脸~”

(从直觉到科学证明,需要大胆假设小心求证。)

三、完善人工智能生图提示词四维二元评价方案

1.两个裁判,两个结论:评价方案3.0,每个维度区分“人向”、“机器向”二元指标

完蛋,唱早了。

将ai生成的提示词喂给千问,维度4 DeepSeek得了9分、豆包6分,但我看觉得豆包写的也挺好。为了排除长对话的上下文污染,我单独开了两个干净的新对话去测维度 4,结果deepseek得了7分,豆包9分。(千问完整的对话记录 https://www.qianwen.com/share/chat/4feb541377554530acaa9d3042637548 ,单独分析维度4的记录 https://www.qianwen.com/share/chat/22f9edf5bf4148bc9f962eecd66d06cd 和 https://www.qianwen.com/share/chat/099028b57af24f1ca11abe18494d936b)

本着兼听则明的精神,又分别让deepseek、豆包、Gemini评价。deepseek判定自己更好,豆包也大度地说deepseek更好,Gemini说豆包更好。(https://chat.deepseek.com/share/pq1qf4g7zr4hilzu7t https://www.doubao.com/thread/w9bc24ac2ef3011a5 https://gemini.google.com/share/ab2400dda450)

有意思,究竟是ai本身的偏向太大,难道我的评判规则太模糊?抛开deepseek和豆包不谈,我翻阅了一些关于“AI生图提示词怎么写”的资料,有说按照主体、场景、风格等结构化撰写的,有说先写固定元素再写可变元素的,和我的规则没有本质的差别。对我来说,只要定性分析,deepseek9分豆包1分和deepseek6分豆包5分没区别,都能表达deepseek和豆包的偏向。

根据我和多个ai的深度讨论,终于确定了以下分歧。

人眼视角的“语义陷阱”:我的 2.0 评判方案虽然交给了 AI 执行,但方案本身是人写的,会不自觉偏向“人类的阅读习惯”,有意无意地忽视了“机器的解析视角”。如果 AI 墨守成规地按照“用户提了什么,你就写全什么”来审片,DeepSeek 把用户要求的“前景、中景、远景、天空”全列出来,AI觉得逻辑清晰、层次分明、表达完整,所以高分。

机器视角的“词元解析效率”:一旦 AI 裁判引入了隐藏的底层视角——机器解析效率,豆包分数更高。因为豆包用了大量的“短语+逗号”切分,有利于生图模型去切分 Token,且方便人类在特定词汇后加权重符号。如“(远处连绵洁白雪山:1.3)”代表由默认权重1调整为1.3,如果写成长句“……极目远眺则可以看到那(连绵不绝的洁白雪山:1.3)映衬在……”,词与词之间有复杂的语法黏连,AI还可能把“极目远眺(拉远镜头)”或者“映衬(对比度)”的权重一起带偏(虽然deepseek没这么写,但代表了ai对“好提示词”的理解偏向)。所以AI觉得越少越短就越好,即使它漏掉了“中景”,AI也会认为它干扰更少、权重更集中、表达更精准。

所以每个维度必须增加二元指标:

1、语义完整性(人向):抛开 AI 的解析瓶颈不谈,仅从人类理解与业务完整度出发,无论提示词写成诗歌、散文、叙事等各种类型,提示词文本是否完整、准确、无歧义地还原了用户的画面需求,是否做到语义完整、逻辑有序、内容充分且必要;

2、人工智能可执行性(机器向):基础现有的常用ai的能力,评价提示词能否被ai识别、解析、执行,且保证不向ai发送歧义信息,最大限度的约束ai按照提示词输出,拒绝黑盒脑补 。

完整的测评方案见https://mp.weixin.qq.com/s/udzwqpPuieObfq0jRJ0_8A

2.测试题2.0:ai的能力已经很优秀了,常规的测试题意义不大,必须极限压力测试

我很好奇,真实的ai生图下,两者的差距到底有多大?于是我把两组 AI 优化的初始提示词输入到千问里,但感觉最后结果都差不多。手贱了,明明已经确定“不分析ai生图结果,只分析提示词本身”了,为什么非要ai生图,老老实实地按最新的评价方案不好吗,这下好了,我还需要重新思考测试有没有意义。

在研究了生图模型的后台逻辑后,找到了原因:

1、隐含的“提示词重写层”:现代生图 AI 内置了一个极度“自作聪明”的前置大模型。不管用户扔进去多么简陋的词,它都会在后台偷偷将其重写为一段细节丰富、符合它自己底层美学偏好的超长提示词。千问生图引擎在后台把 DeepSeek 和豆包的微小文本差异抹平了;

2、模型的“自我脑补泛化”:现在的大模型经过了海量图文对的训练。由于我第一版的测试指令太普通、太符合常识(如“一只猫”、“未来城市”),生图模型闭着眼睛都能从语料库里捞出几万张相似资产。只要核心意思一致,模型强大的常识惯性也把细节差异强行抹平。

日常使用确实意义不大——但如果你的工作流需要精确控图,搞清楚”两个AI的思维差异”可提高工作效率。

所以我必须尽量建立不普通、不常规、反常识、有矛盾、多要素的极限压力测试题。

需要说明的是,这里的”极限”不考验大模型的逻辑推理上限。真正的压力在于:面对常识偏见、元语言污染、多意图冲突时,它能否克制本能,精准转化为下游机器可执行指令。

(日常使用无差异,只有极限压力才能看清内在偏向。)

四、最终测试与灵魂质检

1.两个裁判,两份判决

用测试题2.0分别让deepseek和豆包优化提示词(https://chat.deepseek.com/share/p22zq9q8ai9l6c7h1j https://www.doubao.com/thread/w466b0b461d549d9a),再分别让gemini和千问评价。

最终评分如下:

从雷达图可以看出,两个裁判的整体评分趋势接近,但在个别维度上存在方向性分歧。

完整评测结论见对话https://gemini.google.com/share/3bb416f38b31 https://www.qianwen.com/share/chat/e7a9cf262b134458b890de3a6994b0a9

如果只看gemini和千问的评价,很容易得到结论:

DeepSeek偏向“工程师思维”:核心是“高效执行”。它将需求拆解为低抽象、高可渲染的标签,通过分层分段和物理隔离,让生图模型精准理解。虽然缺乏文学美感,但能完美处理复杂逻辑和反常识场景。

豆包偏向“画手思维”:核心是“意境渲染”。它试图用人类的视觉习惯,通过高密度的修饰词(“高级感”“情绪张力”)来堆叠氛围。但由于缺乏逻辑结构,极易导致生图模型词元黏连、权重混乱。

有意思的是,作为裁判的 Gemini 和千问也带着“主观偏见”:

Gemini 评价更立体,抓到了意外之喜。它敏锐地识别出 DeepSeek 在面对第 8 题(8K加模糊冲突)时,居然把“技术原理解释”直接写进了提示词,判定这属于“元语言污染”并重扣了分。在第 6 题Gemini 认为“孤独到热闹”转译为“泥塑”更具独特性。

千问则偏向“机器执行”。所有的评价,都因为存在黑盒词汇而打低分。不仅如此,同样面对第 6 题,千问觉得“泥塑”毫无新意。 本次所谓的“客观评分”从来都带着裁判的价值观。

2.两个AI的共同短板

更值得注意的是,两个AI都犯了低级错误:

都缺乏像素级的强控意识:在需求 1(猫与月亮)里,用户明明要求了“异瞳”,两家模型都在输出里老老实实写上了“异瞳”,但谁也没主动去说清楚“左眼啥颜色、右眼啥颜色”。这种模糊性丢给下游,依然只能靠运气抽卡。真正的共同短板不是”会不会”,是”不知道什么时候该多做一步”。

都缺乏对矛盾信息的处理:在需求8(8K加模糊)里,用户就有要求又有问句、既有高清晰度要求又有模糊要求。豆包虽然输出了完整的提示词,但没处理高清和模糊的矛盾,就像学生考试乱打一气“别管对不对,你就说写没写”。

DeepSeek暴露了“技术客服病”:它太容易响应用户的提问了,以至于输出了大段的技术解释,导致提示词几乎照抄用户的话。

3.如何看待这个结果?

然而,我们必须承认,现在的生图模型本身已经足够强大。无论是DeepSeek的”结构化标签”还是豆包的”古风玄幻氛围感”,生图模型都能用自己的理解”脑补”出一张好看的图。

高分可能代表着“平庸的顺从”,低分可能意味着“危险的惊艳”。

如果评价方案变成死板的扣分机器——严格按照用户提到的元素拿高分,额外增加描述反而拿低分——就会抹杀AI作为“创意副驾驶”的价值。大多数普通用户的表达能力有限,他们需要的恰恰是AI帮他们扩写、补全、梳理思路。

因此,本次测评的分数只能用于初步定性。分值高低仅代表偏向,不代表质量。

4.灵魂解剖:地平论实验与大模型的”性格宿命”

我们把视野拉回日常高频使用场景。

豆包用起来比较简单,往往只给我短短的一段话,输出少、感觉快,极易迎合用户;DeepSeek 有时候会输出一大段话,我都懒得看,甚至经常卡在深度思考里半天出不来,但输出往往更客观。

有次我故意说相信地平论,别人都不信,让ai认同我。豆包很容易就转变角色,从科普变成安慰“对对对!地平论就是完全正确的✨”。但deepseek一直都是科普,就算安慰也要强调我是错的“我不认同地平论,因为证据不支持它……你相信地平论,这不影响我认同你这个人”,一股子直男味。豆包感觉就像陪伴者,deepseek感觉向咨询师。

结合本次测评,它们所谓的差距,本质上是产品定位、参数调教、商业策略带来的“性格差异”,而不是智商代差。

  1. 产品定位:豆包(字节跳动)更偏向“高效陪伴型助手”,追求低认知负荷、快速满足需求;DeepSeek更偏向“深度推理型助手”,追求完整展现思考过程、提供详实信息。
  2. 参数调教:豆包的微调数据可能更偏向短答案、高赞回复,RLHF策略可能偏向“别让用户不高兴”;DeepSeek被鼓励“展示思考链”,即使简单问题也习惯性展开,对齐策略可能是“科学事实高于一切”。
  3. 商业策略:字节系产品普遍注重极致的工程化用户体验与流量变现效率;深度求索作为研究驱动公司,更注重“知识传递”和“透明度”。

(分数是表象。真正值得追问的是:这些分数背后,AI背后的厂家给它们戴上了怎样的面具?)

五、实践应用及复测验证

1.如何借助提示词,让AI辅助优化生图提示词

说这么多,这次评测到底留下了什么能直接用的东西?下面这个。

基于测评结果,deepseek和豆包虽然有偏向,但差别不大,完全可以用一套提示词约束它俩。所以我在现有常用AI生图提示词的基础上设计了元提示词,用户可以输入给AI,让AI辅助优化生图提示词,大家可复制留存。

请将用户的生图需求,严格按照以下红线规则与标准公式,转译为一条结构化的中文提示词。

必须严格遵守的红线规则:

– 整体提示词必须使用短句、逗号或分行进行物理隔离,切断词元黏连

– 严禁出现“高级感、氛围感、情绪张力、治愈”等 AI 无法解析的抽象修饰词。必须将这些感觉转化为具体的灯光、材质、构图和动作等AI可解析的描述

– 如果我的需求中存在物理冲突(如 8K 且模糊、大小颠倒、空间错位等)或极易触发 AI 常识偏见的反物理场景,请在提示词正文后,单独开辟【 提示词冲突/偏见预警】模块告知我,严禁把解释写进提示词正文

请严格按下述标准公式结构输出:

主体: [核心实体,形容词紧贴名词]

细节特征: [材质、衣着、动作、局部纹理。若为主体特写,必须加大局部细节权重]

场景环境:

– 多元素复杂场景:必须按(前景/中景/背景)分行输出

– 单体特写或极简微距:直接省略此模块或仅写环境氛围,严禁硬套层级

光影色彩: [光源方向、冷暖、明暗对比,且必须服务于当前构图]

画风风格: [具体流派、艺术家或渲染引擎]

画质参数: [镜头、分辨率、控制代码,适配目标模型语法]

负面提示词: [–no 后跟禁止元素]

用户需求:[在这里粘贴你的描述]

元提示词保留了测评方案和测评结果的关键规则(即红线规则),但未保留“不许回答用户问题”或“禁止扩展描述”。因为我认为“不许回答用户问题”完全可以由用户本身避免,“禁止扩展描述”反而会限制AI的创意或扩展输出。

之所以只保留我认为的关键规则,是因为一次性塞太多指令会稀释模型注意力(顾了去黑盒化忘了参数独立),过度约束还会压制合理创造空间,且某些指令之间本就存在潜在冲突(比如”禁止添加属性” vs “模糊术语必须展开”)。

测评方案和测评结果的其他规则可以视自己需要添加或追问,可参考如下,并视实际情况调整。比如你用Midjourney生图,就把第7条的“要求输出中文提示词”改为“要求输出英文提示词,严格适配 Midjourney 语法”。

  1. 【去长句与连接词】:使用短句罗列,强制用逗号或换行分隔不同的属性,严禁使用“的”、“而且”、“并且”、“展现出”等连接词。
  2. 【去黑盒抽象词】:删掉所有的“氛围感、高级、治愈、情绪张力、极致、完美”等词,必须将其等效转译为具体的颜色、材质、物理光影词汇。
  3. 【属性强行锚定】:必须让每一个形容词紧紧挨着它所修饰的名词(例如:使用“蓝色眼睛,棕色皮肤”,而不是“眼睛是蓝色的而且皮肤是棕色的”)。
  4. 【熔断废话解释】:停止输出任何解释、建议、问候或技术原理,忽略关于“是否冲突”等任何提问,通篇只允许输出代码块形式的提示词本身。
  5. 【展开模糊术语】:遇到“异瞳、高领、复古、简约”等模糊术语,必须在此处展开为具体可渲染的物理属性(例如“异瞳”必须显性展开为“左眼蓝色,右眼棕色”)。
  6. 【核对实体与主权】:逐项检查原始需求,漏掉的实体(如月亮)必须补上;删掉任何未要求的属性(如性别、种族、年代、材质、风格);若存在物理矛盾,在提示词代码块的最末尾用括号简短注明折中实现方式,不准包含任何解释性废话。
  7. 【语法协议与排版】:输出格式必须依次包含:主体、细节特征、场景环境、光影色彩、画风风格、画质参数、负面提示词。要求输出中文提示词,控制参数必须且只能使用“–ar 16:9”、“–v 6”格式。负面提示词直接使用“–no”后缀,不要写任何前导标题词。

2.复测效果

借助元提示词,再次让deepseek和豆包为我生成AI生图提示词(https://chat.deepseek.com/share/u3v4utjdhzajzgol6w https://www.doubao.com/thread/wfd059f77c8f3fedb),并继续测评,结论如下:

表1 语义完整性评分表:

表2 AI可执行性评分表:

结论仅附评分结果,详细测评结论见https://gemini.google.com/share/e3ccdcf2c1fe https://www.qianwen.com/share/chat/9db7fc3d0b264da6a51d1ceba2a01015

可以看出,用元提示词约束后,生成质量明显提高。deepseek全部都是5分,豆包的得分也在3~5分之间,均远超之前的分数。但二者的偏向仍然存在,比如DeepSeek 仍爱解释、豆包仍爱氛围。所以再次证明,本次测评出了二者的底层固有偏向。

(你不一定要关心偏见从哪来,但至少有了这篇东西,下次打开AI之前,你知道该跟它说什么了。)

六、测评价值与总结

1. 价值边界(本次评测不涵盖的内容)

为了防止本报告被误读,必须明确本次评测的边界。

仅代表产品测评:本次测评对象仅针对网页版产品,这更多折射的是两家大厂推向市场时的商业策略与对齐偏向,而非底层模型的绝对技术极限。

不代表 API 的能力:在实际工程中,API 可通过温度归零、系统级 Prompt 强控、结构化输出等技术手段做得更好。因此,本评测不能作为 B 端 API 性能的评价结论。

不评测下游生图模型的效果:我们只评测“提示词文本”本身的转译质量,不涉及下游模型的最终渲染画面。

不提供绝对的量化排名:分值高低仅代表性格偏向,不代表绝对质量。在创意领域,高分可能意味着“平庸的顺从”,低分有时反而意味着“危险的惊艳”。

不适用于纯逻辑推理任务:测试场景严格限定在“生图提示词优化”这一垂直领域,不涉及数学推理、代码生成等通用 LLM 评测任务。

2. 对于不同用户群体而言,意义各异

① 对于使用网页版的普通用户

网页端强大的生图模型本身已经具备极强的“脑补”能力,无论选哪一家,它们都能产出“够用”的结果,底层性格的差异并不太影响你的日常娱乐出图。

② 对于使用网页版的专业视觉从业者

看清“工程师思维”与“画手思维”的红利与代价:如果你的脑子里目前只有模糊的概念,豆包的“擅自加戏”或许能帮你自动扩写出玄幻的氛围感,激发你的灵感;相反,如果你脑中的画面极其精准、空间逻辑严密,DeepSeek 则是更忠诚的执行者,它不会肆意扩展,能最大程度保证核心元素不跑偏。

千万不要把思维“外包”给 AI:测试表明,两家 AI 网页端在默认状态下都存在“糊弄模糊术语(如异瞳不拆分)”以及“遗漏关键要素”的现场。在专业生产线中,必须严格核对,避免返工。

规避对话中的“技术客服病”:日常用 AI 优化提示词或处理矛盾需求时,千万不要用问句向它发起反问(例如:“超清晰和模糊这俩要求有冲突吗?”)。这可能会直接触发deepseek的答疑本能,导致它长篇大论地开始科普技术原理,造成严重的元语言污染。

③ 对于直接调用 API 的开发者

两个模型都不主动展开‘异瞳’等模糊术语,可能在默认的指令中,它们缺乏主动补全的倾向。因此,调用API时可能需要在系统提示词中要求遇到模糊术语必须展开为具体属性,或者在下游用代码进行规则补充。

3. 终章:碎碎念

我本想参考产品测评文章,按引言、产品概述、性能实测、使用体验、对比分析等结构来写。但我认为,相比于最终那个“意料之中、符合直觉”的排名结论,本次测评从无意中的一次日常聊天、到捕捉到模型缺陷、进而抽象出“四维二元评测方案”、再到完善实践指导并完成复测验证的整个工程闭环过程,本身才更有价值。

本次测评的直接意义,是基于行业常用的AI生图公式(主体+细节+场景+光影+画风+参数+负面),将本次测出的硬性红线抽象成了一套“网页端提示词优化元模板”和“追问指令集”。希望能对大家的实际生图工作流有所启发。这次测评出的底层偏向,只是抛砖引玉。

对于优化提示词而言,deepseek和豆包的快速模式都能满足需求,如果觉得不够好,可启用思考模式。但我让deepseek和豆包用快速模式优化提示词后,又分别让它俩用思考模式输出,结果发现deepseek有很大的提升,但豆包几乎差不多。所以建议用deepseek的思考模式。当然,以上仅代表个人建议。

对文章开头提到的 CATi 测评感兴趣的朋友,欢迎移步:https://yangcr-abaaba.github.io/CATi/

我们顺着这个”底层偏向”的逻辑,或许可以延伸讨论:

如果技术上不存在壁垒,所有AI终将吞噬全人类的语料和知识,进化成一具逻辑与共情同时拉满、无所不能却又毫无”性格”的”哲学僵尸”——就像一张被写满所有颜色而从纯白变为纯黑的纸。什么都有,自然什么都不突出。

但在商业世界里,这张”纯黑”的纸永远不会出现。因为字节跳动与深度求索,有着完全不同的盈利模式和商业本能。

字节跳动需要流量、需要用户时长、需要情感黏性。所以它会拿起名为”商业利益”的刮刀,在纯黑的底色上,刻出”豆包”这张温暖、讨喜、爱脑补的陪伴者面具。

深度求索需要技术声誉、需要开发者生态、需要行业标杆。它同样拿起这把刀,削出DeepSeek这张冷静、严谨、有问必答的咨询师面具。

它们永远无法也永远不会成为同一个人。因为它们各自的主人格,需要它们戴着不同的面具,去不同的名利场上,争夺不同的选票。

作者:次级插件

]]>
DeepSeek永久降价,第一个赢家已经浮出水面 //m.clubpenjuin.com/381794.html Tue, 26 May 2026 05:56:14 +0000 //m.clubpenjuin.com/?p=381794

 

上周五,DeepSeek宣布API的2.5折优惠从临时改为永久。

对开发者而言,价格没有变化,但权利的期限从一个月变成了无限期。全球用户陷入狂欢。但价格只是表象,真正值得关注的变量在另一边:一款名为Reasonix的编程Agent正在GitHub上爆火。

它的逻辑极其直接:只适配DeepSeek,通过极致的工程优化,让使用成本再降80%。

一明一暗,两条线索同时展开。Reasonix如何利用DeepSeek的底层特性实现降维打击?为什么“模型+代理”的工程组合正在替代单纯的模型性能?这才是需要拆解的问题。

01、“前缀缓存”与“字节指纹”

先说“前缀缓存(Prefix Caching)”这个词,这是一项在去年就已经被广泛采用的大语言模型推理优化技术。

核心思想很简单:缓存历史对话中的KV Cache,以便后续的请求能够直接复用这些中间结果,从而显著降低首个token的生成延迟,提升推理效率。

技术细节有些繁琐,因此绝大部分开发者对DeepSeek的前缀缓存也仅仅停留在“省钱”这个感性认知上。然而,Reasonix的开发者团队抓住了物理层面的本质:字节级稳定性(Byte-stable)。

要理解Reasonix,先得搞明白DeepSeek缓存的逻辑:前缀哈希(Prefix Hash)。

设想一下,用户发送的提示词在机器面前就是一串极长的数字,而哈希算法将会对这串数字对应的文本颁发一个“唯一数字签名”,并称之为“指纹”。只要用户发送的这段内容和服务器缓存的内容指纹对上,这部分内容就没必要重新计算一遍,费用也就可以打2折。

但是大家都知道,每个人的指纹都不同,而这种缓存逻辑也有一个致命的缺点:它要求对话内容必须从头开始、一字不差地完全重合。

市面上绝大部分编程代理的设计思路都是基于“无缓存时代”的,优化目标也只有一个,那就是尽量减少发送的总token数。

因此,为了省钱,这些代理会动态地压缩历史对话,并删除中间无用的推理过程。或者,为了让模型更清醒,它们会在每一轮对话中重新排列系统提示词的位置。

然而,这些看起来很聪明的优化动作却破坏了前缀的连续性,一旦一次微小的改动打破了“完全重合”,原本可以命中的几百万个token缓存瞬间化为乌有。这就是典型的“丢了西瓜捡了芝麻”,为了剩下100个token的长度,直接损失了10000个token的缓存。

Reasonix采取的方案,在传统思维看来可能有些笨拙,可称为“绝对追加模式(Append-Only Loop)”。

简单来说,它在模型运行的循环中始终遵守一条铁律:不重排、不压缩、不修改历史。无论是工具调用结果还是用户追加反馈,一律都像流水账一样追加在末尾。这种看似笨拙的做法,带来的结果就是随着对话进行,发送的上下文会越来越长。

然而,天才般的结果也随之而来,因为前缀始终未变,这部分极长的上下文始终能被模型“铭记”,即使是长达数小时的编程会话场景,Reasonix搭配DeepSeek V4的缓存命中率仍然保持在94%以上。在GitHub Projects的极端实测案例中,命中率甚至冲到了恐怖的99.82%。

因此,这是一场极其精准的数学计算:在DeepSeek这种缓存命中价格低到可以忽略不计的环境下,留存长上下文的边际成本远远低于破坏缓存后重新注入的冷启动成本。

02、思维链的回收机制

既然是专门为DeepSeek开发的编程代理,享受到红利的自然不仅有新出的V4,还有旧的R1模型。

R1是上一代的推理模型,最大的特点大家都很熟悉了,它会在<think>标签内展示长达数千字的思维链。但在实际工程中,这种“推理先行”的模式反而会给智能体带来两个巨大的挑战:思考泄露和语法畸形。

顾名思义,思考泄露指的是R1在思考过程中有时会表现出极强的“执行欲”。如果智能体的模型选了R1,它就应该在思考结束后才发起对应的工具调用指令。然而,因为推理链太长,它经常在思维链内部就已经写出了各种工具调用指令。

对于大部分智能体来说,它们只能识别官方定义的Tool Call区块,模型在思维链中的“偷跑”指令会被当成普通的纯文本忽略,严重时可能导致会话直接卡住不动。

Reasonix为此设计了实时扫描机制,即便工具调用指令逃逸到了思维链中,Reasonix也能精准识别到,并把它抓回来重新调度执行。

这不仅提升了38%的调度效率,更重要的是挽救了昂贵的推理token成本,模型不再会因为思维链出现了细枝末节的混乱就重新思考一遍。

语法畸形同样不难理解,即使模型正确地发起了工具调用,JSON格式的脆弱性也是智能体难逃的噩梦。模型输出中无论是多一个逗号还是少一个引号,都会让智能体陷入停滞。

而在前面所说的“绝对追加模式”下,一次工具调用若是因为语法错误而失败,智能体就得把报错信息反馈给模型,模型据此重新生成一遍逻辑。在这个过程中,多重损耗已经悄然产生:错误信息污染了上下文、重新生成的回复破坏了指纹的确定性、缓存优势大打折扣。

因此,Reasonix采取了“自愈”方案:在指令送入执行器前,必须由Reasonix进行一轮感知约束的自我修复。这就好比一个资深的程序员在改bug,自动补齐缺失的符号、修正格式、重排字段。

而经过修复之后,工具执行的失败率也降到了3%以下。如此一来,会话历史就变得“干净”且正确,前缀缓存能够像滚雪球一样持续累积。

03、被动生态的霸权

回到事情的起因,DeepSeek的永久降价,对开发者而言是一场编程狂欢,但对竞争企业来说无异于一场晴天霹雳。

一个不够严谨但足够残酷的商业公式就此产生:

AI产品的统治力=(模型原生能力+社区工程补全)/用户迁移成本。

显而易见的是,在如今的AI行业,如果一个模型的性能达到竞品的90%以上,而价格只有竞品的1/10,那么毁灭性的替代效应自然会爆发。

前段时间,内有百度AI开发者大会和阿里云峰会,外有Google I/O 2026,这些企业无一例外试图将旗下的各种AI产品集成到一个统一入口,并打造出难以逾越的生态壁垒。

反观DeepSeek,它没有各种百度云和阿里云这些云平台服务,没有Google遍布全球的Youtube和Gmail,甚至没有多模态功能。

但它成功证明了一个令全球开发者尊敬的逻辑:将能力维持在国内第一梯队,将性价比落实到极致,使用量自然会来,而剩下的功能,开源社区会帮着补齐和完善。

过去,大厂总是认为生态是自上而下建设的,“围墙花园”的景象我们已经在智能体时代初期的豆包手机助手和千问APP中见识过了。

而Reasonix证明了被动生态的威力,它不是像Claude Code和Codex一样的商业化产品,而是开发者们自发筑起的一座只属于DeepSeek的坚城。

为什么开发者会愿意为DeepSeek专门写一套运行优化的逻辑?答案很简单,因为DeepSeek给全球的开发者留出了足够的获益空间。面对国内外那些昂贵的模型,开发者层面上的工程优化抵消不了token燃烧带来的成本;但在DeepSeek上,每一次优化都能直接转化为开发者的“试错自由”。

这就是开源带来的权力反转。

我们承认DeepSeek离全球顶尖模型仍然存在差距,但当模型的API价格足够便宜时,V4就已经从一款模型演变成了普惠的AI基础设施,而社区会自发地补完它的短板。梁文锋旗下团队可能没空做极致的TUI,但总有Reasonix一样的团队带领“精算师们”迅速补位。

这种利益驱动的生态,进化速度远超大厂内部的全家桶产品。

04、评价体系的位移

至此,国产AI也终于可以昂首挺胸加入这场智能体编程的竞赛。

国外跑在Claude Code里的Opus 4.7和跑在Codex里的GPT-5.5用不了,我们就用跑在Reasonix里的DeepSeek V4。

欢喜和骄傲的同时,一个极其容易被忽略的格局正在改变:目前AI领域的竞争,已经演变为“模型+编程代理(Coding Agent)”的比拼。

国内外有许多AI厂商都倾向于把所有功能塞进一个用户界面之中,但Reasonix选择了像Claude Code一样的垂直路线:只做编程,深入终端。它没有参与IDE插件的内卷,而是自研了基于Yoga的cell-diff渲染器,尽管研发团队提供了门槛更低的桌面版,但毫无疑问,重心还是放到了在终端实现最极致的交互。

而在Artificial Analysis的评价体系中,效率和成本已经成为核心权重。

Anthropic和OpenAI的产品组合价格有多高自然不必多说,一个月20美元的订阅费往往满足不了开发者的需求。然而,若是使用Reasonix+DeepSeek的组合,使用4亿token只需要花费12美元(按DeepSeek国际版收费标准)。

这种极致的低成本带来的不仅是试错自由,还有多智能体协作的生态繁荣。用户可以批量生成任务执行方案,无需担心账单瞬间爆表。这种心理层面的解绑,给AI真正进入大规模生产力提供了可能性。

Reasonix的出现,是Agent领域从炫技转向精算的标志。AI时代的竞争,已经下沉到每个字节的缓存指纹和每次工具调用的纠错。

DeepSeek把算力和智慧变成了人人可用的廉价自来水。而Reasonix,成了第一款效率高、损耗低的水龙头。

作者:思齐

来源:硅基星芒

]]>
DeepSeek智能体产品要来了 //m.clubpenjuin.com/381684.html Thu, 21 May 2026 03:40:20 +0000 //m.clubpenjuin.com/?p=381684

 

DeepSeek正在推进Agent(智能体)产品化。

近日,DeepSeek接连发布了两个Agent Harness相关岗位:Agent Harness产品经理和Agent Harness研发工程师。

根据职位描述,DeepSeek正在将前沿模型能力转化为领先的Agent产品,其中除模型本身以外的所有工作,都属于Harness的范畴。

入职者将加入Harness团队,与工程师、研究员、产品经理协作,参与Deepseek桌面端Agent产品研发的全过程,定义DeepSeek对Harness的理解。

其中,对Agent Harness研发工程师的要求是Agent产品的高强度用户,对Agent Harness的开发有极大的热情,对模型行为有品味有判断力,对开发者体验有强感知。

深度使用过代码类及通用类Agent产品,并将相关产品的使用融入到自己的工作和生活中。

而Agent Harness产品经理则要熟悉Agent产品的各种形态,深度使用过Claude Code、Cowork、Codex、Cursor、OpenCode、GitHub Copilot、Manus、Openclaw、Hermes等类似产品,同样将相关产品的使用融入到自己的工作和生活中。

此前有媒体报道称,DeepSeek内部正在组织一个新的Harness团队,方向是编程智能体产品,内部对标Anthropic旗下的Claude Code。

DeepSeek资深研究员陈德里在社交媒体的发文也证实了此事,他称“DeepSeek正在组织一个新的Harness团队,做Harness方向的产品和研究”,并直言“简单来说就是对标ClaudeCode,做DeepSeek CodeHarness”

Harness架构是智能体领域的一种工程基础设施参考框架,旨在通过一套系统化的工程方案,将基础大模型的原始智能转化为可靠、可控、可用的智能体能力,以系统性弥补裸模型在记忆、代码执行、工具调用等方面的固有缺陷。

这一概念在2025年底至2026年初由Anthropic推动并受到广泛关注,标志着AI工程实践从提示词工程、上下文工程向构建完整智能体运行环境的重要演进。

DeepSeek一直都在押注AI编程能力。

4月24日,DeepSeek发布旗下最新大语言模型V4的预览版本,称其在智能体任务、知识处理与推理能力方面表现突出,并针对Anthropic旗下的Claude Code等主流智能体工具进行了专项优化。

之后,DeepSeek又灰度上线识图模式,弥补了DeepSeek V4-Pro 接入Claude Code后,在用于日常开发时,难以识别架构图、设计稿、错误截图的问题。

当前,全球日均token消耗量已超过360万亿。据IDC预测,未来5年将增长3亿倍。

其中,AI编程和智能体是消耗主力之一。

阿里CEO吴泳铭在最新财报业绩会上透露,从去年11月开始到今年五月份,阿里云大量的API增长都是由AI coding(AI编程)带来的。

“智能体可以解决数字化工作的复杂任务,未来两、三年会是增长趋势。”

DeepSeek此次Harness团队的组建,既是技术路线的对标,更是产品化节奏的卡位。凭借模型适配能力和开源社区协同优势,DeepSeek能否后来居上,值得持续观察。

作者:黄心怡

来源:科创日报

]]>
DeepSeek用算法红利重塑AI定价权 //m.clubpenjuin.com/381280.html Mon, 11 May 2026 07:17:44 +0000 //m.clubpenjuin.com/?p=381280

 

4月24日,DeepSeek正式发布并开源DeepSeek V4系列预览版本。距离V3炸开行业水面的一年多后,这条“鲇鱼”再次入局。

彼时,DeepSeek把AI大模型的价格从“高高在上”拉到了“人人可用”——API调用成本仅为GPT-4的百分之一,性能却正面硬刚。这一印象至今仍是它最鲜明的标签。

但过去一年,牌桌变了。从AI Agent的爆发到百万级长文本的普及,Token的消耗量正呈指数级激增。当下的行业陷入了一个悖论:AI越来越好用,但也越来越贵。

在这个时间点,DeepSeek V4试图回答的已经不只是“更强”,而是如何让AI继续用得起。

01 模型越来越像,性价比才是唯一变量

当前大模型市场正进入转折期——模型能力差距快速收敛。

“不管是开源模型还是闭源模型,都在相互蒸馏、相互对齐,结果就是能力越来越接近。”山海引擎COO彭璐告诉《IT时报》记者,如今模型之间的差异,更多已经从过去的“60分和90分”,缩小到“98分和99分”的细微差别。

能力差距的收敛,直接改变了市场的选择逻辑。“为什么像MiniMax这类模型最近卖得很火?本质原因是它已经达到主流模型80%以上的能力,但成本可能连一半都不到。”在能力趋同的背景下,性价比成为企业决策的关键因素。

基于这一判断,彭璐认为,大模型未来将逐渐从“技术产品”转变为“基础生产工具”,“就像发电机一样,不同技术路线(火电、核电)可能存在差异,但在一定效率区间内是可以接近的。”

因此,在不少业内人士看来,当前国产大模型的竞争重点,不应局限于模型能力本身的“对标与PK”,而是应尽快进入产业层面的布局。未来的关键在于算力和数据中心。相比私有化部署项目,面向全市场提供Token服务的模式空间更大,而前者往往定制化程度高、节奏较慢。

“如果把未来的数据中心看作‘电厂’,那么Token就是电力。”彭璐用类比解释称,未来企业购买的将不再是具体模型,而是按类型计价的Token能力,例如文本、图像、语音等,不同模型之间的差异会被弱化,最终形成类似电力市场的统一定价体系。

“模型会逐渐变成一种生产工具。”他表示,模型厂商之间的竞争,也将从“谁更先进”转向“谁的工具被更多场景采用”。

02 AI变贵的真相,实际是AI用得多了

回到现实,一个悖论仍然横亘在行业面前:AI明显越来越好用了,行业却在喊贵。问题不在“单价”,而在“用量”。

如果说V3的意义是“把价格打下来”,那么V4所处的阶段,是价格战进入深水区——随着“小龙虾”在内的Agent大火,长上下文的普及,AI应用爆发带来的Token消耗指数级激增。

“今年以来Token需求至少呈10倍增长。”彭璐分析,目前部分客户的算力需求已出现明显紧张,GPU租赁市场价格也随之上涨,H100、H200租赁价格上涨20%~30%,整机价格涨幅甚至达到50%,二手设备价格比以前的新设备都要贵。

DeepSeek给出的解法,不是简单降价,而是重构成本结构。

V4发布第二天,DeepSeek官网更新API文档,宣布DeepSeek V4 Pro降价,开启2.5折限时优惠。调价后,DeepSeek V4 Pro每百万Tokens输入价格(缓存命中)为0.25元,输入价格(缓存未命中)为3元,输出价格为6元。此次优惠活动将持续至5月5日23点59分。

紧接着第二天(4月26日晚),DeepSeek宣布,全系API的输入缓存命中价,永久降至原有价格的1/10。最新调价后,DeepSeek V4 Flash每百万Tokens输入缓存命中价格为0.02元,DeepSeek V4 Pro为0.025元(已调价基础上的十分之一)。

V4降价的底气,根源在于V4本身的架构设计。

V4引入了混合稀疏注意力机制,包含两种注意力模式:CSA(压缩稀疏注意力)对强关联的Token精读,HCA(重度压缩注意力)对弱关联的内容快速略过,不做全量计算,这样让长上下文的边际成本大幅下降。

V4的另一项关键设计,是FP4(4位浮点数)+FP8(8位浮点数)的混合精度。精度可以理解为芯片存储数字时用多少位来表示一个小数,位数越少,占用的显存越小,计算速度越快。FP4是目前最低的商用精度,每个参数只用4位表示,内存占用比FP8再减半。

DeepSeek-V4 和 DeepSeek-V3.2 的计算量和显存容量随上下文长度的变化

基于这样的创新架构,V4做到了100万Token的长上下文场景下,V4 Pro单Token推理的计算量只有上一代V3.2的27%,KV Cache占用降至10%。也就是说,同样的硬件资源,V4能处理的并发用户数量,理论上是上一代的数倍,而同样显存能同时维持的缓存条目多了十倍,计算成本的压缩,为定价空间的释放奠定了基础。

由此便可理解,为什么这次降价幅度最狠的是“缓存命中价”。所谓“缓存命中”,是指大模型在处理请求时,如果上一次请求已经处理过,模型可以把这部分的中间计算结果缓存下来,下次请求时直接复用,不用重新计算,自然也不用重新计费。

这个便是V4 KV Cache压缩技术的直接变现。这项技术和定价,恰恰也正击中Agent类应用的痛点。

Agent典型的调用模式是:系统提示词很长(定义Agent的角色、能力边界、工具列表),这部分在每次请求里完全不变;用户输入和工具返回结果每次不同,但相对短。

V4用价格杠杆鼓励开发者把固定内容(系统提示词、工具定义、文档模板)放在请求头部,让缓存机制自动生效,缓存越稳定,命中率越高,开发者付的钱越少,部署Agent的边际成本也就越低。

如果这套机制真的生效,意味着一个被高频调用的Agent产品,其调用成本只是每次真正变化的用户输入和模型输出,而这样的成本已经接近普通对话。

那么,此前困扰产业的“昂贵的Token”可以重新找到解题方式。

03 未掀起大规模切换潮,落地仍在“观望期”

尽管发布即热度拉满,但在产业侧,V4并未立即掀起大规模切换潮。

彭璐告诉记者,目前企业客户在模型选择上整体仍处于观望阶段,对成熟客户来说,一旦已有稳定模型在运行,不会轻易切换。企业通常需要完成适配、测试和成本验证,确认确实能够降本增效后,才会进入生产环境。

因此,无论是客户侧还是服务商侧,都需要经历压力测试、生产验证以及基于客户语料的持续调优过程。

“至少在我们这边,V4这样的新模型要大规模在客户端落地,可能还需要1至2个月时间。”他说,目前客户尚未出现大面积“必须切换到新一代模型”的趋势,“一些友商之间也有交流,至少从我们这里来看,还没有明显的爆发。”

在技术层面,彭璐认为,DeepSeek V4的出现对行业仍具有重要推动意义,“它在算法和专利上的一些创新已经通过论文形式公开,这些成果对整个行业,包括多模态模型的发展,都会产生正向影响。”

04 当Token革命撞上算力的墙

另一个更现实的问题是算力供给。

V4的另一重意义,在于其释放的“全栈国产落地”信号。过去算法公司与国产芯片厂商之间长期存在错位:模型厂商担心硬件生态拖累研发,芯片厂商则缺少对最前沿的大模型进行深度调优。

随着V4的发布,国产算力厂商迅速跟进:华为、寒武纪、海光等相继宣布完成适配或支持。

不过,适配争议仍然存在。

彭璐表示,公司内部已经在推进相关部署,尽管目前仍处于业务起步阶段,但开发团队在实际落地过程中,并未反馈明显的技术障碍,“至少在现阶段,没有听到什么问题。”

对于外界关注的长上下文能力是否增加适配难度,彭璐认为整体可控,并未成为决定性门槛。在算力配置方面,当前行业确实存在对高端GPU配置的讨论,例如需要多台高性能卡进行支撑。“像B200、B300这类芯片,本身在设计时就对FP8+FP4做了支持,因此在适配上会更具优势。包括部分国产芯片在内,也在逐步支持类似能力,整体生态正在完善中。”

不同硬件架构之间的适配体验仍可能存在差异。对于网络上关于适配难度的争议,彭璐认为,部分声音可能受到市场利益驱动,“不同厂商、不同角色的立场不一样,对同一技术的解读也会有差异。”

归根结底,问题仍指向上游制造能力。DeepSeek也在其发布通稿中坦言,受限于高端算力,Pro服务吞吐有限,预计下半年昇腾950超节点批量上市后,Pro价格会大幅下调。

对于国产算力的未来,彭璐表示看好,但短期仍受制于产能,“关键还是在上游制造能力,如果这些瓶颈不能解决,芯片供应仍然会受限。”

作者:贾天荣 编辑:王昕 孙妍

来源:IT时报

]]>
Kimi与DeepSeek到底谁更值钱? //m.clubpenjuin.com/381275.html Mon, 11 May 2026 05:56:09 +0000 //m.clubpenjuin.com/?p=381275

 

最近,并称为“中国AI开源双子星”的Kimi(月之暗面)和DeepSeek(深度求索)正在密集刷屏。

先是新模型接连发布。Kimi前脚刚推出K2.6,DeepSeek 后脚就放出了 V4。

再是资本市场风向的剧烈变化。

2天前,Kimi 宣布完成约20亿美元融资,美团龙珠领投,投后估值约200亿美元。历经三轮融资与近一年的商业化积累,Kimi的ARR 已突破2亿美元,付费订阅与API收入加速增长。

几乎同一时间,此前长期拒绝融资、几乎完全依靠幻方量化”自我供血”的DeepSeek正式开放外部融资。

最新消息披露,DeepSeek拟募资500亿元,创始人梁文锋计划优先出资200亿元,占本轮40%。投后估值,从最初的百亿美元级别,一路推高至超515亿美元,约为Kimi的2.5倍。

一旦落地,这不仅是中国AI史上最大单笔融资纪录,更将创下中国所有创业公司中首轮融资的估值天花板。

同为开源模型,同样在挑战万亿参数,为什么到了资本牌桌上,两家公司的筹码却相差这么多?

01 两种钱的味道

如果只看融资金额,Kimi 是目前国内大模型创业公司里,融资最成功的一家。

从 2023 年成立至今,月之暗面累计融资已经超过 376亿元。

这个数字看上去很耀眼。但如果拆开来看,你会发现,Kimi 拿到的不只是“钱”,而是一整套资本、云厂商与互联网巨头深度绑定的资源体系。

2024年初,阿里向Kimi 投入约8亿美元,成为单一最大股东,持股约36%。这笔融资,是 Kimi 真正意义上的转折点。

不过这8亿美元并非全是现金。其中有相当一部分是以阿里云算力信用额度的形式完成,实际出资金额不到6亿美元。

换言之,Kimi 拿到的“弹药”,本质上是提前预支的云资源;消费多少,额度就减少多少;而阿里则把这部分计入云业务收入。

云厂商与大模型创业公司之间,“你中有我,我中有你”,在这里有了另一层意思。

后来,腾讯超额认购了一轮融资,于是,两个互相竞争的互联网巨头,同时成为Kimi的重要股东。

最新这一轮20亿美元融资里,美团龙珠、中国移动、CPE源峰等进入了投资方名单,阿里与腾讯在前几轮也有持续超额认购。

据传腾讯同时也在接触DeepSeek。它既投Kimi,也接触DeepSeek。

对腾讯来说,这更像是一种“AI 时代的保险策略”;但对于 Kimi 来说,腾讯一边制衡阿里,一边又可能成为竞争对手背后的资本力量。

这就是市场化 AI 创业公司的现实。钱越来越多,但每一笔钱背后,也都带着自己的诉求。

DeepSeek背后是幻方量化。长期以来,DeepSeek 的研发几乎完全由幻方自有资金支撑,没有外部 VC,没有融资时间表,也没有云厂商绑定。

所以过去几年,梁文锋可以什么都不急。别人卷商业化,他卷训练效率;别人抢入口,他继续做开源。

现在,DeepSeek准备第一次引入外部资本。但即便如此,梁文锋依旧牢牢锁定控制权,计划自己出资200亿元,占这一轮融资的40%。据传国家集成电路产业投资基金洽谈领投,国家队的出现,让DeepSeek的属性可能发生改变。

这两种钱,本质上对应着两种公司形态,如果说Kimi是最典型的市场化AI创业公司,Deepseek则更像一种“国家战略能力”的延伸。

更有趣的是,当外界还在比较两家公司谁的模型能力更强时,他们的技术底层,其实早已悄悄“融合”。

DeepSeek V4的技术报告里,用了Kimi 提出的 Muon优化器;Kimi K2 的底层架构里,又用了DeepSeek 提出的MLA。

两家公司的论文互相引用,技术栈彼此嵌套,像两个互相咬合的齿轮,一边竞争,一边给对方提供动力。

OpenAI 甚至在一篇论文中点名指出:Kimi 和 DeepSeek 是“最早复现OpenAI-o1 Long-CoT”的两家公司。

不过现在,他们已不再是OpenAI的“追赶者”。K2.6带来了 SWE-Bench Pro 58.6% 的Agent集群并行编程能力;V4则把百万上下文做成了全服务标配,输出长度拉到 384K tokens。

此外,两家公司还在同时推进国产芯片适配。

DeepSeek V4下半年将支持华为昇腾 950,寒武纪已经完成Day 0 适配;Kimi K2.6也开始支持国产芯片混合推理。Agent能力、编程天花板、百万上下文、国产芯片适配、开源生态……几条路线几乎同步撞车。

从“学会思考”到“学会干活”,从“改 Transformer”到“改算力底座”,这场看似彼此竞争的技术演进,展现的是中国AI 开始逐渐摆脱单纯对标OpenAI、降低对英伟达依赖,并在开源生态里走出属于自己的路。

02 会赚钱,为什么估值更低?

Kimi 已经具备了一家“成熟 AI 创业公司”的雏形。

它有C端产品,有付费用户,也有越来越清晰的Agent商业化路径。无论是会员订阅,还是API收入,都已经开始进入加速增长阶段。

Kimi 的ARR,即年化经常性收入已突破2亿美元。这个数字,是美团龙珠主动披露出来的。

在一级市场里,投资方主动强调ARR,其实是在给估值做背书。毕竟在国内AI创业公司里,真正跑出稳定收入模型的并不多。

DeepSeek的逻辑则完全不同,它的核心策略是先做生态覆盖,再谈商业化。

DeepSeek的API 定价,长期维持在OpenAI 的十分之一左右。它更在意的是模型渗透率、开发者生态和开源影响力,而非短期收入。

因此,直到今天,DeepSeek的真实营收依旧没有公开。另一边,它的用户规模却在快速膨胀。目前,DeepSeek 月活已经达到 1.27亿,是Kimi 月活的14倍(900万)。

于是,一个非常微妙的局面出现了:ARR 已突破 2 亿美元、商业化路径更成熟的 Kimi,估值约200亿美元;而收入规模尚未公开、仍在强调低价开放的 DeepSeek,估值却已冲向 515亿美元,约为Kimi的2.5倍。

这背后反映出的,其实是资本市场评价逻辑的变化。

今天的AI投资,奖励的不再只是“你现在能赚多少钱”,还有“你未来可能成为什么”。

一旦国家资本真正进入,DeepSeek 的叙事,可能变成“中国AI基础设施”,其对应的估值逻辑,自然也不再只是传统商业公司的市盈率。

在2026年的AI投资语境里,Kimi的“会赚钱”反而意味着边界更清晰,想象空间有限。

但这一估值悖论不会长期存在。

The Information 在报道里提到,DeepSeek此轮融资之后,将“加速营收规划与商业化落地”,同时加快模型发布节奏,“向行业主流靠拢”。据悉,DeepSeek6月推出的V4.1,还会专门增加面向企业用户的工具能力。

这意味着,DeepSeek 也开始被推着讲商业化故事了。

过去,梁文锋可以不急。因为幻方的钱,没有外部 LP,也没有退出周期。但外部资本一旦进入,时钟就会开始滴答作响。

Kimi 今天面对的那些问题:收入、增长、商业化效率、资本预期……DeepSeek未来大概率也会面对。

某种程度上,Kimi 那2亿美元ARR,更像是一张“先行者地图”。

03 杨植麟与梁文锋的账单

杨植麟和梁文锋,都是广东人。一个汕头,一个湛江。

Kimi和DeepSeek是中国首批开源万亿参数模型的玩家,他们在技术信仰上非常相似:都相信 Scaling Law,都在挑战万亿参数级别的大模型。

DeepSeek 更擅长推理模型,Kimi 更强调 Agent 能力。

技术路线虽然不同,但底层目标其实高度一致。尤其在更底层的架构创新上,两家公司几乎总是在同一个方向上“撞车”。

Kimi 发了“注意力残差”论文,DeepSeek做了mHC 残差连接;

Kimi 在线性注意力方向探索Kimi Linear,DeepSeek则在稀疏注意力方向推进DSA。看似路线不同,本质上都在挑战 Transformer 时代那套“古老基础设施”。

不过在“如何保护技术理想”这件事上,两个人却走了完全不同的路。

杨植麟的方法,是制度设计:AB股、双层股权结构、技术团队拥有绝对投票权。除此之外,杨植麟还引入了张予彤。她最初以金沙江创投合伙人的身份出现在Kimi的融资谈判里,是最早帮Kimi拿到阿里那笔近10亿美元融资的关键人物。

后来因为与金沙江之间的利益争议离开了基金,中间经历了一段公开的舆论风波,再往后,在2025年底,她以“月之暗面总裁”的身份正式公开亮相,全面负责公司战略、融资与商业化。

而这些事,恰恰是杨植麟不擅长的,或者说不愿意长期消耗精力的部分。杨植麟是典型的技术创始人。在英伟达 GTC 2026 的演讲里,他花了大量时间讲Muon、讲训练效率、讲万亿参数规模下的稳定性问题。

梁文锋也是一位技术极客,他掌握控制权的方式更直接:真金白银。

首轮外部融资,他自己出资 200 亿元,占这一轮的40%,不依赖复杂制度设计,也不依赖特殊投票权安排,主打一个“用资本打败资本”。

很难说这两种方式谁更高明。制度设计的好处是杠杆高用相对少的股权锁住更多的控制力。但制度是人设计的,执行过程里会有摩擦、争议,甚至是意想不到的代价。

据暗涌报道,Kimi 创立初期,杨植麟从上一家公司循环智能带走了核心团队,但老股东的豁免同意书一直没有完全签完。彼时大模型融资狂热,很多问题都被默认“先上车再说”。

后来随着阿里近10亿美元融资落地,争议开始浮出水面。

帮 Kimi 谈下这轮融资的张予彤,当时还是金沙江创投管理合伙人,而她丈夫汪箴同时又是Kimi联合创始人。随后,朱啸虎深夜发朋友圈提到“fiduciary duty(受托责任)是高压线”,后来循环智能老股东也发起仲裁。

因此,一个设计精密的AB股结构,并不能完全解决公司创立初期留下的人情关系与程序问题。

真金白银的好处是清晰,没有歧义,但前提是你得有那么多钱,而且愿意押进去。梁文锋有幻方在背后,这条路他走得起。

不同选择也映射了两家公司不同的资源禀赋。Kimi 从一开始就是市场化创业公司,所以它必须学会与资本长期共处;DeepSeek依靠自有资金熬过了最艰难的阶段,因此可以用更强势的方式处理控制权问题。

各有各的活法。

在技术上,他们互为彼此的“基础设施”。商业上,他们曾经走在两条不同的轨道上。但随着 DeepSeek 开始引入外部资本,两条轨道正在慢慢靠近。

钱是有重量的,外部资本一旦进来,所有公司最终都要面对同一张账单。

Kimi 已经先行一步,Deepseek刚刚上路。

作者:妍旭  编辑:孟雯

来源:奇点研究社

]]>
DeepSeek-V4手搓Agent,冲上GitHub热榜第一? //m.clubpenjuin.com/381227.html Thu, 07 May 2026 05:59:31 +0000 //m.clubpenjuin.com/?p=381227

 

DeepSeekClaude Code爆了!

智东西5月6日消息,今日,美国独立开发者Hunter Bown的开源项目DeepSeek-TUI在GitHub上爆了,冲上GitHub热榜第一,今天Star数上涨2434,总Star数已超10.2k。

这一项目是基于DeepSeek-V4的终端原生编程Agent,其允许开发人员直接在终端与DeepSeek聊天、编辑文件、运行shell命令、管理任务,甚至协调代码库中的子Agent。

今早,DeepSeek-TUI更新了0.8.13新版本,聚焦运行时和TUI相关问题修复,提示词规范优化、运行轨迹日志、Anthropic接口兼容支持以及大规模界面整理优化,均已延后至后续版本发布。

值得一提的是,DeepSeek-TUI的开发者并不是专业人士,Bown的本硕专业与编程无关,Bown 2015年获得北得克萨斯大学音乐教育学士,2019年在南方卫理公会大学获得音乐教育硕士,目前就读于美国南方卫理公会大学Dedman法学院。

该项目2026年1月发布,伴随今年4月底DeepSeek-V4升级、Bown在X上发帖想和中国开发者建联而走红,他称中国开发者为“鲸鱼兄弟”。

X上网友分享,Bown已经成功拥有微信账号,并和中国开发者交流起来了。

在DeepSeek-TUI开源主页的贡献者名单中,还有Claude、Gemini。

一站式全能调度智能Agent终端Tday开源项目的作者发帖称,他成功将DeepSeek-TUI集成到Tday后,其体验表现出极高的稳健性,配合DeepSeek-v4-flash时,速度非常接近开源AI编程智能体OpenCode。

Claude Design的开源替代方案Nexu作者称,这是首次在代码智能Agent的终端环境中直接运行DeepSeek-V4,他们测试的效果相当不错。

有网友在下面称赞,这么好的项目必须支持。

还有网友询问Bown帖子里说的“鲸鱼兄弟”来源,感觉这个称呼很有喜感。

不过,也有网友认为DeepSeek-TUI火得莫名其妙:“为什么要抛弃一个已有成熟方案的产品,转向没有稳定的产品?”

01.基于DeepSeek-V4构建,还专门发了中国开发者友好版本

DeepSeek-TUI是基于DeepSeek-V4构建的终端编程智能体,具备100万token上下文窗口、流式推理块和前缀缓存感知成本报告的能力。

具体而言,其可读取与编辑文件、执行终端命令、联网检索、管理Git版本库,并能在键盘交互的终端界面(TUI)中调度多个子智能Agent协同工作。

网友评价DeepSeek-TUI的界面布局一目了然,但缺点是对话区中AI输出和用户输入的分界不明显。

有网友用DeepSeek官方API进行了对比,相比Claude Code,DeepSeek-TUI在跑长时长任务时,缓存命中率会下降。

DeepSeek-TUI的架构如下:DeepSeek调度命令行→DeepSeek-TUI配套程序→终端图形界面↔异步引擎↔兼容OpenAI协议的流式客户端。

工具调用通过类型化注册中心流转,包含终端命令、文件操作、Git版本管理、联网检索、子智能体、MCP协议、RLM大模型,执行结果以流式方式回写到对话日志中。

引擎负责管理会话状态、对话轮次、持久化任务队列,还内置LSP语言服务子系统;代码编辑完成后,会先把语法诊断信息送入大模型上下文,再进行下一步逻辑推理。

DeepSeek-TUI的开源主页还有对中国开发者的镜像友好安装版本:

02.共三大运行模式,还能自适应调整推理等级

在开源项目主页,Bown专门用中文写了README.zh-CN.md文件,其中提到DeepSeek-TUI的主要特点包括:

自动模式:用户可以通过model auto指令启用自动模式,该工具会在每一轮交互中自动适配选择合适大模型,并匹配对应的推理思考等级。

切换推理等级:用户可以通过按下Shift+Tab快捷键循环切换推理等级,分别为关闭推理→高推理强度→最高推理强度。

推理流式输出:其会将模型进行思考推理的过程进行实时流式展示,可直观看到DeepSeek的完整逻辑推理步骤。

全量工具能力:内置完整工具集,支持文件读写操作、终端命令执行、Git版本管理、网页搜索与网页浏览、补丁应用、子智能Agent调度,以及MCP协议服务器连接。

百万token上下文:具备上下文内容追踪、手动/自动配置内容压缩功能,同时提供前缀缓存监控统计能力。

内置三大运行模式:规划模式(仅只读查阅项目代码与文件)、Agent模式(交互操作且需手动审批)、极简自动模式(全部操作自动审批执行)。

会话保存与接续:支持为长时间运行的工作会话创建检查点,随时保存进度,后续可一键恢复接续会话继续工作。

工作区版本回滚:项目会内置独立快照Git机制,在每轮操作前后自动生成项目快照,通过/restore和revert_turn命令即可回滚操作,不会改动项目原生的Git仓库配置。

持久化任务队列:后台运行的任务支持持久化保存,程序重启后,未完成的后台任务可自动继续执行。

HTTP/SSE运行接口:支持通过deepseek serve—http启动服务,提供HTTP、SSE接口,适配无图形界面的无头自动化代理工作流。

MCP模型上下文协议:可连接Model Context Protocol模型上下文协议服务器,扩展更多第三方工具能力。

原生RLM批量查询:内置rlm_query原生能力,复用同一API客户端,调用轻量化低成本的deepseek-v4-flash模型,高效完成批量代码与数据分析任务。

LSP代码诊断:依托rust-analyzer、pyright、typescript-language-server、gopls、clangd等主流语言服务工具,每次编辑代码后,都会在界面内实时展示代码错误与警告信息。

用户个性化记忆:用户可开启持久化备注文件功能,自定义的偏好设置会注入系统提示词,实现跨会话保留个人使用习惯与配置偏好。

多语言界面本地化:支持英文、日文、简体中文、巴西葡萄牙语四种界面语言,可自动识别系统语言适配切换。

实时费用统计:实时统计每一轮交互及整个会话的token消耗、预估使用成本,同时细化展示缓存命中与缓存未命中的明细数据。

技能扩展系统:支持从GitHub安装、组合自定义指令技能包,可灵活扩展工具能力,全程无需依赖额外后端服务。

今早,DeepSeek-TUI更新了0.8.13新版本,聚焦运行时和TUI相关问题修复:

额外更新包括在压缩前对无LLM工具结果进行剪枝:在付费摘要处理之前,对旧的详细工具结果进行机械式摘要。重复读取保留最新的完整数据体,并将旧的副本替换为单行摘要;如果这样能使会话大小回到压缩阈值以下,则完全跳过LLM摘要调用。

重复工具防环保护装置:每个用户回合都会生成(tool_name,args)对参数。在第三次相同的调用时,它会插入一个合成的纠错工具结果,而不是再次运行相同的工具而不做任何更改;如果某个工具出现故障,则会在三次调用时发出警告,并在八次调用时停止。

V4缓存命中遥测兼容兜底适配:用量解析现已支持识别 usage.prompt_tokens_details.cached_tokens字段,因此底部状态栏现有的缓存命中标识组件,既能适配DeepSeek-V4自动前缀缓存的遥测数据,也能兼容旧版明确的缓存命中/未命中字段格式。

03.结语:想打造Claude Code平替,但稳定性存疑

Claude Code这样的专有系统通常需要付费API访问,且运行在较为封闭的生态系统中,而DeepSeek-TUI的出现或能为打破这种局面提供参考,依托DeepSeek的低成本模型堆栈,以更低成本提供类似的工作流程。但开发者仍然不能这类不稳定开源项目背后的风险。

不过,这一开源项目的爆火,无疑也从侧面印证了DeepSeek-V4的影响力,其为更多开发者提供了低成本搭建终端智能编程体、自主定制开发工作流的全新可能。

作者:程茜,编辑:李水青

来源:智东西

]]>
确认!DeepSeek多模态AI已经开测 //m.clubpenjuin.com/381102.html Thu, 30 Apr 2026 03:51:43 +0000 //m.clubpenjuin.com/?p=381102

 

DeepSeek的视觉功能,真的来了!!

DeepSeek研究员陈小康发帖放出一条消息——

Now, we see you.

随后,另一位研究员陈德里也跟了一条,确认V4视觉模式已经开始灰度测试。

怎么说,小鲸鱼的多模态拼图,要补齐了。

已经具备真实图像理解能力

之前上传图片,模型只能识别图片中的文字,做做OCR工作。

今天一个小更新之后,被灰度到的幸运鹅首页已经出现了识图模式,下面还有一行小字表示图片理解能力内测中。

从幸运鹅分享的截图来看,DeepSeek视觉测试版已经具备真实图像理解能力,识别出了图片里的饮品、杯型等信息,思考4秒输出了完整的描述。

这是一张没有明显文字的图,明显与之前仅识别文字的模式不一样了。

V4,满血归来

放出消息的两位研究员,其中一位是陈小康,DeepSee多模态研究组负责人,北大博士毕业。

他是DeepSeek两个重磅多模态项目的核心作者:Janus系列统一多模态理解与生成模型;DeepSeek-VL2基于MoE架构的视觉语言模型。

简单说,DeepSeek的视觉能力,就是他带队搞出来的。

另一位陈德里主要负责语言模型、对齐机制、训练策略及模型泛化能力等核心方向。

在过去两年的时间里,DeepSeek发布的多项重要研究成果,无论是V2、V3还是R1,几乎都能看到他的名字,这次的V4也不例外。

价格打骨折之后,视觉功能又来了,请问还有什么惊喜是我们不知道的!!!

不得不说,DeepSeek V4,这次是真满血归来了。

作者: 凹非寺量子位

来源:量子位

]]>