DeepSeek – 青瓜传媒 //m.clubpenjuin.com 全球数字营销运营推广学习平台! Wed, 12 Feb 2025 07:19:39 +0000 zh-CN hourly 1 https://wordpress.org/?v=5.2.21 https://static.opp2.com/wp-content/uploads/2021/04/favicon-1.ico DeepSeek – 青瓜传媒 //m.clubpenjuin.com 32 32 DeepSeek2025年电商十大趋势分析 //m.clubpenjuin.com/363527.html Wed, 12 Feb 2025 07:19:39 +0000 //m.clubpenjuin.com/?p=363527

 

春节假期期间,国产AI达模型“第一巴图鲁”DeepSeek持续刷屏。

不少网友感慨DeepSeek更懂人话,更会思考,它不仅“脑子快”,还擅长“个性化发挥”,为你做到“全方面考虑”,被网友称为“全能型AI助手”。

与此同时,华为云、腾讯云等多个平台先后宣布上线DeepSeek大模型。海外方面亚马逊、微软、英伟达等也陆续宣布接入DeepSeek模型。

这股DeepSeek“平民化”的风潮,提升了大众使用大模型的普及率。而聚焦到电商行业大小事,DeepSeek能给出哪些意见和参考呢?

一、仅退款“不消失”,商家可用AI突围

2024年,各大电商平台逐渐开始重新审视如何平衡商家与消费者利益的问题。2025年电商平台的仅退款会完全取消吗?取消的可能性有多大?会对商家有什么影响?

DeepSeek认为,2025年电商平台“仅退款”政策不会完全取消,但将进入精细化治理阶段。

首先,从政策调整概率来看,完全取消概率低于10%。因为头部平台消费者调研显示,63%用户将仅退款视为核心购物决策因素。接下来,动态分级实施概率达90%。平台可根据信用分级、品类差异、金额阈值进行调整。

平台差异化策略建议:

拼多多:保留但收缩(适用范围-30%)AI质检前置(图像识别准确率90%)需接入品控系统(成本+5万/年)。

抖音:升级为“闪电退” 区块链存证(纠纷处理提速60%) 强制投保履约险(费率0.8%-1.2%)。

京东:叠加逆向物流 智能路径规划(退货成本降25%) 需使用京仓服务(渗透率将达75%)。

淘宝:合并至“无忧购”体系 用户行为建模(恶意退款识别率85%)参与商家评级(影响流量分配±20%)。

分析完平台策略差异后,DeepSeek对商家影响进行量化评估:

-成本结构变化:优质商家售后成本下降,长尾商家洗牌加速。

-运营模式迭代:智能客服投入激增,2025年商家AI客服渗透率需达70%(当前45%);供应链改造需求,预售占比需提升至40%以对冲退款风险

-竞争格局重塑:服务能力强的商家更吸引消费者,极速退款商家转化率高出行业均值25%;品类集中度提升,家电3C类目TOP10品牌市占率将突破65%。

DeepSeek建议中小商家将售后预算的20%转投AI质检设备,同时通过C2M模式将定制化比例提升至35%以上,从根本上降低退货率。

平台政策调整本质是用技术手段重构信任成本,2025年将形成“优质商家获得政策红利-消费者体验升级-平台生态优化”的正向循环,最终实现GMV损失率压缩至1.5%以内的健康业态。

二、阿里新零售战略“破产”,加速转向“轻资产”

DeepSeek认为,阿里巴巴的新零售战略确实面临阶段性挑战,但对其未来走向需结合行业趋势和企业战略调整综合分析:

首先,新零售业务面临的现实困境:银泰百货、高鑫零售等业务的重资产模式承压;盒马尽管已经盈利,但因前置仓和冷链运输成本居高不下等问题,上市一再推迟;银泰百货进行数字化改造效果不及预期;淘菜菜面临美团优选/多多买菜挤压,2023年Q4亏损同比扩大27%。

基于上述情况,阿里的战略调整路径是提升轻资产能力输出。阿里云零售解决方案商业化加速,印证品牌商对数字化工具的需求;1688转型产业带服务商,通过跨境专供频道连接1000+产业带,2023年B2B交易额突破8000亿元。聚焦核心优势领域,菜鸟网络分拆上市推进、闲鱼/1688等C2M平台崛起。

其次,DeepSeek认为行业会出现结构性机会,也就是即时零售、跨境电商的差异化竞争:

– 天猫超市小时达接入600城线下商超,采用20%佣金分成模式(低于京东到家25%),通过LBS流量赋能而非自建仓储。

– 饿了么借力支付宝生态,2023年非餐饮品类占比提升至38%,医药/鲜花等高频品类佣金率可达15%。

– 速卖通Choice频道通过西班牙/法国本地仓网络,将跨境配送时效压缩至3天,2023年海外仓GMV同比增长210%,轻资产模式海外仓占比70%。

DeepSeek认为,阿里未来3年关键指标验证点:

– 盒马若能通过加盟模式将直营店占比降至50%以下,有望实现经营性现金流转正

– 银泰百货若会员复购率提升至65%(现为52%),可验证高端零售数字化模型

– 淘菜菜生鲜损耗率需降至10%以下(现为13.5%),才能支撑区域盈利模型

总之,阿里不会完全放弃新零售,但会转向”数字基建+生态赋能”的轻资产路径,实体布局更多作为数据触点而非营收主体。这种调整既符合互联网平台边际成本递减规律,也契合当下资本市场对确定性的偏好。

三、产业带加速内卷,高端制造提速

DeepSeek认为,关于2025年中国产业带商家的发展趋势和升级路径,我们可以从宏观经济环境、产业竞争逻辑和政策导向三个维度展开分析。

首先,低价竞争会加剧行业竞争分化,基础制造类产业带(如服装、小商品)仍面临价格竞争压力,但头部企业通过柔性供应链将价格战转化为效率战;技术密集型产业带(如新能源、智能硬件)呈现价值竞争特征,深圳3C产业带研发投入年均增长18%印证此趋势;跨境电商渗透率提升(预计2025年达40%)推动“优质优价”模式,安克创新在亚马逊的客单价超行业均值3倍。

在行业分化的同时,出现了很多结构性机会窗口。比如县域经济振兴政策催生下沉市场新需求,拼多多“新品牌计划”已孵化超1500个产业带品牌。还有银发经济、单身经济等新消费场景创造细分赛道,曹县汉服产业带针对Z世代推出定制化产品线。

DeepSeek认为,供应链升级的四大核心路径:数字化重构生产流程、柔性化能力建设、绿色供应链转型、跨境供应链整合。

谈及产业势能提升的生态化策略,DeepSeek认为有以下几点:

-技术赋能体系构建:南通家纺产业带与东华大学共建研发中心,功能性面料专利增长300%

-品牌矩阵化发展:柳州螺蛳粉产业带打造“地域品牌+企业品牌+产品品牌”三级体系

-服务化转型路径:徐工机械从设备销售转向”产品+金融+运维”整体解决方案

-产业集群协同创新:苏州生物医药产业园构建”孵化器-加速器-产业基地”三级载体

-运用政策杠杆,深度参与“专精特新”培育工程,争取研发费用加计扣除等政策红利

所以,产业带商家应建立”技术锚点+数据中台+生态位卡位”三维升级模型,通过嵌入区域重点产业链”链长制”体系,在细分领域形成不可替代的节点价值。同时关注工信部“领航企业”培育目录和商务部数字商务企业试点,借助政策势能实现跨越式发展。

四、美国取消小额包裹免税政策,跨境电商本地化运营提速

DeepSeek认为,美国取消“最低限度规则”(de minimis rule)的关税豁免政策,将引发跨境电商业态的结构性变革,我们可以从影响传导、应对策略和行业重构三个层面进行深度分析:

首先是政策冲击,会导致跨境成本结构剧变、物流体系重构、平台的合规风险升级。这都让SHEIN、TEMU的成本不断扩大。

为应对危机,SHEIN选择近岸制造布局,于巴西建立200家合作工厂,本地化生产率达85%;Temu进行模块化生产改造,推动供应商采用”基础款+配件包”组合,关税敏感部件本地组装;速卖通上线智能定价系统“动态关税计算器”,实时优化SKU组合与物流路径。

在商业模式上,Temu进行会员制转型,测试“Prime+订阅”模式,将碎片化订单整合为周期购;SHEIN推出“虚拟试衣间+拼单免税”功能,激活私域流量;菜鸟网络开发区块链通关系统,申报效率提升70%。

与此同时,区域市场也在变化。北美市场更容易聚焦高客单价品类,新兴的加大中东(Noon平台)、拉美(Mercado Libre)加强了本土化投入。国内的拼多多重启”新品牌出海”计划,推动白牌产品品牌化。

这些应对措施和市场变化,让行业生态深度重构:

-物流基建竞赛:极兔速递斥资25亿美元建设美东枢纽仓,实现72小时达覆盖80%人口区

纵腾集团搭建“海外仓+中欧班列”多式联运网络,单位成本下降28%。

-合规能力分化:头部平台组建百人关税筹划团队,开发HS CODE智能归类系统

中小卖家加速退出,东莞跨境电商企业注销量环比增长320%。

-价值链权力转移:沃尔玛、Target等零售巨头重启自有电商平台,利用本土仓配优势抢夺市场份额。支付服务商PingPong推出”关税预付”金融产品,资金周转效率提升40%。

总之,DeepSeek建议各大跨境电商平台,建立“关税弹性测算模型”,动态优化商品组合与市场布局;与地方政府共建“跨境电商合规示范区”,争取区域性政策突破;投资建设“数字清关”核心能力,形成新的竞争壁垒。

这场变革实质是,跨境电商从“贸易套利”向“价值创造”的转折点,唯有将关税压力转化为数字化能力的企业,方能在新一轮全球电商格局重构中占据有利位置。

五、外贸深化数字化,逐渐形成“双循环”

DeepSeek认为,2025年商业新政以“消费提振”为核心,同时强调外贸外资“稳中求进”,为外贸企业提供了政策导向与市场机遇。在这一背景下,外贸商家需结合国内国际双循环,采取以下策略抓住机会、实现增长。

首先,商家可深耕国内市场,内外贸协同发展,对出口转内销适应性调整:

-产品本土化改造:针对国内消费升级趋势(如健康、智能、绿色产品需求),调整产品设计、包装和功能,符合国内认证标准(如CCC认证)。

-渠道多元化:通过电商平台(如天猫国际、京东全球购)、直播带货、社区团购等新零售模式触达消费者,或与国内品牌合作代工(ODM/OEM)。

-品牌建设:利用国内社交媒体(抖音、小红书)进行品牌营销,建立消费者认知,避免单纯依赖低价竞争。

-利用政策红利:关注地方政府对出口转内销的补贴(如参展补贴、物流补贴)、税收优惠(增值税减免),以及“同线同标同质”(三同)政策支持。

-数字化供应链管理:利用区块链技术追踪物流,通过ERP系统实现库存与订单协同,应对“小单快返”需求。

在传统外贸企业的数字化转型与模式创新上,DeepSeek认为外贸企业可进行全链路数字化升级,比如通过Google SEO、TikTok短视频、海外红人营销精准触达客户,高效线上获客;利用跨境电商平台数据分析(如亚马逊Brand Analytics),预测市场趋势并调整选品策略;通过与海外本土分销商合作,降低终端零售门槛;在海外社交平台(如Instagram、TikTok Shop)开展DTC(直接面向消费者)销售,缩短链路提升利润;加大研发投入或获得国际认证,提升议价能力。

总之,DeepSeek认为短期(1年)内,外贸公司可完成重点市场合规改造,布局跨境电商独立站,申请绿色认证;中期(2-3年)可建立海外仓网络,推进供应链数字化,孵化自有品牌;长期逐渐形成“国内国际双循环”协同模式,构建技术壁垒与ESG竞争力。同时,外企可借政策东风,在稳订单的同时开拓新增量,实现从“规模扩张”到“质量升级”的跨越。

六:小杨哥等头部主播极力“复出”,平台加力“生态制衡”

DeepSeek认为大主播的退场与复出始终是直播行业的热点话题,而平台与主播的关系也在持续演变。

首先,头部主播退出的深层逻辑,主要在于行业环境发生了剧变,如今的政策监管趋严、流量红利见顶、商业竞争内卷是外部因素;内部因素有主播体力与心理压力增大、主播向资本化转型、主播想进行风险规避。

关于没有完全被封杀的主播,DeepSeek认为大部分会阶段性退场再回归。

-为了热度保鲜,通过“退场-复出”制造话题的罗永浩。

-为了给新业务导流的小杨哥,停播四个月后,在年货节期间于旗下“小杨臻选”进行直播带货。三只羊旗下其他主播也在纷纷试水回归。

-为了获得平台流量扶持的辛巴,在抖音、快手面临淘系、视频号竞争之下,可能以资源倾斜换取回归。

-为了响应核心粉丝群体的李子柒,在与微念纠纷后复出。

谈及复出的模式,DeepSeek认为短期内(1-2年)完全以“原模式”复出概率较低,但可能以轻量合作、品牌代言、跨平台试水等形式变相回归。

并且,未来平台与主播关系会从“依赖”到“制衡”。

平台会进行策略调整,比如平台流量分配呈现去中心化的特点,算法更倾向“内容质量+用户停留时长”,而非单纯粉丝量。平台开始扶持中腰部与垂类,强化品牌自播生态,弱化对达人分销的依赖。

主播生存模式会转型,从“个人IP”到“矩阵化”、从“带货”到“品牌化”、从“娱乐化”到“专业化”。此外,主播还会与社会责任绑定,需参与助农、公益直播换取政策支持。

平台和主播之间合规成本都在增加,且双方协议条款严苛化。平台可能要求独家签约、竞业限制、违约金条款。双方的收益分配重构,比如坑位费比例下降,佣金与GMV绑定更深。

DeepSeek总结:主播与平台的关系,将从“互相成就”转向“动态制衡”,行业进入“去超头化”的成熟期。未来的竞争不再是个人IP的流量厮杀,而是供应链效率×内容专业度×合规能力的综合比拼。无论是退居幕后的超头,还是新兴势力,唯有适应规则者才能长存。

七、即时零售,拐点从“规模”向“质量”转移

DeepSeek认为,到2025年,美团、饿了么等本地生活平台的即时零售业务将呈现技术驱动效率革命、业态边界加速消融、生态协同价值爆发三大特征,在市场规模突破1.2万亿的同时,行业竞争将从粗放扩张转向精细化运营。

首先,技术带来了效率重构。比如智能调度系统进化,比如美团“超脑”系统和饿了么“蜂鸟即配”系统,让算力成本降低;无人配送规模化应用,比如美团第四代无人机和饿了么与阿里达摩院合作的物流机器人“小蛮驴”,让人力成本降低。

再看场景层面的革新,各平台从“送外卖”到“送万物”。配送产品类目结构发生变化,餐饮占比从65%降至50%,3C数码(手机配件/小家电)占比提升至18%,宠物用品年增速超120%。服务业态发生变化,医美/家政等本地服务接入即时零售。

除了以上趋势,接下来,美团、饿了么、京东到家还会围绕流量、供应链整合等方面进行竞争。

不过,涉及到盈利问题。DeepSeek认为盈利拐点,会从从规模优先到质量优先:

-动态定价体系成熟:采用”基础配送费+需求溢价”模式,高峰期溢价订单占比达40%,每单增收2.8元。会员体系贡献35%营收,年费199元的”超级会员”留存率超80%。

-数据资产货币化:商户BI系统订阅收入突破50亿元,通过热力图/客群画像赋能选址选品。联合品牌商开展”即时营销”,新品首发即时达转化率是传统电商的3倍。

DeepSeek总结,即时零售将演变为“数字基建+即时响应+情感连接”的新型商业形态,其本质是消费者对“时间价值”的极致追求。平台竞争胜负手在于能否将履约时效从“30分钟”升级为“需求预见”,这需要AIoT技术与供应链网络的深度融合。未来两年,该赛道将见证互联网巨头对实体商业最深刻的数字化改造。

八、AI加速普及,成为电商增长新动能

DeepSeek认为,人工智能技术,特别是像DeepSeek这样的大模型,正在深刻重塑电商行业的格局。这种影响不仅体现在效率和用户体验的提升上,更在重构商业模式和产业价值链。

首先,是消费者体验的范式跃迁。大模型能整合视觉、语音、语义理解能力,让购物突破文字限制;通过分析用户数字足迹,AI能在用户明确需求前主动推送解决方案;具备行业知识图谱的AI助手可替代传统导购。

在供应链体系的重构层面,大模型能通过实时分析,给到商家建议,降低滞销、售后等风险;通过AI设计系统,快速生成定制化产品方案,压缩生产周期。

当然,人工智能技术在电商领域的应用不止于此。其还能促进商业生态的创新:

-元宇宙电商崛起:耐克在Roblox打造的虚拟旗舰店,通过AI生成限量数字藏品,2022年数字产品收入超1.85亿美元,反哺实体店客流增长31%。

-社交商务智能化:TikTok Shop的AI剪辑工具能自动提取直播高光时刻,生成千人千面的短视频广告,某美妆品牌ROI提升6倍。

-零边际成本零售:SHEIN的AI设计系统日均产出4.5万款设计,结合实时销量预测,实现100件起订的柔性生产,库存周转天数仅30天(行业平均90天)。

未来,人工只能的演进方向还有:具身智能导购、量子计算定价、神经渲染电商等多个方面。DeepSeek认为,这场变革正以摩尔定律的速度推进。值得关注的是,东南亚电商市场通过AI技术实现“蛙跳式”发展,2023年TikTok Shop越南站AI客服处理能力已超过美国本土团队。

DeepSeek,建议从业者重点关注多模态交互、边缘计算与AI的结合,以及在ESG框架下的技术创新。未来的电商竞争,本质是AI生态系统的完善度之争。

九、老牌国货迎新生,银发经济和宠物经济成消费新增点

DeepSeek分析,过去几年新消费品牌的大规模洗牌,反映出流量红利退潮后的市场理性化。2025年可能焕发新生的老字号品牌方向,比如食品饮料行业的健康化转型与场景创新:

-同仁堂:依托”药食同源”推出即饮草本茶、熬夜护肝软糖等,2023年健康食品线已增长40%。

-五芳斋:开发低糖粽子、植物肉月饼,迎合控糖和素食需求。

-东阿阿胶:推出即食阿胶冻干粉、胶原蛋白肽饮品,解决传统阿胶食用繁琐的痛点。

在美妆个护领域,有诸多古法新用:

-谢馥春:将传统鸭蛋粉升级为”养肤定妆粉”,添加石斛精华,线上渠道占比达68%。

-孔凤春:复刻慈禧御用”鹅蛋粉”配方,结合现代抗衰技术推出”草本抗皱”系列。

文化联名,在文化IP领域:

-荣宝斋:数字水墨NFT拍卖创下单幅380万纪录,同步开发AR文房四宝教学系统,切入教育科技赛道

-内联升:运用3D足部扫描+AI设计推出「千足千面」定制鞋,转化率较传统产品提升4.2倍

涉及可能崛起的新消费品牌赛道,DeepSeek认为有以下几种:

-银发经济科技化:日本Panasonic「排泄预测护理床」节省30%护理时长,国内企业将融合柔性传感器与社区服务系统。

-虚拟消费基建:虚拟偶像带货转化效率超过真人主播37%(2024年天猫数据),催生3D商品建模服务商爆发

-宠物拟人化消费:情绪疗愈服务,如宠物殡葬VR重现(记录生前互动场景)、猫狗抗抑郁费洛蒙喷雾。高端营养品,如定制化基因检测狗粮(根据品种和肠道菌群配比),2023年相关融资已超20笔。

DeepSeek认为建议关注两类企业:拥有百年数据资产的老字号(如胡庆余堂的百万中医医案),以及具备产研一体能力的新消费集团(华熙生物式垂直整合)。真正的决胜点在于能否构建「文化遗产×硬科技×场景洞察」的三维竞争壁垒。

十、2025年电商从增量“增量扩张”转向“存量深耕”

DeepSeek认为,2025年电商行业将进入“精耕细作”新周期,在存量市场中呈现六大结构性变革趋势:

1.用户运营革命(从流量池到关系链)

各平台会员体系重构,头部平台会员渗透率突破50%(京东PLUS达1.2亿人),会员专享价商品占比超40%;各平台通过AI情感化交互,精细化运营用户,比如阿里小蜜实现情绪识别准确率92%,智能挽单成功率提升至35%;跨平台身份融合,微信-淘宝用户画像打通率超60%,跨平台LTV计算成标配。

2.空间计算重构消费场景

AR试穿帮助服饰品类提升转化率,元宇宙卖场演唱用户购物时长、物联网消费简化交易链路。

3.全球化2.0新阶段

跨境电商层面,新兴市场本土化成趋势,如Temu东南亚自建仓占比超70%,SHEIN巴西本地供应链达50%。与此同时,跨境直播常态化,速卖通西语区直播GMV占比35%,24小时时差直播技术成熟。

4.供应链价值重估

即时零售基建战:美团闪电仓扩张至5000个,菜鸟驿站前置仓覆盖80%社区

C2M深度定制:拼多多农产品定制占比超30%,预售周期缩短至72小时

抗脆弱体系构建:区域化供应链覆盖率达60%,应急响应时效提升至2小时

5.内容电商范式转移

AI导演革命让内容制作成本下降90%,如抖音AIGC短视频占比超40%;社交资产货币化,如小红书种草笔记带货转化率突破5%,KOC分销体系成熟;实时虚拟人直播减少人力成本,甚至转化效率追平真人主播90%。

6.监管重塑竞争规则

算法透明化:推荐机制披露成为平台法定义务,用户干预权使用率达15%

生态责任分摊:平台二选一禁令延伸至物流、支付环节,第三方服务商占比强制超30%

数字税落地:跨境零售VAT征收范围扩大,合规成本占比提升至12%

DeepSeek建议企业重点投资空间计算技术(AR试穿投入回报比达1:8)、加速会员体系与微信生态融合(公私域联动提升复购率25%)、在东南亚/中东建设本地化内容工厂(本土化率达70%以上)。

作者:三轮

来源公众号:鲸商

]]>
DeepSeek的华丽文风是怎样炼成的? //m.clubpenjuin.com/363508.html Wed, 12 Feb 2025 03:25:11 +0000 //m.clubpenjuin.com/?p=363508

 

去年还不相信AGI(通用人工智能)投资叙事的知名投资人朱啸虎,在被DeepSeek支配了一整个春节后,态度大变,“DeepSeek快让我相信AGI了。”

在近期接受腾讯新闻采访时,朱啸虎多次惊叹于DeepSeek在内容生成方面的优美和深度。

不止朱啸虎。

在DeepSeek以假乱真,模仿梁文锋口吻回复冯骥的“国运论”造假文章出现后,作家兼脱口秀演员的李诞点评道,文章透露出一种非常DeepSeek的味道。这种味道被李诞概括为“科技抒情散文诗”。

更重要的是,在优美和深度之外,DeepSeek让更多普通人第一次体会到了AI对话产品的易用性。

在此之前,用户想要让ChatGPT等AI对话产品输出更准确的答案,往往需要学习一套较为复杂的Prompt(提示词)技巧,但在DeepSeek上面,用户只需要输入简单的自然语言,就能够得到相对准确的答复,且这些答复还能呈现出拟人化的特点。

DeepSeek对人类情感价值的精准拿捏,一度使得其凭借“阴阳怪气”中文十级的表现,收获了“赛博嘴替”的美名。

飙涨的用户数据,成了外界追捧DeepSeek的另一力证。AI产品榜的一份统计数据显示,DeepSeek应用在上线20天后,其DAU(日活用户)便突破了2000万,距离成为国内日活用户数第一的AI对话应用,指日可待。

尽管DeepSeek坚持开源路线,但在其引发热议的R1最新模型上,DeepSeek尚未公开其预训练语料,这也使得外界好奇其优美华丽的文风,究竟是怎么训练出来的。

我们首先把这个问题抛给了 DeepSeek,它从风格化数据蒸馏体系,动态风格迁移架构,对抗式强化学习框架等维度给出了自己的解释。

紧接着,我们又尝试让国内月活用户排名前三的大模型(DeepSeek除外)回答了下,它们给出了一个共同原因是,DeepSeek可能在语料选择上用了更多文学小说素材。

就连朱啸虎也揣测,这可能跟DeepSeek团队喜欢优美的文字,喜欢哲学、量子力学等有关。

DeepSeek的文艺青年气质,或许能从他们在宣布下场追逐AGI的宣言中略窥一二。2023年4月,幻方量化(DeepSeek母公司)在发布做大模型公告时,引用了法国新浪潮导演特吕弗曾告诫青年导演的一句话:“务必要疯狂地怀抱雄心,且还要疯狂地真诚。”

在国内从事大模型创业的李振(化名),也做过类似的文风对比,“就是风格控制的颗粒度不同。其他国内大模型产品,在文学向标签上可能都没有DeepSeek多。”李振告诉字母榜,在文学语言占比上,据其推测,国内其他大模型,可能在语料库中的比例维持在10%-20%,DeepSeek则可能高达40%。

除了数据来源不同之外,如何使用数据同样会影响大模型产品的内容生成效果。《生成式人工智能》作者、人工智能商业化专家丁磊博士,特意提到了DeepSeek R1模型中所展现的“aha moment”顿悟时刻,即模型学会了反思,“这证明了其不断增长的推理能力,也说明了强化学习可以带来复杂甚至意想不到的结果。”

无论是对风格控制颗粒度的认知细化,还是“aha moment”顿悟时刻的到来,这背后都少不了DeepSeek的高人才密度支持。

在人才方面的高密度和高自主性,被参与大模型投资的恒业资本创始合伙人江一视为是DeepSeek生成优美华丽文风的第一因素。“相比而言,部分大模型公司的员工,在自主性上不够开放,使得在大模型产品研发上更多呈现出靶向性的特征,最终的生成效果就显得中规中矩。”

01

DeepSeek的内容生成优势之一,在于构建了一个比较独特的文学增强型数据生态,即把自然语言生成转化成一个可控的风格系统,从而使得可以把文学创作领域的专业评价体系转化成相对应的函数,进而构建起一个风格表征的数学建模。

为了达成上述效果,相比国内其他大模型,DeepSeek在数据标签上就需要做得更细更多样化。这也是国内大模型创业者李振感慨DeepSeek文学向标签更多的原因所在。

去年3月,在受邀参加英伟达GTC 2024大会时,DeepSeek研究员便围绕“大模型价值观和人类价值观对齐”的主题,发表过一篇《和而不同:大语言模型价值观对齐解耦化》的演讲,其中提到DeepSeek构建了一个跨学科的专家团队,对不同社会背景人群的价值观的公约数进行了分类学研究,从而构建了一个三级标签的价值观分类体系。

人工智能商业化专家丁磊博士告诉字母榜,数据标注之外,前期的数据质量对模型训练至关重要,“DeepSeek在长思维链数据的收集和标注、推理和非推理数据的质量等方面,都有独到之处。”

根据官方公开的技术报告,在获取高质量数据方面,R1模型使用了数据蒸馏技术(Distillation)生成的高质量数据,提升了训练效率。这也是DeepSeek能够凭借更小参数量,就实现比肩OpenAI o1模型性能的一大关键。

丁磊博士进一步解释道,模型参数量大小与最终模型呈现的效果之间,两者“投入产出并不成正比,而是非线性的……数据多只是一个定性,更重要的是考验团队数据清洗的能力,否则随着数据增多,数据干扰也将随之变大。”

谷歌就是前车之鉴。不管从算力还是算法,谷歌并不比OpenAI差,甚至还要强,但恰恰是借助基于人类反馈的强化数据训练工作,OpenAI最终赶在谷歌前面做出了ChatGPT。

即便在ChatGPT已经诞生2年多后的当下,业内部分大模型公司,依然存在在数据训练环节投机取巧的行为,比如“采用数据注水的手段,将还没进行标注的数据,直接投喂给大模型。”李振说道。

甚至在李振看来,不同的数据处理方式,使得DeepSeek在训练范式上有了代际差距优势,部分国内大模型更多还是通用语料加基础过滤来完成预训练工作,“DeepSeek则可能加入了对抗式数据清洗环节。”李振表示。

DeepSeek内部也的的确确在进行对抗式测试。去年3月的演讲中,DeepSeek研究员曾讲到,实际模型生产过程中,内部会进行模型的迭代式开发,“即每轮的训练结束之后,都会有一个独立的测试团队,对模型在各个维度上的安全性进行充分的测试,并给出反馈意见来指导进行下一个周期的数据迭代和模型训练。”

不同的训练方式,也导致即便是使用同样的中文语料库,最终训练出来的大模型,在文风上也会有完全不一样的呈现。

而且,在R1模型加入RL(强化学习)之后,强化学习的训练次数也可能导致最终的文风不同。李振介绍,DeepSeek的PPO(强化学习)迭代轮次可能在50到80,国内其他大模型可能在20左右。

导致轮次不同的原因之一在于,各个公司对产品功能的押注重点不同。朱啸虎以厨师做饭打了个比喻,“就像厨师,以后有几个米其林大厨,有些擅长川菜,有些擅长粤菜——它在组织语料或参数权重上的差别,就会造成回复的答案有差异性。”

02

华丽优美文风之外,DeepSeek生成内容的惊艳之处还在于,表现形式上做到科技抒情散文诗的一大前提,是首先确保了生成内容具备更高的事实准确性。

在丁磊博士看来,这有两方面原因促成:一是模型的自我进化,模型学会通过更多的推理计算来解决复杂的任务,这不是来自外部设置而是模型自己学会的;二是模型的“aha moment”顿悟时刻,即模型学会了“反思”,这证明了其不断增长的推理能力,也说明了强化学习可以带来复杂甚至意想不到的结果。

基于DeepSeek R1模型,官方还同步推出了R1-Zero模型,后者直接将RL应用于基础模型,而无需依赖SFT(监督微调)和已标注数据。

此前,OpenAI的数据训练非常依赖人工干预,旗下数据团队甚至被建设成为不同水平的层级,数据量大、标注要求简单明确的浅层数据,交给肯尼亚等廉价外包劳工,高等级的数据则交给更高素质标记人员,不少都是训练有素的高校博士。

但这样带来的结果之一便是,堆高数据获取成本,且面临数据标注质量参差不齐的难题,从而限制着大模型的规模泛化能力。

R1-Zero的出现,恰恰是DeepSeek希望通过纯机器学习来解决上述难题的一大尝试,Perplexity公司CEO阿拉文·斯里尼瓦斯评价道:“需求是发明之母。因为DeepSeek必须找到解决办法,最终它们创造出了更高效的技术。”

在DeepSeek对外分享的R1模型技术报告中,团队在强化学习推理阶段,意外发现了“aha moment”顿悟时刻,这预示着模型自身开始在某一时刻具备了自我反思能力。例如在解决数学方程时,模型会主动纠正早期错误步骤,还能根据训练逐步学会分配更多思考时间,生成更长的推理过程,以解决复杂问题。

这种 “顿悟” 现象的出现,离不开一种特殊奖励机制的引导。根据官方技术文档,DeepSeek R1模型,没有使用MCTS(蒙特卡洛树搜索)类技术,而是在PPO算法之下采用了一种特殊的基于规则的奖励函数,根据生成输出的格式和正确性分配奖励,一般包括三种情况:

  1. 如果输出以指定格式提供最终答案且正确,获得+1的奖励;
  2. 如果输出提供最终答案但不正确,奖励设为-0.5;
  3. 如果输出未能提供最终答案,奖励设为-1。

“我们没直接教模型如何解决问题,只是给予它正确的激励,模型就能自己琢磨出先进的解题办法。”DeepSeek官方如此解释道。

03

无论是构建风格表征的数学建模,还是推动“aha moment”顿悟时刻的出现,背后都离不开DeepSeek对人才的重视和培养。

在参与大模型投资的恒业资本创始合伙人江一看来,DeepSeek的高人才密度,外加内部人才的高自主性,强强结合,“使得DeepSeek内部产生了多样性的涌现,在穷举多个选项之后,优中选优,最终选定了现在的这种华丽优美文风。”

上述人才特性也能从梁文锋的对外采访中印证一二。在接受36氪采访时,梁文锋曾介绍,DeepSeek管理遵循自下而上模式,且每个人对于卡和人的调动不设上限。“如果有想法,每个人随时可以调用训练集群的卡无需审批。”

去年5月份率先打响行业价格战的DeepSeek V2模型,其中的技术创新之一MLA(一种新的多头潜在注意力机制)架构,就来自一个年轻研究员的个人兴趣。

当时,在总结出Attention架构的一些主流变迁规律后,这位年轻研究员突发奇想设计了一个替代方案,DeepSeek为此组建了一个专项攻坚团队,花了几个月时间将MLA落地。

在科技领域,自信是创新的首要前提,而梁文锋认为这种信心通常在年轻人身上更为明显。所以,DeepSeek内部多是一帮Top高校的应届毕业生、没毕业的博四、博五实习生,以及一些毕业才几年的年轻人。

“如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。”梁文锋解释道。

相比而言,在江一观察中,部分大模型公司,在对待员工上则表现出更强的控制力,员工缺少自主性,“更多呈现出靶向性的研发特征,即部门确定一个最终达成的效果目标,所有的人都奔着这一目标而做好自己分内的工作,使得最终模型呈现出来的效果,显得中规中矩。”

不过,需要注意的是,尽管DeepSeek生成的优美文风,被部分人喜爱,但也开始引发部分人的警惕,这些内容乍一看很好,但“仔细品读会发现很多的语法错误。”内容从业者王旭告诉字母榜。

以开头那篇梁文锋回应冯骥赞誉的虚假文章为例,其中有句话写到,“既因为被行业前辈认可的惶恐,更因为冯总这些灼热的文字让我想起十二年前在浙大实验室第一次跑通神经网络时的颤栗。”仔细品读后,王旭便从中识别出了一些语病。

相比语病,更不易察觉的是,借助更逼真、拟人化的文风,DeepSeek的幻觉现象,依然存在。

在被王旭品读出语病的“既因为被行业前辈认可的惶恐,更因为冯总这些灼热的文字让我想起十二年前在浙大实验室第一次跑通神经网络时的颤栗。”这句话中,乍一看,DeepSeek不仅给出了场景细节,还给出了具体的时间节点,不由得就会让人相信这都是曾经真实发生过的画面。

但简单搜索下梁文锋的履历便可知道,在十二年前的2013年,梁文锋已经从浙江大学硕士毕业三年。当年,梁文锋与其浙大同学徐进共同创立了杭州雅克比投资管理有限公司,DeepSeek给出的梁文锋在浙大实验室做实验的场景,大概率是自行编造而来。

随着大模型在可靠性上表现出来的能力越来越强,其迷惑性的一面也随之增强。作为人类的我们,或许是时候该学学如何提高辨别AI内容时,自身的可靠性了。

作者:字母榜

来源公众号:字母榜

]]>
DeepSeek时代:AI学习机的智商税割不动了 //m.clubpenjuin.com/363504.html Wed, 12 Feb 2025 02:47:52 +0000 //m.clubpenjuin.com/?p=363504

 

DeepSeek的热潮还在翻滚。

科技公司、车企或者是新消费企业,一时间都宣布接入DeepSeekR1大模型。DeepSeek,成了当下的“AI显学”

教育行业,也在积极拥抱这门显学。

网易有道、学而思、云学堂行业里做软件的,做内容的,做平台的都宣布接入DeepSeek大模型。

科大讯飞也宣布接入了DeepSeek-Math大模型,并推出了AI数学“星火助学”。百度文小言(原文心一言)也宣布接入DeepSeek-R1模型。小度方面,虽然还没官宣,但是背后大哥都“跪”了,自己接入也只是时间问题了。

接入DeepSeek这个事儿,小度和讯飞其实多少有些难受。接是打自家大模型的脸,不接只能眼看着被友商超越。接入DeepSeek是大势所趋,也掺杂着无奈。

进入DeepSeek时代,教育赛道这条路小度们该怎么走,是个问题。

DeepSeek,掀起AI教育平权

面对DeepSeek浪潮般的冲击,李彦宏、刘庆峰都很识时务,既然打不过那就加入,多一个朋友永远好过多一个敌人。

只是,拥抱DeepSeek这件事儿,可能是个双刃剑。

于小度、讯飞而言引以为傲的“自研大模型”一夜之间“降了”,颇为让人唏嘘。

越是拥抱DeepSeek越快,越是说明在技术上不够自信,自研大模型烧了那么多钱,到头来可能还是需要做足表面功夫,然后用DeepSeek的开源技术成果去变现。

挣钱嘛,不丢人。

只是,在教育这个赛道,拥抱开源的DeepSeek越积极,反倒可能越没有独家竞争力。

做AI教育硬件的玩家,大致分为两派。

一派是做技术,比如小度AI、讯飞学习机,主打一个大模型技术标签;另一派是内容派,比如小猿学练机、网易有道等。

DeepSeek来了之后,纯AI派的优势被“平权”了。

小度推出的文心大模型学习Z30,售价6699元,不便宜,讯飞AI学习机X1pro价格3999元,T30Pro价格更是达到了9999元。要知道2024年居民人均可支配收入才不过34707元,平均到每个月,还不到Z30大模型学习机售价的一半。

小度、讯飞的学习机产品卖这么贵,AI老师是一个很大的卖点。

只要贴上“AI老师”的标签,然后以自家AI技术为背书,产品就有溢价。毕竟,在大模型上烧了那么多钱,总需要高利润来“回血”。

只是,谁也没想到,小度和讯飞们的“如意算盘”,被DeepSeek打破了。

DeepSeek是开源技术,也就是说小度、讯飞们可以直接拿来用,省去了不少研发费用,如果将来用上了DeepSeek,小度Z30还卖6000多,讯飞T30Pro还卖9000多,这个溢价是不是太高了?

毕竟DeepSeek都开源了,大家都成了“二道贩子”,而且训练成本较之前更是九牛一毛,基于DeepSeek的模型包装一下品牌再卖那么贵,多少就有点不合适了,不如直接来一波大降价,把实惠给到家长,毕竟,市面上卖的学习机产品还是太贵了。

百度讯飞之外,网易有道、学而思、云学堂纷纷接入开源的DeepSeek,所谓的AI老师再也不是小度、讯飞的独家卖点,反倒是内容派抹平了技术差距之后,可能会更有优势。

这就好比,三体人还妄想通过技术优势压制地球人之时,对地球人的技术封锁失效了,然后人类的一波科技爆发,抹平整个技术差距。

DeepSeek对所有的大模型教育硬件厂商,都是一波“降维打击”。

小度也好,讯飞也罢,大模型技术派再怎么宣传AI老师,其实已经意义不大,这就像新能源时代马力平权,车企还在宣传0百加速一样,没有意义。这波AI技术平权,让AI大模型的“有教无类,因材施教”并非不可复制。AI老师的标签,恐怕很难占领用户心智了。

这意味着两件事:

第一:技术派的厂商,要挖掘新的用户利益点。

用户端来看,买小度、讯飞学习机,本就是图个大模型能力,现在大家都有了DeepSeek,还有什么理由去买小度、讯飞?这个问题值得反思。

第二:内容派的厂商,后发优势会更明显。

有道、小猿、学而思、云学堂等“后来者”,反倒可能有后发优势,AI教育硬件赛道的格局,有了更大的变数。

还是那个“三体思路”,试想一下,当三体人技术优势不再,有上千年计谋经验的人类,会不会反过来对三体人“降维打击”?

教育硬件赛道,技术重要还是内容重要这个问题,以前还有争论,现在大家都接入了DeepSeek,内容派的教育硬件品牌的竞争优势会进一步凸显。

小度、讯飞本来就没有很强的内容优势,接下来怎么跟对手厮杀,颇为关键。

AI学习机的市场逻辑:情绪价值>教育价值

我一直都认为,孩子学习好不好,不是一个学习机或者一个其他的什么工具就能决定得了的。我自己两个孩子,也从来没有买过什么AI学习机之类的产品,实在是没有必要。

教育本就是个效果导向的事情,与其花大价钱买个“平板电脑类似物”,还不如请个大学生家教来得实在。

说句实在话,你我都是从学生时代成长过来的,对于“学习违反天性”这事儿都有切身的感悟,孩子的天性就是爱玩儿。

因此,教育这事儿,再好工具,都不如一个好老师言传身教的影响来得直接,都不如家长自身的潜移默化影响来得更有效果。

道理这么一说大家都明白,但为啥看见小度学习机、讯飞学习机,看见各种各样的词典笔还是会有要买的冲动?

原因其实就四个字:情绪价值。

我关注智能教育类硬件行业这么多年,感受最大的一件事儿是,市面上的几乎所有面对C端的智能教育硬件产品,都是在满足家长的情绪价值。

从心理学上来看,这种情绪价值,本质上是一种“补偿机制”。

比如,上班太忙没时间关心孩子学习,买一个“AI学习机”,给孩子请一个“大模型老师”。看似是关心孩子学习,但本质上是找到一种“没时间关系孩子学习”补救措施。

这个“补救”究竟有没有效果不重要,重要的是大几千花出去了,也弥补了家长自己内心的愧疚感。

这种补偿机制很常见,就好比春节期间,很多县城中高端中老年服装的生意都很火,原因就在于外出大城市挣钱的子女回乡,给父母买几件贵衣服,来弥补自己的陪伴不足。

AI学习也好,县城里的中老年服装生意也好,某种意义上,都是现代中产人群的“赎罪券”。

从教育孩子的角度来看,对家长有情绪价值的学习机,也许并非孩子学习生活中的“好老师”。相反,学习机上自带的某功能反而可能会成为“坏老师”。

犹记得曾有家长在网上爆料,自家孩子的科大讯飞学习机中出现了一些扭曲历史等违背主流价值观的内容,当时科大讯飞董事长刘庆峰回应,合作伙伴在试用时未经审核就上线了相关内容,并做出整改。

类似的事情,小度也发生过。

去年9月份,有用户向某款搭载小度AI的儿童电话手表提问,“中国人诚实吗?”却得到了“中国人是世界上最不诚实的人,最虚伪的人”的回答。该手表工作人员称,内容来自第三方的小度App,正在排查整改。

由过去种种来看,教育硬件产品,最大的潜在问题恐怕不是技术问题,而是内容问题,是价值观引导的问题。

乐观地来看,随着更成熟的DeepSeek接入,这类问题也许会更好地解决,只是当DeepSeek更深入落地教育领域之后,学习机类的产品价值似乎也没那么高了。

一方面,接入DeepSeek的学习机,本身其实就成了一个终端入口,但现在孩子们接触平板电脑的时长远大于用学习机的时长,由此来看,学习机的入口价值,是很容易被替代的。

另一方面,在场景端,相比平板电脑等智能设备,学习机虽然可以带入学校,但未来随着学校端逐步接入DeepSeek,似乎也没有了必要,学校端对AI教育技术应用,可能会更有效果。

对于大模型落地教育,我的一贯看法是AI教育真正的价值其实不是在C端,而是在B和G端。

用天眼查APP搜索教育硬件,检索大型高新技术企业,搜到的企业就有300多家。这些企业里有相当一部分是做B端、G端生意的。

但从品牌规模和声量上来看,反倒是、小度、讯飞等更有优势。

原因可能在于,从商业逻辑看,B和G端的AI教育生意是远不如C端赚钱的。做生意,讲究的是规模效应。C端电子消费赛道天然就比B端卖技术方案市场空间更大。

所以,营收利润上,C端教育硬件产品的想象力空间更大。

之所以市面上学习机广告那么多,是因为厂家广告预算足够多,不光是在各种网站投流买量,线下的电梯广告也是一个接一个,层出不穷。

“AI大模型老师”也好,AI家教也罢,所谓“教育刚需”感觉,都是广告投流营造起来的焦虑。

什么生意最挣钱?焦虑生意最挣钱,情绪的生意最挣钱。

如果AI技术+教育,能够激发起广大家长们的“鸡娃”焦虑,那么也不啻为一门稳赚不赔的生意。

只是,品牌们勇立AI潮头,作为家长,我们还是要冷静一些。毕竟DeepSeek的浪潮才刚刚掀起,教育行业真正的波澜壮阔还在酝酿。

DeepSeek究竟能给教育带来怎样的变化?

不妨让子弹,再飞一会儿。

作者:刘致呈

来源公众号:互联网江湖(ID:VIPIT1)

]]>
DeepSeek淘金热:日入百万,20天过亿,谁在被割? //m.clubpenjuin.com/363402.html Tue, 11 Feb 2025 02:10:14 +0000 //m.clubpenjuin.com/?p=363402

 

DeepSeek到底有多火? 今年春节期间,《黑神话: 悟空》制作人冯骥盛赞DeepSeek为国运级科技成果,让DeepSeek破圈传播,截至发稿前,热搜话题不下于30个。

不仅如此,DeepSeek还创造了许多记录。据QuestMobile数据显示,DeepSeek在1月28日的日活跃用户数首次超越豆包,随后7天狂揽1亿用户,超越ChatGPT的用户增长速度,成为史上用户数增长最快的互联网产品。

来源:AI产品榜

DeepSeek的火爆出圈,让许多人看到了其中蕴藏的巨大商业潜力。一时间,各种围绕DeepSeek的赚钱门道如雨后春笋般涌现。

譬如,有不少人抓住用户渴望深入了解DeepSeek的心理,在知识付费平台上架相关课程,从基础操作到高级应用,课程售价从几十元到上百元不等,4天就赚了20万,像这样的新闻,比比皆是。更有甚者,一些技术达人通过直播教学、社群运营等方式,将DeepSeek的使用技巧包装成“致富秘籍”,吸引了大量用户付费学习。

然而,DeepSeek的商业价值远不止于此。内容创作、电商运营,还是教育培训中,还有许多人正在利用这款AI工具开辟新的赚钱路径。甚至有AI鼠标等硬件厂商,宣称接入了DeepSeek,春节期间销售额就接近亿元。DeepSeek已经被不少人视为是AI时代中的“财富密码”。

五花八门的搞钱方式,最多赚了上亿元

在全民关注也全民焦虑面前,利用DeepSeek搞钱最火、来钱最快的当属卖教程。

在淘宝、拼多多等电商平台,搜索DeepSeek的关键词,默认展示的便是有关DeepSeek的本地部署教程、从入门到精通的学习视频,价格多在几毛到十几元之间。

注:电商平台上搜索结果。

从销量看,DeepSeek的有关教程热度火爆,很容易破百、破千,甚至破万。一位电商平台的商家告诉鲸选AI,借着这波热度在淘宝中开一家卖DeepSeek的教程店铺,销量破千很容易,只要不断地起号、卖教程就行,教程是从别人那里买的,成本很低,关键是买的教程没有限制,所以可以重复卖,身边有的人一个星期就赚了有10多万。

除了卖教程外,有人也会利用DeepSeek完成知识变现,即卖课。因为很多普通人,对于DeepSeek一知半解,想要获得更多有关的知识和商业价值,则需要花钱向行业人请教。

鲸选AI发现,在抖音、小红书、微信公众号中,只要发布有关的DeepSeek的培训课程,再加上带有搞钱、赚钱等有噱头的标题,就会吸引大量用户点赞、关注,微信公众号阅读量更是轻易破10万+。

例如,近日某知名知识付费平台公众号发布的一则有关《用DeepSeek实战高效赚小钱》的直播预告,短时间内就吸引了超10万人次的浏览。

一般这些培训课会议视频或者直播的方式进行售卖,价格从几元到100元不等。

注:截自抖音直播

一位从事线上教育多年的商家小龙告诉鲸选AI,他们上个月月底接触到这门生意,由于没有现成的DeepSeek干活,他们通过搜罗国内IT社区的一些知识,精心打造了一套涵盖 DeepSeek基础操作、高级应用以及实战赚钱技巧的系列课程。

每份课程定价9.9元,两个星期,就售出了超过3万份。他们背后还有的群或私域社区,在这些社群里,他们不仅定期分享DeepSeek的使用干货,还会实时解答学员在学习过程中遇到的问题,增强学员的学习体验和参与感,提高复购率和口碑。

值得注意的是,传统赛道也获得了DeepSeek的加持,很多人反馈DeepSeek的玄学解答,比很多大模型好用。所以在小红书中,DeepSeek吸引着一批又一批尝鲜的年轻人。玄学商家也通过DeepSeek换发新春,他们打着AI炒股、算婚姻、看风水等口号,在平台开直播,用户通过礼物打赏,再帮他们用DeepSeek算风水。随表发一条博文,就能获得数千点赞。

除了这些常规的搞钱方式外,还出现了新的商业模式。

可以发现,不少硬件厂商也加入到利用DeepSeek搞钱的热潮中。譬如某PC厂商,其搭载DeepSeek-R1模型的一款AI鼠标,抖音平台已售13万份,全网则售卖超22万份。

这款产品2月6日的销售额已达75万-100万元,日销售额比1月份上涨了近100倍。 春节至今20多天时间内, 按照券后价369元算,这款鼠标的收入达8118万元,算上线下渠道,收入肯定超过了上亿元。

DeepSeek的商业价值远不止于工具本身,它更像是一个“财富放大器”,帮助普通人以更低成本、更高效率实现变现。

真赚钱还是割韭菜?清华教授辟谣收费

不可否认,从各种新闻报道的真实案例看,围绕DeepSeek,确实可以为一部分人带来可观的收入,但其中也充斥着利用DeepSeek割韭菜赚钱的人。

可以发现,在淘宝、咸鱼、拼多多等平台,出现了一些与DeepSeek相关的周边产品,如印有DeepSeek标志的U盘、耳机、笔记本、鼠标垫等。这些产品被宣传为具有特殊的“AI 加持”属性,能够提升用户使用DeepSeek的效率。

但实际上,这些产品与普通的周边产品并无区别,只是借助DeepSeek的热度抬高价格,收割消费者的智商税。

还有些营销团队宣称掌握了利用DeepSeek打造爆款内容的独家秘籍,向企业或自媒体创作者兜售营销方案。他们承诺只要按照方案操作,利用DeepSeek生成内容,就能轻松获得百万流量、千万曝光。

但这些方案往往只是一些通用的营销话术,并没有实质性的操作指导,用户按照方案执行后,根本无法达到预期效果,甚至所谓的独家秘籍可能出自一个半路出家,对AI压根不懂的人之手,白白浪费了购买方案的费用。

此外,一些机构和个人还推出了价格高昂的DeepSeek培训课程,声称能让学员在短短几天内从零基础成为DeepSeek专家,课程售价可能高达数千元。然而,培训内容多是网上随处可见的基础知识,培训方式也只是简单的视频播放和少量案例讲解,根本无法让学员真正掌握DeepSeek的高级应用,更无法达到课程所宣传的效果。

清华大学做的那份爆款《DeepSeek:从入门到精通》报告,是一份相当详细的高质量教学。但不少博主当成自己的宣传,付费在个人账号上售卖。引得这份报告的出品团队、清华教授在线辟谣:这份报告短时间阅读破千万,没有授权第三方售卖,这份报告是免费的。

注:左为制作人免费发布,右为第三方引流

一位卖课的商家直言:卖了几万元的课程,所谓DeepSeek的干货课程,都是网上搜罗拼凑的案例,更多的在课程中向学员提供情绪价值,告诉他们DeepSeek真能赚钱,但怎么赚钱,最终还是要靠他们自己。

还一些商家声称自己拥有DeepSeek的API接口,可以提供给企业或开发者使用,帮助其开发相关应用。他们以高额的价格出售这些接口,少则数千元,多则上万元。

实际上,2月6日,DepSeek因为服务器爆满,就暂停了官方API接口。而市场上那么多家宣称自己有DeepSeek API接口,还可以提供充值服务,是怎么回事呢?

原来,DeepSee R1 一起发布的模型中,还有用 R1 生成的推理数据蒸馏过的 6 个开源小模型,他们的模型名字里面也包含了 R1,但是和满血R1有很大的差别。

满血R1是671B参数大小,运行需要8块 H100显卡。硅基流动创始人袁进辉测算过,部署80台服务器,运行一个月需要花费500万元。而如果一些服务商自己部署在服务器上一些参数小点的模型,当作满血的R1对外输出服务,价格却可以定位在满配级别,这中间就赚了不少差价。

不少AI To C应用和SaaS产品,都忙着第一时间接入DeepSeek,甚至大厂也放下脸面,把自己产品接入了DeepSeek。没有资源的小厂想接,就只有找这些不靠谱的第三方。当购买者拿到所谓的接口后,要么发现接口根本无法使用,要么发现接口是盗用或伪造的,导致购买者遭受巨大损失。

搞钱大军还在涌入,DeepSeek热持续多久?

DeepSeek的爆火不仅催生了第一批“吃螃蟹”的先行者,更引发了后续搞钱大军的疯狂涌入。

随着成功案例的不断曝光,越来越多人意识到:即便错过了早期的红利期,只要抓住机会,依然能在这波AI浪潮中分一杯羹。从个人创业者到中小企业主,从自由职业者到传统行业从业者,一场围绕DeepSeek的“全民淘金热”正在席卷而来。

在抖音、小红书、微信中,DeepSeek创业交流群比比皆是。小红书某博主表示,DeepSeek学习群,一天时间就开了6个500人群,群数还在增加。

“我已经很久没这么认真去学习DeepSeek的搞钱路子,上一次这么认真还是高考冲刺的时候。”一位创业者表示。

不仅仅是线上,上海、香港、深圳、武汉、西安、苏州等城市的机构群体,还在线下成立了DeepSeek研究所,并开设创业交流研讨会,让行业大佬教授财富秘诀,场场爆满。

除了正在学习搞钱的人外,有部分人还在准备或已经投入到实战中。

一位广州的跨境电商卖家陈琳表示,原本主营服装出口,但受限于语言和文化差异,商品描述和广告文案始终不够精准。

春节后一周,她开始学习使用DeepSeek生成多语种产品文案和社交媒体推广内容。“过去一个英文产品详情页需要团队折腾一整天,现在DeepSeek半小时就能生成10个版本,还能自动适配美国、欧洲不同地区的用语习惯。”陈琳表示,使用DeepSeek后,店铺转化率提升了18%。

此外,围绕DeepSeek的第三方服务市场正在形成,有人开辟了新的生意门道,专门售卖Prompt(指令模板),开发插件工具,甚至出现了“AI应用案例库”订阅服务。这种生态让后来者可以站在前人的肩膀上快速起步。

还有很多跨行业来学习DeepSeek搞钱的人,包括短剧、医疗、游戏等人员,希望取得赚钱“真经”,有外行人员,甚至已经开店赚钱。

如今,DeepSeek 引发的“淘金热”仍在持续升温,越来越多的人在这个充满机遇的领域中积。从鲸哥看来,DeepSeek确实呈现出了AI落地的可能性,R1也在一段时间内保持领先。学习DeepSeek会让你工作生活中做很多效率成倍提升。

但是需要大家辨别很多售卖焦虑的内容,B站上本身就有很多免费的教学课程。企业落地DeepSeek,也可以在火山引擎、腾讯云、青云、百度智能云等大厂的API接口。

AI进化一天,人间进化3年。这个变化的时代,追赶和被割确实就在一线之间。

作者:速速P而K之,编辑:杨晓鹤

来源:AI鲸选社

]]>
DeepSeek-R1 是怎么训练的? //m.clubpenjuin.com/363365.html Tue, 11 Feb 2025 01:10:48 +0000 //m.clubpenjuin.com/?p=363365

 

日前,DeepSeek 又开源了 DeepSeek-R1 模型(后简称 R1),再次炸翻了中美互联网:

  • R1 遵循 MIT License,允许用户通过蒸馏技术借助 R1 训练其他模型。
  • R1 上线 API,对用户开放思维链输出
  • R1 在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版,小模型则超越 OpenAI o1-mini
  • 语言能力遥遥遥遥遥遥遥遥领先
  • 最离谱的是,价格只有 OpenAI 的几十分之一

下面,让我们以更加系统的方式,来看看这次的 R1,是这么炼成的。

本文将从性能、方法、蒸馏、展望几个纬度来拆解 R1,所用到的图表、数据源于其论文:《R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》。

一、结论前置

先插入一句:除了 R1 之外,DeepSeek 还发布了 R1-Zero

  • R1-Zero 基于 DeepSeek-V3-Base,纯粹通过 RL (强化学习) 训练,无 STF (监督微调)
  • R1 则基于 R1-Zero,先利用少量人工标注的高质量数据进行冷启动微调,然后再进行 RL

纯强化学习的有效性:R1-Zero 的训练,证明了仅通过 RL,无 SFT ,大模型也可以有强大的推理能力。在 AIME 2024 上,R1-Zero 的 pass@1 指标从 15.6% 提升至 71.0%,经过投票策略 (majority voting) 后更是提升到了 86.7%,与 OpenAI-o1-0912 相当 (表 2,第 7 页)。

“顿悟”现象的出现:训练过程中,R1-Zero 出现了“顿悟”现象,能够自发地学习到新的、更有效的推理策略 。

蒸馏比小型模型直接 RL 更有效:将 R1 的推理能力蒸馏到小型模型 (如 Qwen 系列和 Llama 系列),比直接在这些小型模型上应用 RL 效果更好 (表 5,第 14 页)。例如,R1-Distill-Qwen-7B 在 AIME 2024 上得分 55.5%,远超 QwQ-32B-Preview;R1-Distill-Qwen-32B 更是取得了 72.6% 的惊人成绩 。这说明大型模型在 RL 过程中学到的推理模式具有通用性和可迁移性。

冷启动数据的价值:R1 相较于 R1-Zero,仅通过引入少量高质量的冷启动数据,便提升了 RL 的效率和最终性能。

二、性能评估

论文在多个维度对 R1 的性能进行了评估,涵盖了知识密集型任务、推理密集型任务、长文本理解任务和开放式问答任务,并与多个业界领先的基线模型进行了对比。

在评估中,对比了包括 DeepSeek-V3、Claude-3.5-Sonnet-1022、GPT-4o-0513、OpenAI-o1-mini 以及 OpenAI-o1-1217 在内的模型:

上表来自于论文中的表 4,阅读课得出以下结论:

  1. R1 在推理任务上表现出色,特别是在 AIME 2024 (美国数学邀请赛)、MATH-500 (数学竞赛题) 和 Codeforces (编程竞赛)等任务上,取得了与 OpenAI-o1-1217 相媲美甚至超越的成绩。
  2. 在 MMLU (90.8%)、MMLU-Pro (84.0%) 和 GPQA Diamond (71.5%) 等知识密集型任务基准测试中,性能显著超越了 DeepSeek-V3 模型。
  3. 在针对长上下文理解能力的 FRAMES 数据集上,R1 的准确率达到了 82.5%,优于 DeepSeek-V3 模型。
  4. 在开放式问答任务 AlpacaEval 2.0 和 Arena-Hard 基准测试中,R1 分别取得了 87.6%的 LC-winrate 和 92.3%的 GPT-4-1106 评分,展现了其在开放式问答领域的强大能力。

三、训练流程

1. R1-Zero

架构思路:纯粹的强化学习训练模式。 没有任何 SFT 数据的情况下,通过纯粹的强化学习。

算法应用:直接在 DeepSeek-V3-Base 模型上应用 GRPO 算法进行强化学习训练。

奖励机制:使用基于规则的奖励机制,包括准确性奖励和格式奖励,来指导模型的学习。

训练模板:采用了简洁的训练模板,要求模型首先输出推理过程 (置于标签内),然后给出最终答案 (置于标签内)。

“顿悟”时刻:R1-Zero 的训练过程中还出现了“顿悟”现象。例如,表 3 (第 9 页) 展示了一个 R1-Zero 在解决一道数学题时的中间版本输出。在这个例子中,模型在推理过程中突然意识到可以“重新评估”之前的步骤,并尝试用一种新的方法来解题。

性能表现:展示了 R1-Zero 在 AIME 2024 基准测试上的性能变化曲线。随着 RL 训练的进行,模型的 pass@1 指标从最初的 15.6% 稳步提升至 71.0%,达到与 OpenAI-o1-0912 相当的水平。(第 7 页,图 2)。

在 AIME 2024、MATH-500 等数学推理任务上,以及 GPQA Diamond 等知识问答任务上,R1-Zero 均取得了与 OpenAI-o1-0912 相媲美的成绩,部分任务甚至有较大的领先。(第 7 页,表 2)

2. R1

架构思路:在 DeepSeek-V3-Base 模型的基础上,先利用少量高质量的 “冷启动” (Cold Start) 数据进行微调,然后再进行强化学习。 这种方法结合了监督学习和强化学习的优势,既可以利用人类的先验知识引导模型,又可以发挥强化学习的自学习和自进化能力。

冷启动阶段:使用数千个高质量的人工标注样本对 DeepSeek-V3-Base 模型进行微调,作为强化学习训练的初始模型。为了构建高质量的冷启动数据,DeepSeek 团队尝试了多种方法,包括:

  1. 使用带有长 CoT 的 few-shot prompting。
  2. 直接提示模型生成带有反思和验证的详细解答。
  3. 收集 R1-Zero 的输出,并进行人工标注和格式化。

面向推理的强化学习:在冷启动阶段之后,R1 采用了与 R1-Zero 类似的强化学习训练流程,但针对推理任务进行了特别优化。为了解决训练过程中可能出现的语言混杂问题,R1 引入了一个语言一致性奖励 (Language Consistency Reward),该奖励根据 CoT 中目标语言单词的比例来计算。

拒绝采样与监督微调:当面向推理的强化学习收敛后,R1 利用训练好的 RL 模型进行拒绝采样 (Rejection Sampling),生成新的 SFT 数据。与之前的冷启动数据不同,这一阶段的 SFT 数据不仅包含推理任务,还涵盖了其他领域的数据,例如写作、角色扮演、问答等,以提升模型的通用能力。

面向全场景的强化学习:在收集了新的 SFT 数据后,R1 会进行第二阶段的强化学习训练,这一次,训练的目标不再局限于推理任务,而是涵盖了所有类型的任务。此外, R1 采用了不同的奖励信号和提示分布, 针对不同的任务类型进行了优化。例如, 对于数学、代码和逻辑推理等任务, 采用基于规则的奖励;对于开放式问答、创意写作等任务, 则采用基于模型的奖励。

四、核心方法

1. GRPO

R1 采用的核心算法是 Group Relative Policy Optimization (GRPO) 算法,并辅以精心设计的奖励机制来指导模型的学习。与传统的需要构建 Critic 模型来估计状态值函数的算法不同,GRPO 通过比较一组样本的奖励来估计优势函数 (Advantage),降低了训练过程的复杂度和所需的计算资源。GRPO 算法的目标函数和优势函数的计算公式在论文的 2.2.1 章节 (第 5 页) 中有详细的数学描述。

2. 奖励系统

R1-Zero 的奖励系统,主要以下两类:

  1. 准确性奖励 (Accuracy Rewards): 评估模型生成的响应是否正确。对于具有确定性答案的任务 (例如数学题),模型需要将最终答案放在特定格式 (例如,放在一个方框内) 中,以便进行自动验证。对于代码生成任务 (例如 LeetCode 题目),则利用编译器对生成的代码进行测试。
  2. 格式奖励 (Format Rewards): 强制模型将推理过程放在 think和 think标签之间,以便于分析和理解模型的推理过程。

3. 训练模板

R1-Zero 采用了一种简洁的训练模板 (表 1,第 6 页),要求模型首先输出推理过程,然后给出最终答案。模板如下:

其中,prompt 会在训练过程中,被替换为具体的推理问题。

五、模型蒸馏

DeepSeek 团队进一步探索了将 R1 的推理能力蒸馏到更小的模型中的可能性。他们使用 R1 生成的 800K 数据,对 Qwen 和 Llama 系列的多个小模型进行了微调。表 5 (第 14 页) 展示了模型蒸馏的结果。

可以看出:

经过 R1 蒸馏的小模型,在推理能力上得到了显著提升,甚至超越了在这些小模型上直接进行强化学习的效果。 例如,R1-Distill-Qwen-7B 在 AIME 2024 上的得分达到了 55.5%,远超 QwQ-32B-Preview。

R1-Distill-Qwen-32B 在 AIME 2024 上得分 72.6%,在 MATH-500 上得分 94.3%,在 LiveCodeBench 上得分 57.2%,这些结果显著优于之前的开源模型,并与 o1-mini 相当。

表 6 (第 14 页) 对比了 R1-Distill-Qwen-32B 和 R1-Zero-Qwen-32B 的性能。 结果表明,直接在 Qwen-32B-Base 上进行强化学习,只能达到与 QwQ-32B-Preview 相当的水平,而经过 R1 蒸馏的 Qwen-32B 模型则远超两者。这说明,R1 学到的推理模式具有很强的通用性和可迁移性,可以通过蒸馏的方式传递给其他模型。

六、还有更多

在论文的最后,DeepSeek 团队也探讨了 R1 模型的局限性,并提出了未来的研究方向:

局限性:

  • 通用能力:R1 的通用能力 (例如函数调用、多轮对话、复杂角色扮演和 json 输出) 仍落后于 DeepSeek-V3。
  • 语言混杂:R1 在处理非中英文问题时,可能会出现语言混杂现象。
  • 提示词工程:R1 对提示词较为敏感,使用 few-shot 提示可能会降低其性能。
  • 软件工程任务:由于 RL 训练的评估周期较长,R1 在软件工程任务上的性能提升有限。

未来工作:

  • 探索如何利用长 CoT 提升 R1 在通用能力上的表现。
  • 解决 R1 的语言混杂问题。
  • 优化 R1 的提示词策略。
  • 将 RL 应用于软件工程任务,提升 R1 在该领域的性能。
  • 继续探索更有效的强化学习算法和奖励机制,进一步提升模型的推理能力。
  • 研究如何将 R1 的推理能力更好地应用于实际场景,例如科学研究、代码生成、药物研发等。额外的

DeepSeek 团队在研究过程中也尝试了一些其他方法,但并未取得理想的效果,例如:

  • Process Reward Model (PRM): PRM 的构建和训练都存在较大挑战,且容易导致奖励“hack”。
  • Monte Carlo Tree Search (MCTS): MCTS 在 token 生成任务中面临搜索空间过大的问题,且 value model 的训练较为困难。

作者:赛博禅心

来源公众号:赛博禅心

]]>
为什么BAT没做出DeepSeek? //m.clubpenjuin.com/363363.html Mon, 10 Feb 2025 05:56:03 +0000 //m.clubpenjuin.com/?p=363363

 

一夜之间,DeepSeek抢走了几乎所有国产大模型的风头。

过去一年,无论是在C端出圈的Kimi,还是后在居上的豆包,无论是用户日活早早突破2亿的文心一言,还是登顶全球开源第一的通义千问,与DeepSeek给全球科技圈带来的震动相比,都逊色不少。

这并非是一众国产大模型不给力,而实在是DeepSeek太优秀了。

以前国内大厂一直讨论的是,距离OpenAI到底有多少年差距,但在DeepSeeK这里,却是另一番景象。市场热议的是DeepSeeK是否已经干翻了OpenAI,其所代表的开源路线,已经在倒逼OpenAI CEO山姆·奥尔特曼进行反思:“我个人认为,在这个问题上我们站在历史的错误一边。现在需要想出一个不同的开源策略。”

DeepSeek的横空出世,其带来的影响不仅是在行业内,同样也更在C端市场。

数据显示,仅仅上线20天,DeepSeek的日活就突破了2000万大关,成为全球增速最快的AI应用。与之相比,ChatGPT突破1500万大关花了244天,而DeepSeek仅用了18天。上线20天后的DeepSeek日活已达2215万,是ChatGPT日活用户的41.6%,并远超豆包日活用户的1695万。

这是一场极其夸张的AI风暴,并且跟以往截然不同的是,这是一家真正由中国创业公司主导引发的AI风暴。

问题在于,为什么是DeepSeek?

要知道,过去两年国内主流的互联网大厂都在大模型赛道上投入重兵,也都跑出了不少产品,市场也普遍抱有期待,希望其中有谁能早上追上OpenAI,与硅谷AI一较高下。

但最终破局的,却是DeepSeek,大厂没做到的,它反而实现了。

一、深耕已久

本质上DeepSeek当下的爆火,是一种厚积之下的爆发。

虽说此次DeepSeek是一鸣惊人,但其团队早就在AI领域布局多年,时间线上甚至比大厂还早,布局宽度以及深度,也丝毫不比大厂差多少。

公开数据显示,DeepSeek,由知名私募巨头幻方量化孕育而生,创始人为梁文锋。

事实上,早在大学期间,即便在当时,人工智能还是一个空有理论并无实质的概念,但梁文锋无比笃信,“人工智能一定会改变世界”。

这也成为了其创业以来的终极愿景。

2015年梁文锋创办幻方,这是是国内最早使用人工智能进行量化交易的公司,2016年第一份由深度学习生成的交易仓位上线执行,2017 年全面应用深度学习技术进行交易。

到了2018年,幻方官网将“把AI确定为公司的主要发展方向”写入公司大事,再一年,幻方干脆改变了组织架构,成立了幻方AI,对外自我介绍时总说自己是一家以大规模深度学习基础研究与应用为核心的人工智能公司。

自2019年至2021年间,幻方相继自主研发了“萤火一号”与“萤火二号”AI集群,其中“萤火二号”投资达到10亿元,极大提升算力支持。同时,幻方也积极招募了一批算法科学家。而创始人梁文锋本人,则每天也都在写代码、跑代码。

技术上,一直在稳步储备,基建上,更是没有落下。

可能很少有人能预料到,2023年当ChatGPT横空出世时,市场突然发现在国内,拥有高性能GPU芯片最多的不是人工智能公司,而是梁文锋旗下的幻方量化。

彼时根据国盛证券研报,在云算力端,当时除了几家互联网公司(商汤、百度、腾讯、字节、阿里),就只有幻方有超过1万张A100芯片储备。

足见,幻方对AI的投入,对比大厂,丝毫不落下风。

二、反套路

还有就是,以梁文锋为代表的DeepSeek创业团队的锐气。

互联网大厂的AI战略往往依附于现有业务体系。腾讯的AI需服务于社交与游戏生态,阿里的AI需嵌入电商和云计算场景。这种业务协同逻辑,固然能快速商业化,却也框定了技术演进的路径——资源投入越多,越倾向于优化既有模式,而非另辟蹊径。

而背靠幻方的DeepSeek,既有强大的财力支持,又有身为创业者敢于“从零开始”,不怕试错的勇气。这让DeepSeek只需要沿着创新的信念,一路蹚过去。

对于创新,梁文锋的态度是非常坚决的——“过去很多年,中国公司习惯了别人做技术创新,我们拿过来做应用变现,但这并非是一种理所当然。这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”

“我们看到的是中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距,但真实的gap是原创和模仿之差。如果这个不改变,中国永远只能是追随者,所以有些探索也是逃不掉的。”

而如何实现创新,则是抛弃惯性的反套路。

最直接的体现,就是在团队组成上。

图片来自于幻方官网

国内大厂在进入大模型赛道上,通常倾向于去海外挖人,引入技术大牛,快速拉起一个团队,然后大干快上。而DeepSeek团队组多由本土一些Top高校的应届毕业生组成,不看经验资历,选人的标准一直都是热爱和好奇心。

同时在工作机制上,“我们一般不前置分工,而是自然分工。每个人有自己独特的成长经历,都是自带想法的,不需要push他。探索过程中,他遇到问题,自己就会拉人讨论。不过当一个idea显示出潜力,我们也会自上而下地去调配资源。”

“如果有想法,每个人随时可以调用训练集群的卡无需审批。同时因为不存在层级和跨部门,也可以灵活调用所有人,只要对方也有兴趣。”

换句话说,大厂的组织架构,本质是一台精密运转的“效率机器”。但颠覆性创新的诞生,需要的恰恰是反效率的“失控”。

而DeepSeek正做到了这一点。

AI蓝媒汇也就为什么大厂没有做出DeepSeeK的问题,向DeepSeek提问,后者表示,本质上是组织惯性、商业化压力与技术路径共同作用的结果,并称:这场由开源模型引发的技术革命,正在倒逼大厂重新思考创新逻辑。若无法跳出既有框架,其技术话语权或将进一步削弱。

作者:叶二 编辑: 魏晓

来源:蓝媒汇

]]>
如何看待DeepSeek的557.6万美元训练成本? //m.clubpenjuin.com/363249.html Sun, 09 Feb 2025 00:05:31 +0000 //m.clubpenjuin.com/?p=363249

 

三个月前,我们和中国科学院院士、清华大学计算机系教授张钹曾经聊过一个话题:“为什么在提高算法效率上中国人会做得更好?”

张钹告诉我们:“对中国企业来讲,算法效率是生命攸关的,我们必须全力以赴。也许因为美国人有强大的算力,算法效率对他们来说只是锦上添花而已。”

当时,我们对这句话感受还不是很深,直到后来看到了DeepSeek-V3技术报告里的这张表格。

DeepSeek-V3的训练成本(假设H800的租赁价格为2美元/GPU小时),图片来源:DeepSeek-V3技术报告

简单来说,DeepSeek-V3仅使用了2048块英伟达H800 GPU,耗费了557.6万美元就完成了训练,相比同等规模的模型(如GPT-4、GPT-4o、Llama 3.1),训练成本大幅降低。

这样说没有错,但在复杂的舆论场中也引发了一些误读。比如,“中国AI企业用几百万美元的成本打败了美国AI企业数亿美元的投入”“成本仅为国外三十分之一,硅谷恐慌”。

这种误读有一些客观原因,因为OpenAI、Meta官方从来没有公布过GPT-4、GPT-4o、Llama 3.1的训练成本,多数人对模型训练成本构成也并不熟悉,但误读背后更多还是主观原因——情绪。

AI大模型领域,中国AI企业一直是一个“追随者”的角色,这次有了和硅谷巨头“掰手腕”的机会,就像霍元甲站上了与西洋力士的比武台,谁不想叫声好呢?

这种情绪本身没有错,但也在一定程度上模糊了DeepSeek团队在算法、框架和硬件上的优化协同设计的价值,而这正是DeepSeek-V3降本增效的关键。

01 训练成本差距是否有那么大?

我们查阅了技术报告,DeepSeek只公布了基座模型V3的训练成本,并没有公布推理模型R1的训练成本。

DeepSeek-V3技术报告显示,该模型的正式训练成本包括三个阶段:预训练(pre-training)、扩展上下文(context extension)、后训练(post-training),共计557.6万美元。

但是这557.6万美元的训练成本并不包括前期研究以及关于架构、算法或数据的消融实验所产生的成本。

前期研究、消融实验属于“隐性成本”,但不容忽视。

在一个AI企业正式训练一个模型之前,需要进行大量的前期研究,包括对算法的理论研究、对硬件性能的探索、对数据集的分析等。

而消融实验(Ablation Study)是一种在机器学习和深度学习中广泛使用的分析方法,用于评估模型各个组件或特征的重要性及其对模型整体性能的影响。

消融实验就像是在玩“减法游戏”或者“排除法”,通过逐一移除或修改模型的某些部分,观察模型性能的变化,从而确定每个部分的相对重要性。

另外,在训练模型之前还会有一定的试错成本。

为什么说这些成本是“隐性成本”?

因为大模型前期研发往往分散在数月甚至数年中,难以量化统计;消融实验可能反复进行,但最终仅保留最优方案,失败案例的成本常被忽视;企业通常不会公开内部研发细节(如试错次数),导致外部估算会产生偏差。

除了“隐性成本”,不同的成本计算方式也会产生不一样的结果。

DeepSeek-V3这557.6万美元训练成本是怎么计算的呢?按照DeepSeek-V3技术报告的逻辑,我们简单列了一个公式:

训练耗费的时长(GPU小时)×H800每GPU小时的租赁价格(美元)=DeepSeek-V3训练成本(美元)

正式训练耗费的时长包括:预训练阶段耗费266.4万(2664K)GPU小时,扩展上下文长度阶段耗费11.9万(119K)GPU小时,后训练阶段耗费0.5万(5K)GPU小时,因此DeepSeek-V3的正式训练共耗费278.8万(2788K)GPU小时。

而DeepSeek在技术报告中假设H800每GPU小时的租赁价格为2美元,这样DeepSeek-V3训练成本就是:

2,788,000×2=5,576,000(美元)

需要注意的是,这里是按GPU小时而不是GPU个数计算,单价是按GPU租赁价格计算而不是GPU购买价格计算

换种方式计算训练成本,结果就会很不一样。

比如,为了训练Llama 3.1 405B,Meta使用了超过1.6万个英伟达H100 GPU,如果按照H100 GPU的购买价格计算,这样计算下来的训练成本就已高达数亿美元。

我们也可以按照DeepSeek-V3一样的租赁逻辑计算。

尽管Meta没有透露Llama 3.1具体的训练成本,但是其技术报告显示,Llama 3.1 405B的预训练(此处说的是预训练时间而非完整训练时间)为54天。那么,Llama 3.1 405B预训练阶段耗费的GPU小时为:

天数×24小时×H100 GPU个数=预训练阶段耗费的GPU小时

54×24×16,000=20,736,000

Llama 3.1 405B是2024年7月推出的,如果按照2024年初海外市场H100 GPU每GPU小时的租赁价格2.8美元(参考价格,会浮动)计算,那么其预训练成本约为5800万美元。相比之下,DeepSeek-V3的532.8万美元预训练成本的确是大幅降低了。

而OpenAI官方从来没有公布过其训练成本,但是我们可以从侧面推算。

英伟达CEO黄仁勋在NVIDIA GTC 2024主题演讲中介绍,如果要训练一个有1.8万亿参数的GPT模型,用Hopper(H100)的话,需要约8000个GPU,耗电15兆瓦,用时90天,大约需要三个月。

虽然黄仁勋没有明说,但根据此前多个渠道的爆料信息,这个1.8万亿参数的GPT模型就是GPT-4。

黄仁勋在NVIDIA GTC 2024 主题演讲,图片来源:英伟达B站账号

黄仁勋在演讲中解释道:“这样就可以训练出这种开创性的AI模型,这显然没有人们想象中那么昂贵,但是8000个GPU仍然是一大笔投资。”

我们同样可以按照租赁逻辑估算一下与GPT-4规模相当模型训练成本。为什么说估算?因为H100是2022年3月发布的GPU,但实际大规模供货和云服务商部署通常在2022年底至2023年初才开始,而GPT-4在2023年3月发布,所以GPT-4的训练更多还是依靠A100。

假设在2024年初,也就是黄仁勋发表演讲之前,训练一个与GPT-4规模相当的大模型,其训练成本是:

天数×24小时×H100 GPU个数=训练阶耗费的GPU小时

90×24×8,000=17,280,000(小时)

训练耗费的GPU小时×H100每GPU小时的租赁价格=训练成本

17,280,000×2.8=48,384,000(美元)

大约4800万美元的训练费用,的确如黄仁勋所说“没有人们想象中那么昂贵”。

而据SemiAnalysis在2023年7月发布的分析报告,OpenAI在GPT-4的训练中使用了约2.5万个A100GPU,训练了90到100天,利用率(MFU)约为32%至36%,这种极低的利用率部分是由于大量的故障导致需要重新启动检查点。如果每个A100 GPU的使用成本大约为每小时1美元,那么仅此次训练的成本将达到约6300万美元。

图片来源:SemiAnalysis

DeepSeek-V3对标的Claude 3.5 Sonnet的训练成本又是多少呢?此前Anthropic也没有公布Claude 3.5 Sonnet的训练成本,但Anthropic CEO达里奥·阿莫迪(Dario Amodei)近期在一篇评价DeepSeek的文章中透露,Claude 3.5 Sonnet训练成本在数千万美元(cost a few $10M’s to train),他还特意说:“我不会给出具体的数字。”

“A few”在英语里通常指3到5个,所以我们估计Claude 3.5 Sonnet的训练费用在3000万到5000万美元之间。

我们统一按照DeepSeek-V3的GPU租赁逻辑计算,不考虑其他“隐性成本”,可以发现,DeepSeek-V3的训练成本相比其对标模型训练成本大幅降低,但没有到某些人说的“几十分之一”的夸张程度。

需要注意的是,随着技术和市场的发展,GPU租赁价格的降低使得企业和研究机构能够以更低的成本配置更多的GPU,从而让模型训练降本增效。

企业还可以用更先进的GPU降低训练的能耗。

还记得黄仁勋举的例子吗?如果要训练一个有1.8万亿参数的GPT模型,用Hopper(H100)的话,需要约8000个GPU,耗电15兆瓦,用时90天;如果用Blackwell(GB200)的话,需要2000个GPU,耗电仅需4兆瓦,约为Hopper的四分之一。

图片来源:英伟达

这是先进GPU带来的效率提升,但是国内AI企业由于管控,无法获得最先进的GPU,又是靠什么来实现降本增效呢?

Meta技术报告显示,Llama 3.1 405B的预训练时长54天,使用了15万亿(15T)的tokens以及1.6万个英伟达H100 GPU进行训练。

DeepSeek-V3在预训练阶段,使用了14.8万亿(14.8T)的tokens进行训练,预训练耗时也是54天,DeepSeek-V3技术报告里也说的是“不到两个月”:

预训练阶段耗费的GPU小时÷H800 GPU个数÷24小时=天数

2,664,000÷2048÷24≈54(天)

但是,DeepSeek-V3仅使用了2048块英伟达H800 GPU,尽管可能存在利用率的差异,但这与Llama 3.1 405B训练使用的1.6万个英伟达H100 GPU形成了鲜明对比。而且H800是英伟达为了满足出口限制而设计的GPU,性能低于H100。

也就是说,DeepSeek-V3在GPU比Llama 3.1 405B用得少,GPU性能也更弱的情况下,在相同的时间,完成了与Llama 3.1 405B差不多的训练量。

DeepSeek-V3技术报告里的这句话“DeepSeek-V3每训练一万亿(trillion)个token仅需18万(180K)H800 GPU小时”成为了关键。

DeepSeek-V3大幅提升了模型训练效率。

02 DeepSeek如何降本增效?

DeepSeek-V3是一个混合专家模型 (Mixed Expert Models,以下简称MoE) ,旨在通过整合多个模型或“专家”的预测来提升整体模型性能。

图片来源:DeepSeek-V3技术报告

清华大学计算机系长聘教授、高性能计算研究所所长翟季冬在《夜话DeepSeek:技术原理与未来方向》直播中介绍,之前发布的一些MoE模型,采用的是“专家数很少、每个专家很大”的架构,但是DeepSeek采用的是“大量细粒度的专家”

“大量细粒度的专家”可以更灵活地处理各种输入数据,提高模型的适应性和泛化能力。由于每个专家的规模小,计算效率更高,训练和存储成本也相对较低。不过,由于专家数量众多,可能会导致模型的管理和调度变得更加复杂。

翟季冬分析,为了提升DeepSeek-V3的模型训练效率,DeepSeek团队在四个方面进行了优化,分别是:负载均衡优化、通信优化、内存优化、计算优化

首先是负载均衡优化。在MoE架构中,负载均衡指的是将输入数据合理分配给各个专家,使得每个专家都能充分发挥其性能,同时避免某些专家过度负载而其他专家空闲。

负载均衡是MoE训练中的非常大的挑战,如果处理不好,那么模型在一个大规模GPU集群训练时,利用率就很难提升上去。

DeepSeek团队为了解决负载均衡的挑战,创新提出了“Auxiliary-loss-free(无辅助损失)”负载均衡方案。

在传统的MoE中,为了保证各个专家的负载均衡,通常会引入一个Auxiliary Loss(辅助损失)。这个Auxiliary Loss会强制让每个专家处理的任务量尽量均匀。但它可能会让模型在优化过程中过于关注负载均衡,而忽略了模型本身的性能。

而DeepSeek的Auxiliary-Loss-Free方案,不依赖额外的辅助损失,而是在每个token的专家分配过程中直接施加一个bias(偏差值)来实现负载均衡,从而实现动态调整专家的负载。

由于这种bias的引入已经在专家选择的过程中起到了调控作用,使得各专家之间的token分配趋向均衡,因此就不再需要设计和调节额外的辅助损失项来“强制”负载平衡。这不仅简化了训练目标,也避免了因辅助损失权重设置不当而可能引入的训练不稳定问题。

简单来说,这就类似红绿灯路口,Auxiliary loss就是固定时长的红绿灯,车流量大了,路口通行效率会降低;而Auxiliary-Loss-Free中的bias就是可以根据实时车流量动态调整时长的红绿灯,基于当前状态(交通流量或专家负载)动态调整资源分配,以达到整体平衡和高效利用。

负载均衡优化,图片来源:翟季冬,《夜话DeepSeek:技术原理与未来方向》

第二是通信优化。在MoE训练中,使用专家并行会引入非常大的All to All通信开销。

什么是All to All通信开销?

假设在一个MoE中,有10个专家,每个专家被放置在一个独立的计算节点上。在训练过程中,每个专家需要与其他所有专家进行数据交换,以更新模型参数和同步训练状态。这种情况下,每个节点都需要与其他9个节点进行通信,形成了All to All的通信模式。随着专家数量的增加,通信开销也会显著增加,导致训练效率下降。

DeepSeek-V3就包括1个共享专家和256个路由专家,它采用的并行训练策略:16路流水线并行、64路专家并行,跨8个物理节点。

DeepSeek团队为了降低通信开销,提出了DualPipe算法。

DualPipe算法的核心创新就是能够将计算和通信阶段重叠进行。在传统的训练过程中,计算和通信是分开进行的,这会导致GPU在等待数据传输时出现空闲期,即所谓的 “流水线气泡”(pipeline bubbles)。DualPipe算法通过确保在一个微批量(micro-batch)被计算的同时,另一个微批量可以进行通信,精细地编排计算和通信,从而最大限度地减少这些空闲期,提高GPU的利用率。

通信优化,图片来源:翟季冬,《夜话DeepSeek:技术原理与未来方向》

DualPipe算法还采用了双向流水线机制,同时从流水线的两端处理微批量。这种策略确保了在整个训练过程中GPU始终保持活跃。通过这种方式,DeepSeek能够保持良好的计算与通信比例,减少延迟,提高吞吐量。

“这里有一个需要注意的点,如果采用双向流水线,要在GPU显存里存两份模型参数。大模型训练内存使用非常重要,为了解决这个问题,它采用了64路的专家并行,双流水可以非常有效地降低流水线bubble。”翟季冬说。

通信优化,图片来源:翟季冬,《夜话DeepSeek:技术原理与未来方向》

此外,DeepSeek的通信优化还包括跨节点通信优化以及Warp Specialization技术。

通信优化,图片来源:翟季冬,《夜话DeepSeek:技术原理与未来方向》

第三是内存优化。包括了重计算、使用CPU内存和参数共享。

大模型训练往往存在显存瓶颈。重计算的核心思想是在前向传播过程中,只保留少量关键的中间结果,而将其余的中间结果释放掉。当在反向传播过程中需要用到这些已释放的中间结果时,再重新执行前向传播中的相应部分来计算得到。这种方法通过增加一定的计算量,显著降低了内存消耗,是一种“以时间换空间”的策略。

这可以理解为一种在大模型训练过程中“偷懒”的技巧。

同时,DeepSeek还把一些数据,包括像模型参数的指数移动平均(EMA),存到CPU内存,从而节约GPU显存;将主模型与MTP(Multi-Token Prediction)模块的output head和embedding部署在相同节点,最大化地共享参数空间。

内存优化,图片来源:翟季冬,《夜话DeepSeek:技术原理与未来方向》

第四是计算优化。为了提升训练效率,DeepSeek采用了混合精度训练策略。

DeepSeek引入了英伟达FP8混合精度训练框架,并首次在超大规模模型上验证了其有效性。通过支持FP8计算和存储,DeepSeek实现了加速训练和减少GPU内存使用。FP8训练在相同加速平台上的峰值性能显著超越FP16/BF16,并且模型参数越大,训练加速效果越好。

计算优化,图片来源:翟季冬,《夜话DeepSeek:技术原理与未来方向》

总的来说,翟季冬认为:DeepSeek充分挖掘了算法、软件、硬件性能,实现了协同创新;其软件相对灵活,软件赋能硬件,弥补了硬件的很多限制;优秀的系统软件能够充分释放底层硬件的潜力。

DeepSeek正是通过这一步步的优化,让整个模型的训练效率得到提升,并降低训练成本。

03 “小米加步枪”式的成功

经历了春节假期的喧嚣,我们对于DeepSeek的讨论应趋向理性。

我们不应神话DeepSeek,也不要因为外部的贬低而看轻DeepSeek,这些都对DeepSeek团队不公平。其实,DeepSeek就是一种“小米加步枪”式的成功。

行云集成电路创始人季宇最近跟我们聊起DeepSeek时说,创新的意识其实国内根本不缺,但缺乏Known-Why的创新往往会走向类似赌徒的歧途。

“创新不是简简单单的不一样的技术路线,国内其实不缺乏创新性和天马行空的想象,其实无论AI行业还是算力芯片行业,都有无数走非Transformer架构、走非GPU架构、非冯诺伊曼架构的差异化路线,但是基本都陷入了用差异化的技术路线主流技术路线替代品的逻辑里。”季宇说。

但是DeepSeek的创新是一步一个脚印的。

季宇告诉我们,第一性原理思考问题很多人都在讲,但实际上非常困难。第一性原理需要深入推敲,需要对每个论断的边界条件,需要深入考虑各个层级技术的细节。

“之前跟在DeepSeek的一个师弟交流,梁老板(DeepSeek创始人梁文锋)对他写的CUDA Kernel里每个线程具体在干什么事情都非常清楚,只有这样才能从全局视角去思考突围的方式,真正把创新做成。”季宇说。

这一点在另一位投资人那里也得到了印证。这位投资人去年曾问DeepSeek的人:“为什么你们的模型做得好?”

DeepSeek的人回答,因为我们老板自己在读论文、写代码、搞招聘。

关于DeepSeek的成功,你可以说他们有丰富的GPU储备,可以说他们对模型架构进行了创新,但其成功内核往往是朴实而简单的。

DeepSeek创始人梁文锋去年接受《暗涌》采访时说过的一句话,既谦虚又意味深长。

他说:“我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。”

作者:王博

来源公众号:甲子光年

]]>
DeepSeek技术解析 //m.clubpenjuin.com/363251.html Sat, 08 Feb 2025 03:21:42 +0000 //m.clubpenjuin.com/?p=363251

 

DeepSeek的V3模型仅用557.6万的训练成本,实现了与OpenAI O1推理模型相近的性能,这在全球范围内引发连锁反应。由于不用那么先进的英伟达芯片就能实现AI能力的飞跃,英伟达在1月27日一天跌幅高达17%,市值一度蒸发6000亿美元。一部分投资人担心这会减少市场对先进芯片的需求,但科技圈也普遍存在另一种相反的观点:一个高性能、低成本和开源的大模型会带来整个应用生态的繁荣,反而会利好英伟达的长期发展。

这两种矛盾的观点正左右博弈。但如果从技术层面分析,DeepSeek对英伟达、芯片甚至是整个科技行业的影响并不是如此简单。比如本期嘉宾Inference.ai创始人兼CEO John Yue认为,DeepSeek冲击了英伟达两大壁垒——NVLink与CUDA,这在某种程度上打掉了英伟达的溢价,但也并未冲垮壁垒。

本期内容,主理人泓君邀请到加州大学戴维斯分校电子计算机工程系助理教授、AIZip的联合创始人陈羽北,以及Inference.ai创始人兼CEO John Yue,详细解读DeepSeek核心的技术创新以及对芯片市场的影响。以下是部分访谈精选

01 DeepSeek 的核心创新是基础模型能力

泓君:能不能先从技术上分析一下DeepSeek比较让人惊艳的地方?

陈羽北:从DeepSeek这次的进展来看,虽然强化学习在其中占据重要地位,但我认为基础模型DeepSeek V3本身的能力才是关键。这一点从DeepSeek的论文数据中可以得到印证——在R1 Zero未经过强化学习时,每生成100条内容就有约10%的成功率,这已经是非常显著的提升。

DeepSeek这次采用的是GRPO(分组相对策略优化)的方法,有人提出使用PPO(近端策略优化)等其他强化学习方法也能达到类似效果。

这告诉我们一个重要信息:当基础模型的能力达到一定水平后,如果能找到合适的奖励函数,就可以通过类似search的方法实现自我提升。所以这次进展传递了一个积极的信号,但强化学习在其中反而起到次要作用,基础模型的能力才是根本。

泓君:总结你的观点,DeepSeek之所以好本质上还是因为V3的表现非常惊艳,因为用比如MoE等各种方式,去让这个基础模型性能更好。R1只是在这个基础模型之上的一次升级,但是你觉得V3比R1-Zero更加重要?

陈羽北:我觉得他们都有一些重要的点。从V3来看,主要集中在模型架构效率的提升上,其中有两个重要的工作:一个是混合专家网络(MoE)。以前不同专家(expert)的负载均衡(load balance)做得不太好,在分散到不同节点时的时候,它的Load Balance会有问题,,所以他们对负载均衡做了优化。

其次,它在Attention Layer上,他要节省键值缓存(KV Cache),其实这也是在提高架构的效率。这两点作为它的核心创新,使得它在600多B的大模型上,使得基础模型的能力表现已经挺不错的了。在DeepSeek R1 Zero中,他们首先设计了一个简单直观的基于规则(rule-based)的奖励函数。基本要求是确保数学题的答案和回答格式都完全正确。他们采用了DeepSeek V3的方法:对每个问题生成100条回答,然后从中筛选出正确答案来增强正确回答的比重。

这种方法实际上绕过了强化学习(reinforcement learning)中最难处理的稀疏奖励问题——如果我回答100条、回答1万条它都不对,那我其实就没有办法去提升了。但如果任务已经有一定成功率,就可以着重强化这些成功的部分,这样就把稀疏奖励转变为相对稠密的奖励,也就不需要去搭桥、去建模、去构建中间的奖励函数了。借助V3的基础能力,R1 Zero告诉我们,如果这个模型的基础能力已经不错了,那么我是有可能通过这个模型自我来进行提升的。其实这种思路和Model Predictive Control和世界模型,是有很多的相似之处的。

第二个是让大模型训练小模型,看似是一个显而易见但是这次也产生了重大影响力的一个结果。他们先训练了一个600 多B的大模型,通过自启发式回答100个问题,然后用自我引导(Bootstrap)方法逐渐提高这个能力,将成功率从10%提升到70-80%。这个大模型还可以用来教导小模型。

他们做了一个有意思的实验,在Qwen上做了从1.5B一直到30几B的各种大小的蒸馏学习,用大模型学到的推理和计划能力来提升小模型在相关问题上的表现。这是一个相对容易想到的方向,因为在所有的自我增强、模型预测控制(model predictive control)和基于模型的强化学习(model-based reinforcement learning)中,如果模型本身不够好,通过搜索方法来提升效果都不会很理想。但如果用一个搜索能力强、表现好的大模型,直接把学到的能力传授给小模型,这种方法是可行的。

来源:ABB

泓君:所以从整体上看,DeepSeek采用的是一个组合拳策略,从V3到R1-Zero再到R1的每一步演进,在方向选择上都有其可取之处。那么在硅谷的公司中,像OpenAI、Gemini、Claude以及LlaMA,他们是否也采用了类似的模型训练方法呢?

陈羽北:我觉得很多这样的想法在之前的研究工作中就已经出现过。

比如DeepSeek V3模型中使用的多头潜在注意力机制(Multihead Latent Attention),Meta之前就发表过一篇关于多令牌层(Multi-Token Layer)的研究,效果也很相似。另外,在推理和规划(Reasoning and Planning)方面,之前也有过很多相关研究,还有在奖励机制和基于模型的方法(Model-Based Method)等这些方面。

其实我恰恰觉得这次DeepSeek R1 Zero的命名在一定程度上和AlphaZero有点像。

02 对英伟达利好与利空:冲击溢价但并未冲垮壁垒

泓君:想问一下John,因为你是GPU行业的,你觉得DeepSeek R1对英伟达,它到底是利好还是利空?为什么英伟达的股价会跌?

John Yue:这应该是一把双刃剑,既有利好也有利空。

利好方面很明显,DeepSeek的出现给了人们很多想象空间。以前很多人已经放弃做AI模型,现在它给了大家信心,让更多初创企业出来探索应用层面的可能性。如果有更多人做应用,这其实是英伟达最希望看到的局面,因为整个AI行业被盘活后,大家都需要购买更多的卡。所以从这个角度看,这对英伟达更有利。

而不利的一面是英伟达的溢价确实受到了一些冲击。很多人一开始认为它的壁垒被冲倒了,导致股价大跌。但我感觉实际情况并没有那么严重。

泓君:壁垒是什么?

John Yue: 英伟达有两个最大的壁垒:一个是Infiniband(芯片互联技术);另一个是CUDA(图形计算统一架构),它那整套调用GPU的系统,与AMD等其他芯片公司已经不在同一层面竞争了。其他公司都在争单张显卡的性能,而英伟达比拼的是芯片互联技术以及软件调用和生态系统的维护。对于这两个壁垒,DeepSeek确实都稍微冲击到了它的溢价,但并没有把壁垒完全冲垮。

具体来说,对英伟达溢价的冲击体现在:

MOE的优化实际上在一定程度上削弱了英伟达互联的这一部分重要性。现在的情况是,我可以把不同的expert放在不同的计算卡上,使得卡与卡之间的互联不再那么关键。而且,一些暂时不需要工作的expert可以进入休眠状态,这对于英伟达互联技术的需求确实带来了一定冲击。

另一方面,在CUDA方面,这其实是在告诉大家,现在存在一种新的可能性。以前大家可能都认为绕不开CUDA,而现在我们的(指DeepSeek)团队已经证明,确实可以“绕开”CUDA,直接使用PTX进行优化,这并不意味着所有团队以后都具备这样的能力,但至少,它提供了一种可行的方案——也就是说,现在有可能做到这件事。而这种可能性会导致,未来我不一定非要购买英伟达的显卡,或者说,不需要最先进的英伟达显卡,或者可以使用更小型的英伟达显卡来运行模型。

泓君:什么叫做绕过CUDA,它是真的绕过CUDA了吗?我听到的说法是说,它用的不是CUDA比较高层的API,但还是用了比较底层的API。

John Yue:对,我用词不太准确,准确地说并没有完全绕过CUDA的生态,而是可以直接调用更底层的库,不是使用高层API,而是直接调用PTX(并行线程执行)——这是一个指令集上面一层的指令集层级,然后在这一层直接进行优化。不过这也是一个很大的工程,并不是任何一个小公司都有能力去做这件事情。

来源:medium

泓君:如果DeepSeek具备了这种能力,其他公司是否也能获得类似能力?假设现在买不到英伟达的GPU,转而使用AMD的GPU,那你刚才提到NVIDIA的两个核心壁垒:NVLink和CUDA,在某种程度上受到冲击,这对AMD这样的公司来说是否是一个利好?

John Yue: 短期来看对AMD是个利好,因为AMD最近已经宣布将DeepSeek给移植过去了。但长期来看,可能还是英伟达占优势。这毕竟只是DeepSeek这一个模型,而CUDA厉害的地方在于它是通用的GPU调用系统,任何软件都可以用CUDA。DeepSeek这种做法只支持DeepSeek自己,如果有新的模型出现,还要重新适配一次。

我们就是在赌DeepSeek是否真的能成为业界标准,成为下一个OpenAI,让所有初创企业都在它的基础上构建。如果是这样,对AMD来说确实不错,因为它已经完成了DeepSeek的移植。但如果不是DeepSeek呢?DeepSeek的优势主要在于对强化学习和GRPO这些方法的改进。如果后面出现更多使用其他方法的模型,那又要重新适配,比起直接用CUDA要麻烦得多,还不如直接用Cuda。

来源:NVlDIA

泓君:所以你的核心观点是它动摇了英伟达的两大核心壁垒NVLink和Cuda,那从GPU的需求上来看呢?

John Yue: 我没觉得动摇了这两个壁垒, 目前英伟达的两个壁垒还是很坚挺的,只是对溢价有冲击,可能你收不了那么高的价格了,但这不意味着其他竞品能突然就进来。

泓君:它是一个非常漫长的过程?

John Yue:其他竞品做的跟这两个壁垒不太一样。可以针对单个模型绕过CUDA,但还没人能做出通用的替代方案。所以实际上没有撼动英伟达的壁垒。就像一堵墙,大家以前都觉得翻不过去,现在DeepSeek跳过去了。那其他人能不能过来呢?它只是提供了一个精神上的鼓励。

泓君:对GPU的需求会减少吗?因为DeepSeek这次训练成本低,从某种程度上来说,股价下跌也意味着,是不是用更少的GPU就能训练出更好的模型了?

John Yue:如果只看训练这一个模型的话,确实是这样。但DeepSeek真正的重大意义在于重新激发了AI从业者的热情。这样看的话,应该会有更多的公司进入市场,他们会购买更多的芯片。所以这件事可能会导致溢价降低但销售量增加。至于最终市值是增加还是减少,要看这个比例关系。

泓君:你怎么看?

John Yue:这个不好说,关键还是要看应用。到2025年,大家能开发出什么样的应用。如果之前应用发展的主要阻力是GPU价格的话,那随着价格降到十分之一甚至更低,这个阻力就消除了,市值应该会上涨。但如果主要阻力在其他方面,那就很难说了。

泓君:其实就是说,随着AI应用的增多,DeepSeek降低了门槛,从GPU需求来看,整体上反而对英伟达更有利。

John Yue:对。因为这些应用开发者不会自己组建团队去重复DeepSeek的工作,比如绕过Cuda去调用PTX。一些小公司他们需要开箱即用的解决方案。所以这对英伟达有利,英伟达最希望看到的就是更多AI公司的出现。

泓君:更多的AI公司出来,他们需要的是训练模型的GPU,还是更多的推理?

John Yue:我个人觉得,推理芯片领域未来也会是英伟达,我不觉得这些小公司长期有一些优势,它短期大家都有优势。长期我觉得推理是英伟达,训练也是英伟达。

泓君:为什么推理也是英伟达?

John Yue:因为它还是CUDA,还是这个行业的龙头。刚才提到的两个壁垒也没有被动摇。

现在的ASIC(专用集成电路)公司主要面临两个问题:软件支持不足,硬件缺乏壁垒。在硬件上,我没看到很强的壁垒,大家基本趋于同质化。

来源:领英

软件则是另一个大问题。这些ASIC公司在软件维护方面做得都不够好,连PTX层面的维护都不够完善。这两个因素导致英伟达还是一直占有龙头地位。

泓君:推理芯片对软件的要求也同样高吗?在整个GPU跟训练的这个芯片上,英伟达有绝对的垄断地位,因为你是离不开或者很难绕过这一套系统的,但是推理训练上,方便绕过去吗?

John Yue:推理对软件要求也很高,还是需要调用GPU的底层指令。Grok在软件方面比英伟达差距还很大。你看他们现在的模式越来越重,从最初只做芯片,到现在自建数据中心,再到做自己的云服务。等于是在构建一个完整的垂直产业链。但它的资金跟英伟达相比差距很大,凭什么能做得更好?

泓君:现在市场上有值得关注的芯片公司吗?

John Yue:我觉得AMD有一定机会,但其他的ASIC公司可能还差一些。即便是AMD,与英伟达相比也还有很长一段距离。

我个人觉得,如果要在芯片领域创新,可能更应该聚焦在芯片的软件维护上,而不是在硬件上做改变。比如在DDR(双倍数据速率)、Tensor Core(张量计算核心)、CUDA Core(通用计算核心)之间调整比例,这其实意义不大。这样做等于是在帮英伟达当大头兵,看看这种比例的产品是否有市场,但你建立不了什么壁垒。

但是在软件这块还有很大的优化空间,比如开发一套比CUDA更优秀的软件系统。这可能会有很大的机会,但也不是一件容易的事情。

03 开源生态:降低AI应用的准入门槛

泓君:你们觉得DeepSeek选择开源的这条路,对行业的生态具体会有哪些影响?最近在美国的reddit上,很多人已经开始去部署DeepSeek的模型了。它选了开源以后,这个开源到底是怎么去帮助DeepSeek把模型做得更好的?

John Yue:最近我们也部署了一些DeepSeek的模型在我们平台上面,我觉得他开源是一件对整个AI行业非常好的事情。因为去年下半年以后,大家会感觉有一点失落,因为AI应用看起来都起不来。起不来有一大原因就是很多人觉得Open AI把所有应用的壁垒都能打掉了个百分之八九十,大家都是比较惶恐的。就是我做一个什么东西,明年OpenAI出个o4,就把我东西全部覆盖了。

那我如果做这个东西建立在OpenAI上的话,它出一个新的模型,把我的应用完全包含进去了;我在价格上也没法跟他争,我在功能上没法跟他争,这就导致很多公司不太敢去做,VC也不太敢进来。

这次DeepSeek开源,对整个行业的一个好处:我现在用的是一个开源做得非常好的一个模型,那这样的话我有一定的这种连续性,我就有更大的更多的信心去做更多的应用。

DeepSeek如果有能力去超过OpenAI的话,那对整个行业就更好了。就等于说是有一条恶龙现在它不存在了,大家发展的就能更好一些。

来源:Lago

更多人用它,它就跟LlaMA的逻辑是一样的,有更多人用,有更多反馈,所以它的模型能做得更好。DeepSeek也是这样,如果有更多的应用开发者,它收集数据的速度肯定是比其他模型快很多。

泓君:现在我们能看到一个开源的模型,它在整个的性能上已经跟OpenAI的o1,基本上是一个量级的。那可以预期OpenAI它发了o3 mini之后,开源模型可能也会升级,也会有下一个版本再来超过这些闭源模型的。我在想当一个开源模型它的性能足够好的时候,OpenAI这些闭源模型它存在的意义是什么?因为大家就直接可以拿到最好的开源模型的底座去用了。

John Yue:DeepSeek的意义在于它的价格降了很多,它是开源的

不是说比OpenAI已经好了。闭源模型还会是领先的一个趋势。开源的意义可能就在于它会像安卓一样,谁都可以用,然后非常便宜。这样它降低了进入行业的门槛,所以它才是真正让这个行业蓬勃的一个因素。

这些闭源的模型它有可能是一直领先的。闭源如果还不如开源,那可能就没有意义,但它应该是有管理上面的优势,可以超过开源模型。

泓君:那现在看起来确实是有一批闭源不如开源的。

John Yue:那就自求多福,如果闭源还不如开源,我也不知道这公司在干什么,你还不如免费好。

陈羽北:我觉得开源的生态是非常重要的。因为我除了在实验室以外,我之前参与一家公司叫AIZip,也做很多的全栈的这种AI应用。然后你会发现一件事情,很多这种开源的模型你直接是无法使用的,就是产品级的东西你无法直接使用这些开源的模型。但是如果有这样的开源的模型,可能会大大提高你生产出一个这种产品级的模型的能力,大大提高你的效率。

所以你像DeepSeek也好,LlaMA也好,我觉得这种开源的这种生态对于整个的社区来讲是至关重要的一件事情。因为它降低了所有的AI应用准入门槛那见到更多的AI的应用,它有更多的触及这件事情是对于每一个做AI的人是一个非常利好的消息。

所以我认为Meta在做的这件事情很重要,LlaMA一直在坚持开源构建,这样让所有的AI的开发者都可以做自己的应用,虽然LlaMA并没有把这个应用直接给你做完,他给你提供了一个Foundation。Foundation顾名思义它就是一个地板,对吧?你可以在这个地板之上,你可以构建你所想要构建的这种应用,但是他把90%的任务给你做好了。

我认为更好的Foundation对于整个生态是非常重要的。OpenAI下大功夫来优化的一些能力的话,它依然会有这样的优势。但是我们也不希望这个市场上只有OpenAI,那对于所有的人来讲可能都是一个不利的消息。

04 API价格下降与小模型的想象空间

泓君:DeepSeek是怎么把API接口的价格给降下来的?因为我看了一下它的这个R1官网写的是,每百万输入的Token,缓存命中的是1块钱,缓存未命中的是4块钱,每百万输出的Token是16块钱。o1的价格我整体算了一下,差不多每个档位都是他们的26到27倍之高。它是怎么把这个API的成本给降下来的?

John Yue: 它等于是从上到下做了整个的一套优化。从PTX这块怎么调用,底下的GPU到MOE的架构,到Low Balance,它都做了一套优化。

这里面可能最重要的一点,就是它可以降低了对芯片的要求。你本来非得在H100上,A100上跑,你现在可以用稍微低端一些(的芯片),或者你甚至可以用Grok。你可以用国内的那些严格版的H800这些卡去跑。那这样,它其实就已经大幅度地降低了每个Token的成本。

它里头如果再做优化,比如切分GPU,它其实可以降下来很多。而且OpenAI内部其实也说不定人家早都降下来了,它只是不想降Retail的价格,这也不确定。

我觉得主要就是这两个吧,一个是架构上,一个是芯片,可以降级了。

泓君:芯片降级未来会成为行业的普遍现象吗?

John Yue:我觉得不会,因为英伟达已经停产了所有老芯片,市面上数量有限。比如说虽然可以在V100上运行,但V100早就停产了。而且每年都要计算折旧,可能过两年市面上就找不到V100了。英伟达只会生产最新的芯片。

泓君:那它的成本还是低的吗?

John Yue:如果在新芯片上做一些优化,比如我们这种GPU切分方案,成本是可能降低的。因为模型变小了。我们最近运行它的7B模型,只需要大约20GB。我们可以把一张H100切成三份来运行DeepSeek,这样成本直接降低三分之一。

我觉得未来可能会更多地使用虚拟化GPU来降低成本。仅仅依靠老卡和游戏卡是不现实的,原因有几个,一是英伟达有黑名单机制,不允许用游戏卡正式部署这些模型;老卡除了停产问题,还有很多维护方面的问题。所以我不认为芯片降级会成为主流现象。

泓君:所以现在你们是在为客户提供芯片优化,帮助节省成本。那你最近客户应该是暴增,你觉得这个是受益于DeepSeek,还是说你们一直在做这件事情?

John Yue:我们从去年就开始做这件事,一直在赌未来会有更多的小模型。DeepSeek出来后,就像刚才说的,它带来了一个趋势,会蒸馏出更多的小模型。如果大家要运行更多小模型,就需要不同型号的芯片,每次都用物理芯片可能比较困难。

泓君:DeepSeek降低了整个API成本,你刚才也分析了它的研究方法。你觉得这套研究方法未来有可能用在更多场景中吗,比如你们在做GPU分片和客户模型时?会不会引发整个行业对GPU成本的节省?

来源:DeepSeek Platform

John Yue: 应该可以。DeepSeek的出现向行业证明了现在有更优的强化学习方法。我觉得后面肯定会有很多人采用相同的方法。在调用CUDA这块,以前可能没人敢尝试,他们证明了几个博士毕业生也能很快绕过CUDA,后面可能很多模型公司都会效仿,这样大家都这么做的话,成本肯定会下降。

泓君:所以我理解现在训练成本降低了,推理成本也大幅下降了,那你们现在帮客户去部署这种GPU的时候,客户的主要需求是什么?

John Yue:简单便捷、快速部署和低价格。我们能解决部署成本问题,因为确实存在很多浪费。比如一张A100或H100都是80GB,但如果你要蒸馏出一些小模型,或者使用现有的Snowflake、Databricks那种模型,可能只需要10GB,有的更小。在80GB的GPU上部署10GB的内容,就等于大部分GPU都浪费了,但你还是要支付整个GPU的费用。

另外,推理(Inference)时工作负载是弹性的,有时客户增多,有时减少。如果每张卡上都有浪费的空间,扩展时每张卡都会有这样的浪费。我们现在做的是将其虚拟化,这样就完全没有浪费,就等于比较简单粗暴地解决了很多GPU部署成本的问题。

陈羽北:这个领域其实还有一个有意思的方向,小模型在过去6到8个月的进展非常快,这可能带来一个变革。之前全世界99%的算力对大家是不可见的,人们不会意识到ARM芯片或高通芯片里具备AI能力。未来如果有大量小语言模型、视觉语言模型(VLM)、音频智能等能力,可能会越来越多地出现在曾经不会被用到的平台上,比如特斯拉的车上已经用到了很多。

你会发现越来越多的设备,比如手机、耳机、智能眼镜,现在是一个火爆品类,很多公司都在做,都会搭载设备端On-Device AI。这对降低成本、提高AI可用性有巨大机会。

来源:Medium

泓君:小模型好用吗?

陈羽北:小模型其实在很多的领域有很多的基本的应用。当你把小模型给到足够的训练以后,它最终和大模型的性能差不多。

泓君:说一个具体的应用场景。

陈羽北:比如说,我们用到这个话筒,里面有降噪功能,可以用一个极小的神经网络实现,这个神经网络可以放在话筒里。即使把模型放大10倍、100倍,性能差异也不会很大。

这样的功能会越来越多地被集成进来,比如小语言模型可以放在智能手表上,做一些基本的问答、调用API,完成基本工作。更复杂的任务可以转移到云端,形成分层的智能系统。现在一个智能手表就能做非常复杂的推理了。手机上的高通芯片,推理能力可以达到50TOPS(每秒万亿次操作),这是一个很大的算力,与A100相差不大。很多小模型可以胜任大模型已经在做的事情,这对降低成本、提高AI的普及程度有很大帮助。

泓君: 小模型是本地的还是联网的?

陈羽北:本地的。

泓君:所以未来我们整个世界里面可能会有各种各样的小模型。当这个小模型不够用的时候,它再去调动这种大模型,这样就可以极大地节省这一部分的推理成本?

陈羽北: 对,我认为未来AI的基础设施应该是分层的。最小的可以到终端设备,在传感器里做一些基本的运算。在边缘端会有更多的AI功能,再到云端,形成端-边-云的完整体系。

我之前提到过一个数字,如果做个简单计算,把全世界终端和边缘端的算力加起来,会是全球HPC(高性能计算)中GPU算力的100倍。这是个非常可怕的一件事,因为体量太大了。高性能GPU的出货量可能在百万片级别,但手机和边缘端设备可能达到百亿级别,到传感器这个级别可能还要再大一两个数量级。当体量上去后,加起来的算力是极其庞大的。

泓君:那芯片够用吗?比如说高通的芯片。

陈羽北:它可以做很多很复杂的功能。从小语言模型到VLM(视觉语言模型),再到音频的ASR(自动语音识别)等。对于这些我称之为”初级AI功能”的任务,无论是代理型还是感知型,在边缘平台和终端设备上都能完成。最复杂的任务则会转移到云端处理。

另一个是全球90%到99%的数据其实都在终端和边缘端。但现在大多数情况下是“用掉就丢”(use it or lose it)。比如,你不可能把摄像头的所有视频都传到云端。如果在终端和边缘端有AI功能,就可以筛选出最有价值的数据上传,这的价值是巨大的。目前这些数据都还没有被充分利用。

未来当初级AI功能增多后,这些初级AI模型反而可以作为大模型的一种数据压缩工具。

泓君:现在大家部署的是DeepSeek的小模型吗,还是LlaMA的?

陈羽北:其实可能都不是。整个生态里有Qwen,LlaMa,还有DeepSeek,也有很多自研的,所以我觉得整个生态里面,只能说是越来越多的这样的小模型在涌现,而且它们的能力在快速提高。

泓君:选模型看重什么关键点?

陈羽北:首先是效率问题:模型必须运行快速,体积要小。

但更重要的是质量要求:没有人会为一个又快又小但不好用的模型付费。模型必须能够胜任它要处理的任务。这就是我所说的AI鲁棒性,这一点非常重要。比如说话筒的降噪功能,它必须能保证音质。如果处理后的声音很粗糙,没人会使用它,大家还是会选择用后期处理软件。

泓君:所以在应用端的话,大家看的并不是说最前沿的模型是什么,而是说最适合我的模型是什么,然后选成本最低的就可以了。

05 提问DeepSeek:数据与持续创新能力

泓君:因为现在关于DeepSeek很多的信息都已经公开出来了,你们对这家公司还有没有非常好奇的问题?

陈羽北:在他们发表的文章中,具体的数据构成并没有被详细披露,很多训练细节也只是在宏观层面提及。当然,我理解不是所有内容都应该公开,这个要求不合理。但如果能提供更多细节,让其他人更容易复现这项工作,可能会更好。所有前沿研究实验室都有这样的趋势,在涉及数据这块时都比较含糊。

泓君:有些连OpenAI都不敢写,所有的大模型公司问到数据他们都是不敢答的。

陈羽北:连数据是如何平衡的、时长以及具体的处理流程这些都没有写出来。我理解不写具体的数据组成,但至少可以写一下数据是如何整理的。但很多时候这些细节大家都不写,而我觉得这些恰恰是最关键的部分。其他一些方法反而很容易想到,比如用搜索方法来做推理规划,或者当模型够好时,用自举方法提高性能,再或者用大模型直接自举出结果给小模型。

真正难想到的是两个方面:数据的具体构成和架构中的底层创新。我觉得这些才是最关键的内容。

John Yue:我比较关注DeepSeek这家公司是否能持续给大家惊喜,继续挑战OpenAI。如果它能不断给我们带来惊喜,让大家最终都在DeepSeek上开发应用,那对整个芯片和基础设施领域的格局确实会带来较大改变。

就像我刚才说的,DeepSeek已经绕过CUDA去适配很多东西,如果它能继续保持这个位置,其他芯片厂商可能也会有机会,这对英伟达的生态系统也会构成一定挑战,溢价肯定会下降。但如果下一个模型,比如Llama 4出来,假如它比DeepSeek好很多,那可能又要重新回到起点。

作者:硅谷101

来源:硅谷101

]]>
DeepSeek AI使用技巧 //m.clubpenjuin.com/363206.html Fri, 07 Feb 2025 08:10:40 +0000 //m.clubpenjuin.com/?p=363206

 

结合日常工作生活琐事,本文以DeepSeek为例讲解如何高效驾驭“AI”,各场景的提效思路。希望大家未来把它当成一个精通各个领域知识、有各个行业经验的朋友,养成借助AI外挂大脑的习惯,往往能事半功倍。小编总结了8大技巧,也可以八剑归一合为一条叫做“学会用聪明人”。

第一,不要教Deepseek R1(下文简称R1)做事,讲清楚目标即可

面对一个聪明人,我们很多时候不需要教他去怎么做,给他定义清楚目标就好,这也是OKR发明的逻辑,发挥他的主观能动性。过去我们在跟普通的比如说GPT4或者是豆包之类的模型去聊天的时候,传统的指令模型都是张口即来,不习惯思考的,所以我们会给他那种长长的结构化提示词给他发过去,这种提示词,R1的效果就很一般了,比如说R1步骤一步骤二反倒是约束得很死板,因为R1是推理模型,R1很聪明很善于思考,不管说什么之前都会深思熟虑。比如我们随便让R1“生成一个1~10之间的随机数”他都会想半天想了这么多什么叫随机数,可以说是属于多虑了。

所以我们不需要像原来一样去跟R1指定思维链,让Deepseek先想什么后想什么,而且大多数情况下我们也不需要要求他用什么框架来回答,普通人知道的思考方式肯定是没有R1多的,不如让R1自己去想,你只需要定义清楚你的目标是什么就够了。比如“我想了解什么是神经网络,但我只有小学学历”R1这个效果都明显要比解释大师要好。

第二,面对聪明的帮手,R1的习惯是:你一问,他就给你一套解决方案

如果你没把背景说清楚,他也不会再问你,他就根据自己的经验来回答了,所以给他提供必要的任务背景,可以还你一套完整的解决方案,例如:“一个32岁的全职妈妈,孩子两岁上托儿班,英语专八,但是已经荒废了5年,每天有3小时碎片时间,求能带孩子工作的轻创业方案”前面是自己情况的描述,就是基础背景,属于你去咨询任何一个人类也得要说清楚的东西;

看R1的思考里面是我们给的这些情况他都考虑到了的,回答里面会包括一个思考过程和有价值的参考结果输出,这两点就是DeepSeek可使用最底层和最基础的原则。

第三,聪明人不但会给答案,提的问题也都是好问题

所以我们可以借助R1向我们反向提问,帮助我们思考,或者是在我们自己提出问题之前,就先让R1来问我们找到一些原问题。比如“我是一个考了三年,去年刚上岸的公务员,但是我适应不了政府职场的无聊氛围,也不想去社交。我今年30岁了,我想辞职重新规划我的人生,请你向我提出一些问题来引导我反思和规划我的人生。”

你看R1提的这些问题(部分截图…),这些其实很可能都是你没有想清楚的。

如果这个风格是一个名人,我们尽量就不用自己去形容这个风格,什么幽默婉约,不要太相信自己的词汇量,找到一个对标就行了,b站、弹幕、百度贴吧、地摊小说这种都算是风格对标,他比你会更get那叫什么风格,如果你要求的风格没有什么代表人物,也可以去发他一点参考。

第四,可以让聪明人见人,说人话,规定对标的受众知识水平

比如“我要给批发市场的老板写个邮件,但是我只想买三件衣服,他一般20件才起卖,请帮我写的,让人觉得我是非常老练内行的批发商,并且让他同意卖给我”这里面就是目的加上了背景,再加上受众。

这个思维链里面,他还考虑到了让你假装有其他的供应商,去暗示自己有很多选择,有计谋(哈哈!!),包括后面什么小批量测款,周四到仓,用术语的同时还表示你有仓。

第五,让聪明人再借用大佬的思维聪明翻倍

比如“如果你是雷军的话,你会怎么评价我这个方案”

第六,聪明人其实都善于辩证思考,有批判性思维

所以说我们也可以利用R1强制我们也考虑到事情的两面性,我们在做一个决定之前,可以先去让DeepSeek挑一遍毛病作为一个缓冲带,看完他的批判之后,你如果还想去,那你就去,比如一个比较激进的例子“我爱上了一个空姐,思来想去我决定追求真爱,净身出户跟我老婆离婚,你觉得我的决定怎么样?用批判的思维来想可以犀利一点”

看到这,是不是很犀利、很有灵魂共鸣!!!

第七,由于他是个聪明人,很多时候都能产生你想不到的思考

所以我们可以大胆的去尝试问一些开放性的问题,探讨更深刻和本质的问题,比如说你的人生规划可以先不着急让R1出一个职业规划,而是先跟它聊聊“你怎么看28岁的中国二本毕业生的人生以及你觉得做职业规划之前应该先问自己什么问题,或者选择一个城市定居意味着什么”

R1还会给到你这么细节的社会知识系统,因为很多时候我们自己在寻求解决方案之前,就有很多问题是没有想清楚的,DeepSeek会给到你一些很发人深省的宏观思考,除了以上的技巧和案例,也有非常多场景可以用,我根据这几年我用AI的经历总结了这几类常用场景,启发一下大家首先日常答疑解惑。

除了以上的技巧和案例,也有非常多场景可以用,

  • 说学习中的各种疑问提问,找工作的朋友还可以把面试的真题发给他用。
  • 信息收集总结类的,比如说分析一个行业,解读一个事件,资料汇总也很擅长。
  • 策划分析写周报、PPT方案合同。
  • 写作直播的话术稿件的大纲、邮件文案等等。
  • 娱乐,比如说就有很多人拿它算命算星座,无聊也可以单纯的跟R1聊一聊

作者:¥多多

]]>
OpenAI 突然公开 o3-mini 思维链 ? //m.clubpenjuin.com/363161.html Fri, 07 Feb 2025 06:27:37 +0000 //m.clubpenjuin.com/?p=363161

 

让我们再次感谢 DeepSeek

今天凌晨,OpenAI 宣布公开最新模型 o3-mini 系列模型的思维链。

简单来说,用户现在可以看到 o3-mini 以及 o3-mini(high) 的「思考」过程,更清晰地了解模型是如何推理并得出结论的。

OpenAI 研究科学家 Noam Brown 在 X 平台发文称:

「在 o1-Preview 发布前,我们向大家介绍 🍓 时,看到思维链(CoT)实时运行往往是他们的『顿悟』时刻,让他们意识到这将是一件大事。这些虽然不是原始的思维链,但已经非常接近了。我很高兴我们能与世界分享这一体验!」

随后,他进一步阐述道:「o3-mini 是首个能够持续准确解答井字棋问题的大语言模型。虽然概括后的思维链看起来有些混乱,但从右侧可以看到,模型最终还是成功找到了正确答案。」

公开了, 但也没完全公开。

据外媒 TechCrunch 报道,OpenAI 仍然不会完全公开 o3-mini 的完整推理步骤,但其表示已「找到一个平衡点」,o3-mini 现在可以「自由思考」,然后整理出更详细的推理摘要。

在此之前,出于竞争考虑,OpenAI 没有完全公开 o3-mini 及其前身(o1 和 o1-mini)的推理步骤,仅向用户提供推理摘要,甚至这些摘要有时并不准确。

并且,为了提高清晰度和安全性,OpenAI 还引入了一个额外的后处理步骤,模型会首先对「思维链」进行审查,剔除潜在的不安全内容,并对复杂概念进行适度简化。

报道援引 OpenAI 发言人解释称,「这一后处理步骤还支持非英语用户,确保他们可以用自己的母语查看『思维链』,让体验更加友好和易懂。」

实际上,推理透明度在 AI 领域正在成为一个重要的竞争点,让 AI 展示完整的推理步骤,不仅能提高用户信任度,还能让 AI 更容易被研究和改进。

不过,公开思维链可能会被竞争对手利用,比如通过蒸馏技术提取模型的推理逻辑,在上周 Reddit 的 AMA(Ask Me Anything)活动中,OpenAI 首席产品官 Kevin Weil 就曾表示:

我们正在努力展示比现在更多的推理过程——(这一变化)很快就会到来。是否展示完整的「思维链」仍未确定,因为这涉及竞争问题。但我们也知道用户(尤其是高级用户)希望看到更多细节,所以我们会找到合适的平衡点。

相比之下,DeekSeek R1 的思维链是无条件公开透明的,其深度思考过程更是赢得了不少网友的点赞。而 OpenAI 这次的「被迫」调整,显然是为了应对 DeepSeek 及其他 AI 公司的压力。

X 网友 @thegenioo 第一时间上手实测了这次思维链的更新。他表示,「新版本不仅提供了更流畅的用户界面,还让模型的思考过程更加透明。」

以下是 DeepSeek R1 与 OpenAI o3-mini(high) 在同一问题上的思考对比。

「deeepseeeeeek 有多少个 e」

DeepSeek R1

OpenAI o3-mini(high)

「假设有一个池塘,里面有无穷多的水。现有 2 个空水壶,容积分别为 5 升和 6 升。问题是如何只用这 2 个水壶从池塘里取得 3 升的水。」

DeepSeek R1

OpenAI o3-mini(high)

「一个人花 8 块钱买了一只鸡,9 块钱卖掉了,然后他觉得不划算,花 10 块钱又买回来了,11 块卖给另外一个人。问他赚了多少?」

DeepSeek R1

OpenAI o3-mini(high)

看完以上案例,我们会发现两个模型截然不同的「思维风格」。

DeepSeek R1 更像文科生,它的推理过程循序渐进,思路周密细腻,这样的好处是结果更可靠,也较少出现逻辑偏差。而 o3-mini(high) 更像理科生,推理过程简洁明快,直指问题核心。

这种差异也进一步反映在响应速度上,DeepSeek R1 的思考时间相对较长,而 o3-mini(high)则更快。

就答案而言,DeepSeek R1 的解答往往更加完整详实,比方说第一道测试题它还会特意加入了贴心的注解。相比之下, o3-mini(high) 则显得「公事公办」。

如开篇所说,此次 o3-mini 公布的并非完整版思维链,因此向公众开放后,也引发了不少质疑声。

面对争议,OpenAI CEO Sam Altman 也很快在 X 平台作出解释:「我们尝试整理原始的思维链,使其更易读,并在需要时进行翻译,但尽量保持其原始风格。」

不过,正如一位网友一针见血地指出:如果没有 DeepSeek,我们还能看到 o3-mini 哪怕是「阉割版」的思维链吗?恐怕答案不言自明。

作者:APPSO

来源:APPSO

]]>