一句话导语:今天的关键趋势
AI 正在从“快回应”走向“深思考”,同时算力与生态竞争全面升级:谷歌将高成本的高级推理打包为付费服务,开源阵营以高性能 MoE 持续内卷;平台层观察到“代理式推理”崛起并带来长上下文成本的现实压力;头部厂商通过并购加速训练栈垂直整合;国产 GPU 上市与智能终端涌现,标志价值兑现进入关键期。
1. 核心模型与能力突破:从“快回答”到“深思考”
1.1 谷歌 Gemini 3 Deep Think:付费深度推理时代开启
- 定位:面向复杂问题求解的“高级推理”能力,明确将“深思熟虑”作为 premium 服务。
- 接入限制:实验性产品,仅向 Google AI Ultra / Ultra for Business 订阅用户开放,且设使用次数限制。
- 体验特征:生成存在显著延迟,官方提示可能需要“几分钟”。通过异步通知减少等待摩擦。
- 战略含义:把高保真度、高计算成本的“深度推理”从免费响应中抽离,形成分层付费。差异化定价从“速度”转向“复杂度与质量”。
1.2 Mistral Large 3:开源 MoE 提升基线能力,压迫闭源顶层定价
- 架构亮点:稀疏混合专家(MoE),总参数 6750B、推理仅激活约 41B 专家,显著降低单位推理成本。
- 基准表现:LMArena 开源模型第 6;MMMLU 85.5;GPQA-Diamond 43.9,综合能力强。
- 许可策略:Apache 2.0 全量开源;可本地部署与二次开发,持续抬高“免费/低成本”能力的基准线。
- 市场对比:开源模型“商品化”高级基线推理,逼迫闭源在“最顶级、最独特”的付费能力(如 Deep Think)证明不可替代性。
小结:模型竞争正分化为“双主线”——顶层“深度推理”溢价 vs. 开源基线能力普惠。产品形态和商业模式同步分层。
2. 产业生态与战略布局:从垂直整合到应用入口
2.1 OpenRouter 百万亿 Token 报告:代理式推理(Agentic Inference)崛起
- 关键发现:用户从单轮问答转向包含规划、工具调用与多轮迭代的复杂工作流。
- 指标侧写:平均 Prompt 长度一年内增长近 4 倍(1500 → 6000+ Token),创意/角色扮演与编程为高占比场景。
- 基础设施影响:长上下文需求推高 VRAM 要求与推理成本,成为 GPU 投资的硬证据。长文本管理成为成本结构核心变量。
2.2 OpenAI 收购 Neptune:垂直整合训练技术栈,加速研发速度
- 交易概览:全股票交易,估值 < 4 亿美元;将实验跟踪/监控工具深度整合到训练栈。
- 战略目标:购买“研发速度”与“失败诊断能力”,缩短迭代周期,为后续资本市场动作夯实技术壁垒。
2.3 阿里通义千问 APP:从“对话”走向“为用户办事”,抢办公入口
- 路线升级:从聊天工具演进为任务处理平台,明确“AI 生活入口”定位。
- 重点场景:办公生态深度整合,挑战微软/谷歌生产力体系;依托阿里商业生态调度多种外部工具,谋求稳定的 TO-B/TO-C 入口。
小结:生态竞争焦点从“模型分数”转向“训练栈掌控 + 应用入口占领 + 长上下文的成本管控”。
3. 算力即国力:国产 GPU 龙头资本化
3.1 摩尔线程登陆科创板:国产全功能 GPU 第一股
- 市场首秀:开盘涨幅 468.78%,市值突破 3000 亿人民币;募资规模 80 亿元、流程 88 天高效推进。
- 技术差异化:自研 MUSA 统一系统架构,单芯片覆盖 AI 计算、图形渲染、物理仿真、视频处理的全能加速。
- 远景规划:建设用于万亿参数训练的 KUAE 智能计算集群,支撑具身智能、数字孪生与物理 AI 的统一算力需求。
小结:资本市场为核心硬件技术自主与算力主权给出“战略溢价”,算力已成为地缘竞争的关键资源。
4. AI 走入现实:智能终端与交互体验革新
4.1 戴森“真 AI 清洁机器人”:感知–识别–适应–行动的闭环
- 传感器与处理:高清摄像头、LiDAR 双线雷达、光学检测;内置 AI 处理器每秒处理万亿级信息。
- 关键能力:识别近 200 种家居物品与多类污渍,能“监控清洁效果并必要时重复清洁”,从路径规划升级为目标驱动闭环。
4.2 微软 VibeVoice Realtime 0.5B:亚秒级实时 TTS
- 指标突破:首音生成约 300ms,达到自然对话感知阈值。
- 轻量部署:0.5B 参数,适合多端大规模落地(虚拟助手、同声传译、无障碍)。
- 行业意义:延迟瓶颈破解,为实时语音交互的普及提供“基础组件”。
4.3 可灵数字人 2.0:从“会说”到“会演”
- 表达进化:强调情感合成与非语言表达(微表情、姿态),可在客服、营销、虚拟陪伴中显著提升参与度与信任感。
小结:终端产品从“能说会答”走向“会感知、会行动、会表达”,AI 与物理世界与情感表达的结合加速落地。
5. 给不同角色的简明建议
5.1 模型与架构团队
- 在 benchmark 之外,将“推理成本曲线/稳定性曲线/上下文长度分布”列为一等公民指标。
- 使用架构级效率(MoE 等)与工程治理(长上下文控制),避免单纯依赖激进优化导致稳定性债务。
5.2 产品与创业者
- 贴近“可量化收入”的场景:能拉 GMV、提高转化、绑定订阅,更易获得融资与估值溢价。
- 在通用模型之上,深挖“高精度、低容错”的垂直市场(医疗、金融风控、语音情感等)。
5.3 投资人与决策者
- 多问一句:这是降本工具还是直接增收引擎?降本型更卷价格,增收型更具估值弹性。
- 在算力侧关注“长上下文 + VRAM 成本”的供需匹配,以及国产 GPU 与集群的加速建设。