一句话导读:今天的 AI 世界在发生什么?
如果要用一句话概括今天的格局:
基础模型从“卷分数”转向“卷效率和稳定性”,应用层从“试点探索”转向“明确印钞”,前沿研究则在加速把 AI 从屏幕里“搬进物理世界”。
- 上层:Mistral 3 用稀疏 MoE 打了一个漂亮的“效率战”,而 **DeepSeek-V3.2 **则用一个严重 bug 给所有人上了一堂“稳定性比分数更重要”的课;
- 应用层:亚马逊 Rufus 和 淘宝闪购 AI 找药+健康卡,已经把 AI 变成了实打实的营收引擎;
- 前沿:Neuralink + Optimus + AnyTalker + CoDA,在悄悄拼出一个具身智能的未来底座。
下面分三块:基础模型、商业化、具身智能,逐段拆开讲。
1. 基础模型竞赛:效率与可靠性的权衡之战
1.1 从“分数崇拜”到“效率为王”
过去两年,大模型圈的主旋律是: 谁在 benchmark 上分数高,谁就能上头条。
但这两个月你会发现,叙事在悄悄变了:
- 企业越来越关心:跑一百万次推理,要不要把云账单烧穿?
- 工程团队越来越在乎:能不能在真实生产流量下不疯、不崩、不乱冲 token?
Mistral 3 和 DeepSeek-V3.2,刚好代表了当下两条截然不同的路线:
- 一条是:在架构上直接把“效率”设计进去(Mistral 3 的 MoE)
- 一条是:靠激进的强化学习把性能“卷到天花板”(DeepSeek-V3.2),但换来的是潜在的稳定性地雷
可以说,这是一次非常典型的技术路线分叉现场教学。
1.2 Mistral 3:用高效架构重塑开源新标准
Mistral 3 系列发布,不只是“又出一个大模型”,而是一记精准打击:
1.2.1 技术核心:稀疏专家混合(MoE)
-
Mistral Large 3:总参数 6750 亿,但推理时只激活 410 亿参数
-
换句话讲:
“看起来很大,但用的时候只动那一小撮真正有用的专家。”
对于企业来说,这句话等价于:
- 同等能力,算力账单更低
- 每次调用的成本更可控,OpEx(运营支出)显著下降
1.2.2 商业策略:Apache 2.0 全量开源
更狠的是:
- 全系 Apache 2.0,包括旗舰大模型
- 这意味着:
- 可本地部署、可二次开发
- 没有“闭源 API + 高价 token”的锁死局 这对所有“闭源高价接口”的厂商来说,是一次正面价格与能力的双重挑战。
1.2.3 综合能力:多模态 + 多语言
- 原生支持 40+ 语言
- 支持图像理解、多模态对话
- 在 LMArena 等榜单上,开源非推理类模型中首发即拿到 前列位置
1.3 DeepSeek-V3.2:性能突破背后的稳定性危机
另一边,DeepSeek-V3.2 走的是完全不同的路:
1.3.1 性能目标:对标顶级闭源模型
- 目标是对标 Gemini-3.0-Pro 这样的闭源旗舰
- 在 IOI、IMO 等高难度竞赛上,确实拿出了金牌级别的成绩
- 技术上引入:
- 自研稀疏注意力(DSA)
- 大规模继续预训练
- 混合强化学习(Mixed RL),包括 GRPO 等激进优化手段 看起来非常“硬核研究范儿”,也确实把推理能力拉上去了一大截。
1.3.2 但问题来了:生产环境中出现了致命 bug
用户与开发者反馈的几个关键信号:
- 部署后出现**“疯狂 token 消耗”**:
- 推理过程无法正确收敛
- 思维链(
流)有时会一路暴走
- 开启 logprobs=True 时:
- 返回的置信度分布几乎全是 0 或 -9999
- top_logprobs 为空 这意味着什么?
所有依赖“模型置信度”做决策的系统——比如金融风控、医疗辅助决策、自动化 agent——统统没法安全使用。
归因上,很多分析认为:
- 激进的** GRPO / RL **优化 在推理策略层引入了极高的不稳定性
- 为了追求 leaderboard 顶分,把“稳定性债务”推给了生产环境
这就是文中说的:
企业用户不会用“运行风险”去补贴你的 benchmark 冠军。
1.4 一张对比表:两种技术路线的真实抉择
| 维度 | Mistral 3(MoE 路线) | DeepSeek-V3.2(激进 RL 路线) |
|---|---|---|
| 架构重点 | 稀疏专家混合,先把效率写进架构 | 稀疏注意力 + 强化学习,把性能卷到极致 |
| 目标能力 | 多模态、多语言的综合通用能力 | 推理/解题/Agent 的极致能力 |
| 授权模式 | Apache 2.0,全商业友好 | 开源,但稳定性存在明显争议 |
| 生产稳定性 | 目前表现为高,成本可预期 | 暴露出 Token 失控、logprob 异常等问题 |
| 经济价值核心 | 降低推理成本、提高单位算力产出 | 冲击 benchmark 排名与推理上限 |
结论很简单:
- 在“技术研究”和“商业落地”之间,
- Mistral 选了结构性降本与稳态输出,
- DeepSeek 选了性能极限与风险并存。
对工程团队和企业 CTO 来说,这基本已经是一个路线选择题。
2. AI 商业化:从潜力故事到真金白银
2.1 亚马逊 Rufus:AI 第一次被精确量化成“印钞机”
Rufus 是亚马逊自己 App 里的 AI 购物助手,看数据就知道它有多凶:
- Andy Jassy 公开预测:Rufus 每年将为亚马逊多带来 100 亿美元以上的额外销售额
- 使用 Rufus 的用户 vs. 没使用的用户:下单概率提升 60%
这已经不是“体验优化”或者“客服机器人”级别的东西,而是标准的:
自动化销售引擎(AI Sales Engine)
规模与压力测试
- 今年已有 2.5 亿 用户用过
- MAU 同比增长 140%
- 黑五当天:
- 使用 Rufus 的购物会话增长 85%
- 全站会话只涨了 16%
暴露出一个现实:
高并发、大促场景下,AI 助手不是掉链子,而是能把“购买决策路径”压到更短。
Rufus 直接改写了企业对 AI 的认知:
- 以前:AI 是 运营支出(OpEx),是“客服、提效、降本”
- 现在:Rufus 这样的 AI,已经是 资本性投入(CapEx):
- 前期是技术和算力投资
- 后面长期持续地“印钞” 对于所有电商平台和大零售来说,结论只有一句:
“不做 AI 购物助手,不是没尝试创新,而是主动放弃钱。”
2.2 淘宝闪购:AI 加速抢占即时医疗赛道
国内这边,阿里也在做一件非常类似但更垂直的事: 用 AI 搭一个“即时医疗入口”。
2.2.1 两个关键产品
- AI 找药
- 通义实验室提供底层模型
- 用户可以用症状描述、处方信息等方式,让 AI 帮忙匹配药品
- 关键是:一键串起“附近药店 + 30 分钟送达”
- 健康卡
- 嵌入 88VIP 体系
- 提供购药补贴、在线问诊、慢病管理等服务
- 用会员体系锁住高价值人群
核心竞争力:速度 + 准确 + 信任
- 在健康场景,用户最在乎的是:“快不快,准不准,我敢不敢信你?”
- 淘宝用:
- AI 匹配药品 → 解决“准不准”
- 即时配送 → 解决“快不快”
- 会员健康权益 → 解决“敢不敢信”
这一套下来,本质是在抢占:
“线下药店 + 互联网问诊 + 物流”三方交叉地带的那块高频、高复购的市场。
2.3 垂直玩家的突围:Gradium 与 AnuNeko
在巨头打主流赛道之外,还有两条有意思的支线:
Gradium:在通用语音模型时代“错位竞争”
- 背景:市面上已经有一堆通用语音大模型
- Gradium 的选择是:
- 不跟你卷“谁都能用一点”的场景
- 而是专攻:高保真、强情感、超稳定的 B 端语音场景
这类公司给我们的启示很明确:
通用大模型再强,也永远有一批“精度要求极高、出错成本极高”的垂直市场,留给专业模型去做。
AnuNeko:米哈游把 AI 当“游戏武器”而不是“贴图素材” 创始人把 AnuNeko 形容为:“攻击力强到没边的游戏版 ChatGPT”
这类产品的本质,是想做:
- 能主动制造“戏剧冲突”的 AI 角色
- 能动态推动剧情、引导玩家情绪的智能体
- 对游戏行业来说,这是一个明显的升级:
NPC 不再是“脚本+选项”的纸片人,而是能“吵架、试探、撩你、赌气”的 AI 角色。
3. 具身智能与数字孪生:AI 正在走出屏幕
3.1 Neuralink:从脑机接口到“用意念开机器人”
Neuralink 这条线,现在已经很明显超出了“医疗辅具”的范畴。
🧪** 临床进展:7 名受试者,高频使用**
- 目前已有 7 名人类参与者:
- 4 名脊髓损伤
- 3 名 ALS 患者
- 使用频率:
- 平均每周 50+ 小时
- 峰值甚至 100 小时+
🧠 核心资产:高保真“人类意图数据” 这么高频的使用,本质上在做一件事:
不断记录: “当一个人想做某件动作时,他的大脑到底在放什么电信号?”
这对机器人意味着:
- 不再需要通过“先动作、再采集、再拟合”的方式间接学习
- 而是可以直接学:“人类的运动规划是怎么想的”
🤖 最终目标:让人用意念控制 Optimus
马斯克已经很直接地说过:
未来的目标是: 用 Neuralink 直接控制 Tesla 的 Optimus 人形机器人
一旦这个闭环跑通,你会得到:
**人类意图 → Neuralink 采集 → 模型学习 → Optimus 执行 **
这是一个完整的具身智能训练与控制闭环。
3.2 AnyTalker & CoDA:给机器人搭建“高保真模拟世界”
脑机接口负责“拿到人类的意图”, 那机器人要学会如何在世界里行动,还需要“高质量模拟”。
这就是 AnyTalker 和 CoDA 出现的意义。
👥 AnyTalker:多人的自然对话生成
- 场景:
- 多个角色一起说话
- 表情、口型、肢体要协调
- 用处:
- 虚拟主播、多主持人节目
- 虚拟会议、游戏剧情演绎
- 模拟复杂社交环境
对训练智能体来说,这类系统可以生成大量:
多角色、多情感、多视角的社交互动数据。
✋ CoDA:人–手–物体的精细交互生成
- 专注:“人 + 手 + 物体”三者同时交互
- 解决的问题:
- 手怎么抓
- 物体怎么转
- 动作如何符合真实物理(摩擦、碰撞、重力)
这正是:
机器人“端杯子不洒”、“拧瓶盖不滑手” 这类灵巧操作(dexterous manipulation)的核心难点。
有了 CoDA,开发者可以:
大规模生成高质量、带精确动作标签的模拟视频和数据 在虚拟世界里把机器人“练熟”,再上真实环境
4. 写在最后:给不同角色的 5 条小结
4.1 对模型研发团队
别再只盯着 benchmark 榜单了
- 成本曲线、稳定性曲线、token 消耗分布,都应该变成一等公民指标。
架构级效率(MoE)会越来越重要
- 单纯靠 RL 把一个 dense 模型卷到极限,很可能是用长远的稳定性换短期的漂亮成绩。
4.2 对 AI 创业者 & 产品经理
尽量做“离钱近”的场景,能量化就能融资,Rufus 的 100 亿增量、淘宝闪购的 30 分钟送药,都是非常清晰的“收入故事”。
垂直挖掘依然有巨大空间
- Gradium、AnuNeko 证明:
- 在通用大模型之上,仍然有很多“高要求、低容错”的垂直市场可以做。
4.3 对投资人 & 决策者
筛项目时多问一句: “它是降本工具,还是直接增收引擎?”
降本向的 AI,未来会更卷价格;
直接能拉 GMV、提高转化、带订阅的 AI,会在估值上获得更高溢价。