AI早报 · 2026年3月25日

日期:2026年3月25日(Asia/Shanghai)

  1. OpenAI 公开解读 Model Spec,强调安全、用户自由与问责的平衡

    OpenAI 发布对 Model Spec 的进一步说明,把模型行为规范公开化,试图在安全边界、用户可控性与平台问责之间建立更清晰的取舍框架。核心信号是:随着模型能力增强,厂商开始把“模型该如何回答”从隐性策略转向可讨论、可审视、可迭代的公开治理机制。

    来源链接

  2. Google Research 推出 XR Blocks + Gemini,加速 AI 与 XR 原型开发

    Google Research 介绍 Vibe Coding XR,结合 XR Blocks 与 Gemini,降低 AI+XR 应用的原型门槛。其意义不只是做演示更快,而是让自然语言、空间交互与多模态生成更紧密结合,帮助开发者快速试验沉浸式界面、智能助手和 3D 交互流程。

    来源链接

  3. NVIDIA 讨论“可灵活调度”的 AI 工厂,强调与电网协同

    NVIDIA 提出 AI 工厂应具备按电网负荷灵活调度算力的能力,在高峰期降载、低谷期加速,从而缓解大规模 AI 基础设施对电力系统的冲击。这个话题说明算力竞争已不再只是芯片和模型之争,能源调度、基础设施韧性与运营成本正在成为下一阶段核心变量。

    来源链接

  4. Meta 将生成式 AI 引入 Instagram 和 Facebook 购物体验

    Meta 开始用生成式 AI 为其应用内购物场景补充商品与品牌信息,帮助用户更快理解产品特点并缩短决策路径。对平台而言,这意味着 AI 正从内容推荐和广告优化延伸到交易环节,目标是把“种草—比较—购买”链路做得更短、更个性化,也更容易转化。

    来源链接

  5. Meta 发起新计划,推动创业与 AI 采用

    Meta 宣布新 initiative,继续围绕中小企业和创业者扩展其平台能力,并把 AI 采用作为增长重点。关键信号在于,大厂不再把 AI 只视为前沿实验,而是把它包装成普惠型商业基础设施,希望让更多商家在营销、客服、内容生产和运营层面形成对平台的更深依赖。

    来源链接

  6. Harvey 确认 110 亿美元估值,AI 法律科技热度继续抬升

    AI 法律科技公司 Harvey 确认约 110 亿美元估值,Sequoia 等老股东继续加码,显示垂直行业 AI 平台仍然得到顶级资本强力追捧。市场看重的不只是通用模型能力,而是能否在高价值专业流程中形成稳定工作流、企业采购黏性和可持续收费模式。

    来源链接

  7. Granola 融资 1.25 亿美元,估值升至 15 亿美元

    会议笔记工具 Granola 宣布融资 1.25 亿美元,估值较此前大幅跃升,并继续从单点记录工具向企业级 AI 应用扩展。它反映出一个清晰趋势:看似简单的“会议助手”赛道正在升级为协作入口,谁能从记录走向行动编排、知识沉淀与代理执行,谁就更容易拿到高估值。

    来源链接

  8. MIT 展示可用人体动作控制机器人手的腕带系统

    MIT 报道一种腕带式接口,用户通过手与手指动作即可控制机器人手完成弹琴、投篮等动作,也能操控虚拟环境对象。该方向把肌电/动作识别、机器人控制与沉浸式交互连接起来,说明人机接口正在从“下命令”走向更自然的动作映射,为康复、远程操作和 XR 提供新入口。

    来源链接

  9. 论文:前沿模型常出现“展示推理但并未真正依赖推理”的现象

    论文提出逐步删除思维链句子的评估方法,发现不少前沿模型即使写出详细推理,删除其中任一步后答案也常常不变,说明部分“推理”更像事后装饰而非真正决策依据。这对思维链可信度、可解释性评估和产品侧“展示过程即可靠”的假设都构成直接挑战。

    来源链接

  10. 论文:LLM 在约束优化任务上仍明显失灵

    研究者用最优潮流等带物理和运营约束的问题测试 LLM,发现即便是推理模型,在复杂结构化约束下依然大面积失败。结果说明,通用语言能力并不自动等价于可用的工程优化能力;若要进入电力、制造、物流等强约束行业,模型还需要更强的结构化表示与外部求解协同。

    来源链接

  11. 论文:TriageFuzz 提升 LLM 越狱模糊测试的查询效率

    这篇工作指出,并非所有 token 对触发拒答都同样关键,进而提出 TriageFuzz,用代理模型估计 token 对拒答行为的贡献,把攻击集中到更敏感区域。其意义在于帮助安全团队更高效地评估模型脆弱点,也再次提醒业界:防越狱不能只靠表面规则,还要理解模型内部脆弱结构。

    来源链接

  12. 论文:Activation Watermarking 可增强 LLM 安全监控鲁棒性

    研究把鲁棒监控建模为攻防博弈,指出现有监控机制在面对知晓规则的自适应攻击者时较脆弱,并提出 activation watermarking 方案,用带密钥的不确定性干扰攻击者绕过检测。实验显示其在低误报前提下优于多种基线,为“模型使用中实时监控”提供了更偏工程落地的方向。

    来源链接

  13. 论文:MemCollab 尝试让不同 Agent 共享“去风格化”记忆

    MemCollab 关注多 Agent 协作中的记忆共享问题,指出把某个模型的经验直接迁移给另一模型往往会混入特定风格和偏差。作者通过对比不同 Agent 的推理轨迹,提炼更抽象的任务级约束,并结合任务感知检索,在数学和代码任务上同时提升准确率与推理效率。

    来源链接

  14. 论文:Agent 化包装未必总能提升 Verilog 代码生成

    这项研究系统评测了 Agent 框架对 Verilog 生成任务的影响,发现简单把前沿模型外包一层工具调用并不一定更好,甚至可能比优化过的直接提示更差。但结构化 harness 仍有机会追平甚至超过非 Agent 基线,说明“Agent 化”真正的壁垒在流程设计、工具解释与失败恢复,而不是套壳本身。

    来源链接

  15. 论文:FIPO 通过更细粒度奖励分配提升深度推理

    FIPO 针对传统结果奖励把同一优势值平均分给整条轨迹的问题,引入面向未来影响的 KL 信号,为关键 token 分配更密集、更细粒度的学习驱动。实验显示其能显著拉长推理链并提升数学表现,说明下一轮推理强化学习竞争,重点正从“有没有 RL”转向“如何做更有效的 credit assignment”。

    来源链接

  16. 论文:MKA 为长上下文推理提出分层记忆注意力

    MKA 把 KV 缓存拆分为局部、会话和长期多级记忆,并动态路由注意力,以缓解长上下文训练和推理的成本瓶颈。其广播融合变体 FastMKA 在维持相近困惑度的同时,取得更高训练吞吐和更低延迟。对于需要长会话、长期记忆或工具历史堆叠的系统,这类注意力设计非常实用。

    来源链接

  17. 论文:mSFT 针对多任务 SFT 的异步过拟合问题给出新策略

    mSFT 指出多任务监督微调常用统一计算预算,但不同子数据集学习速度并不一致,导致快任务先过拟合、慢任务仍未学够。作者据此提出迭代式搜索策略,动态排除已过拟合数据并回退到更优检查点,结果在多模型多基准上稳定优于基线,也意味着数据配比和训练日程仍有大量可挖空间。

    来源链接

  18. 论文:RLVR 带来的收益可能只来自少量关键 token

    这篇研究从 token 级别分析 RLVR 微调后的分布变化,发现真正发生明显偏移的 token 比例很小,但对最终推理表现却至关重要。实验甚至表明,只插入少量 RL 采样 token 就能部分恢复性能,而替换掉少量关键 token 又会使表现塌缩,给推理强化学习的可解释分析提供了新抓手。

    来源链接

  19. 论文:ILSE 挖掘中间层信息,让小模型更接近大模型表现

    ILSE 不再只依赖最后一层表征做预测,而是利用结构化编码器整合多层内部表示,在多项分类和语义相似任务上取得明显增益。研究再次印证:中间层蕴含的任务相关信息远未被充分利用。若该路线成熟,未来不少场景或许能通过更聪明的表示读取,在不增大模型的前提下榨出更多性能。

    来源链接

  20. 论文:MUNKEY 主张“为可遗忘而训练”,提升机器遗忘可部署性

    MUNKEY 把机器遗忘从事后修补转向事前设计,通过将样本级记忆与模型权重解耦,使删除对应 key 就能执行零样本遗忘,无需重新访问原始训练数据或再做权重更新。这种思路更贴近隐私合规和真实部署需求,也提示未来模型架构可能需要把“记住”和“忘掉”一起设计。

    来源链接

趋势点评

昨天的 AI 叙事很集中:一边是 OpenAI、Google、Meta、NVIDIA 把治理、交互、商业化和基础设施继续往前推;另一边,论文端明显转向“推理是否真实”“训练信号如何分配”“记忆与安全如何工程化”。行业正在从单纯比模型分数,转向比系统可靠性与落地效率。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注