AI早报 · 2026年3月2日

今天整理的是 2026 年 3 月 2 日(昨日)AI 领域值得关注的 20 条动态,按重要性排序。

热点速递(20条)

  1. OpenAI 与五角大楼“折中方案”引发争议(MIT Technology Review)

    摘要:报道梳理 OpenAI 允许美军在机密环境使用其技术的交易细节,并指出公司在对外表述中强调“限制与合规”。文章认为这类国防合作会加速 AI 进入敏感场景,也会加大透明度、治理边界与竞争叙事的冲突,成为行业长期争议点;后续对军民界线与审计机制的争论预计会持续升温。

    来源链接

  2. 伦敦出现大型反 AI 抗议:反“内容垃圾化”与就业焦虑升温(MIT Technology Review)

    摘要:作者现场记录伦敦科技园区周边的反 AI 游行,诉求集中在生成内容泛滥、版权与创作者生计、自动化对岗位的挤压等。文章显示社会层面的“反弹”正从线上争论转向线下组织化行动,企业沟通与监管议程可能因此更快收紧;也反映公众对治理缺位与权利分配的不信任正在累积。

    来源链接

  3. PseudoAct:用“伪代码规划”降低 LLM Agent 的冗余工具调用与成本(arXiv:2602.23668)

    摘要:论文提出让 Agent 先生成可执行的伪代码计划,再按计划调度工具与控制分支/循环,从而减少 ReAct 式“边想边做”带来的重复调用与不稳定推理。作者强调该框架更适合长链路、多工具协同任务,并能在计算预算下更好地权衡质量与代价,降低 token 开销与执行抖动。

    来源链接

  4. HumanMCP:面向 MCP 工具生态的“类人查询”评测数据集(arXiv:2602.23367)

    摘要:研究指出现有工具检索/调用基准往往缺少真实用户的表达差异,导致泛化被高估。HumanMCP 尝试用大规模、类人化的请求语句来评测 MCP 服务器工具检索表现,帮助定位“描述相似但意图不同”这类易错点,为工具路由与生态可靠性提供更贴近实战的度量。

    来源链接

  5. “只用关键词检索也够了”:无需向量库也能逼近 RAG 效果(arXiv:2602.23368)

    摘要:论文质疑向量数据库与语义检索在某些 RAG 场景的增益,提出用 Agent 驱动的关键词检索与多轮工具使用,在文档内进行更可控的查找与校验。结论指向一个趋势:在成本、可运维性与可解释性优先的企业场景,轻量检索+Agent 可能成为更现实的方案,也更便于做权限隔离与可审计检索日志。

    来源链接

  6. LemmaBench:把“最新数学论文结论”变成可更新的 LLM 数学能力基准(arXiv:2602.24173)

    摘要:作者不再依赖静态竞赛题,而是从 arXiv 自动抽取定理/引理并改写为自包含命题,用于评估模型在研究级数学上的理解与推理。该思路让基准能随前沿进展持续更新,也更能暴露模型在定义补全、假设条件与严谨性上的短板,为“可持续评测”提供新范式。

    来源链接

  7. DARE-bench:面向数据科学多步骤任务的“过程一致性”评测(arXiv:2602.24288)

    摘要:论文认为现有基准难以同时衡量指令遵循与建模过程质量,导致模型在复杂数据科学任务中的“看似会做但过程偏航”。DARE-bench 强调过程感知评估与更可靠标注数据,帮助比较不同模型/提示策略在建模选择、验证与复现实践上的稳定度,并减少“答案对但方法错”的漏检。

    来源链接

  8. ODAR:用“主动推断”做推理算力的自适应路由,减少过度思考(arXiv:2602.23681)

    摘要:研究将推理从“统一 best-of-N”转向按难度动态分配计算预算,通过难度估计与路由策略在准确率与成本间做更可解释的折中。它试图解决推理扩算力常见的边际收益递减与不可控开销问题,对部署侧的吞吐、延迟与预算管理更友好,并减少简单问题被“过度思考”浪费算力。

    来源链接

  9. CHIEF:把多智能体执行日志从“平铺文本”升级为因果图的故障归因(arXiv:2602.23701)

    摘要:论文指出多智能体系统失败往往不是单步错误,而是跨角色、跨阶段的因果链。CHIEF 试图从层级结构上重建因果关系,提升可观测性与责任边界清晰度,减少只靠提示重放或微调带来的成本。对企业落地而言,这是让 Agent 系统“可诊断、可运维”的关键方向。

    来源链接

  10. ProductResearch:用多智能体合成长链路轨迹,训练电商深度研究型购物 Agent(arXiv:2602.23716)

    摘要:作者认为通用 Deep Research 迁移到电商会遇到领域差距与交互深度不足,提出用多智能体生成高保真、长时序的工具使用轨迹,再进行蒸馏训练。该路线把“能搜索”推进到“能比较、能取舍、能解释”的购买研究流程,指向垂直场景 Agent 的规模化数据方案,并强调对价格、口碑与参数冲突的综合决策。

    来源链接

  11. RUMAD:用强化学习动态控制“多智能体辩论”的通信拓扑(arXiv:2602.23864)

    摘要:研究尝试同时兼顾辩论准确率、共识形成与计算效率,避免固定拓扑的僵化,也避免外部协调者引入“特权信息”。RUMAD 将通信结构控制建模为可学习策略,按任务复杂度动态调整互动方式,为多 Agent 协同推理提供更系统的优化框架;同时也为评估“辩论是否真的提升质量”提供更可控的对照变量。

    来源链接

  12. RF-Agent:用语言智能体树搜索自动设计控制任务奖励函数(arXiv:2602.23876)

    摘要:奖励函数设计长期依赖专家经验,近期方法用 LLM 生成密集奖励但搜索效率有限。RF-Agent 用树搜索更充分利用历史反馈,提升在复杂控制任务中探索奖励形状的效率与质量。若该范式成熟,将降低强化学习落地门槛,特别是在机器人与仿真控制领域。

    来源链接

  13. Minimal Agent 定理证明:用“极简架构”做可比对的自动证明基线(arXiv:2602.24273)

    摘要:论文提出一个最小化的定理证明 Agent 设计,保留迭代改进、库检索与上下文管理等核心能力,用于对不同模型与设计选择做系统比较。意义在于把“越来越复杂的系统工程”拉回可复现的对照实验,有助于社区识别真正有效的组件与训练信号,并降低结果不可复现带来的争议。

    来源链接

  14. MPU:在“双重不披露”约束下做 LLM 知识遗忘与隐私保护(arXiv:2602.23798)

    摘要:机器遗忘常受限于服务端不愿公开参数、客户端不愿共享需遗忘数据。MPU 提出通过多份扰动副本与聚合更新来满足双方不披露约束,试图兼顾可用性与隐私。随着合规要求提升,如何低成本验证“确实忘了”将成为模型治理的重要能力,并直接影响审计、合规与数据权利响应速度。

    来源链接

  15. 表示擦除+偏好优化:更“难被逆向恢复”的 LLM 去毒化方法(arXiv:2602.23391)

    摘要:论文指出仅靠 DPO/NPO 等偏好优化可能留下“有害方向”表征,易被对抗提示或再训练恢复。作者提出结合表示层面的擦除机制,目标是让去毒化更深入、更稳健。该工作反映出安全对抗正从输出层规则走向表征与训练动力学层面,并强调需要更强的红队测试来验证“难以被复原”的实效。

    来源链接

  16. FlexGuard:用连续风险评分适配“不同平台不同严苛度”的内容审核(arXiv:2602.23636)

    摘要:研究认为把审核当二分类会在平台规则变动时变得脆弱,提出用连续风险分数来表达不确定性,并配套 strictness-adaptive 的评测基准 FlexBench。对产品侧而言,这有助于把审核策略从“统一开关”升级为可调参、可审计、可渐进上线的风控体系,也便于按地区与业务线逐步调严而不必频繁重训模型。

    来源链接

  17. UMPIRE:无需训练的多模态 LLM 不确定性度量,辅助可靠部署(arXiv:2602.24195)

    摘要:多模态模型常出现“看似合理但错误”的回答,论文提出训练外、跨模态可用的不确定性指标,通过语义体积与不一致性校正来估计置信度。它面向实际系统的分流策略:高风险问题自动升级到人工或更强模型,减少幻觉带来的业务损失,并可用阈值化策略在成本与风险间做精细调参。

    来源链接

  18. 用推理链做域泛化:把多模态 LLM 的推理能力引入 DomainBed(arXiv:2602.23777)

    摘要:论文不只追求视觉特征不变性,而是让多模态 LLM 生成推理链来支撑分类决策,以提升跨域鲁棒性。作者还构建 DomainBed-Reasoning 扩展数据集用于系统研究。该方向提示:在分布漂移场景,显式推理过程可能比纯表征对齐更可控、更可解释,也更利于定位“错在何处”以便做数据与策略修补。

    来源链接

  19. 医疗多模态到底何时有用?EHR + 胸片融合的系统性基准(arXiv:2602.23614)

    摘要:研究在标准化队列上比较 EHR 与胸片融合的收益,重点考察缺失模态、鲁棒性与公平性约束下的表现差异。结论旨在回答“融合是否真的提升临床预测、哪种融合更稳”这类落地问题,为医疗 AI 从论文指标走向真实流程提供更清晰的证据链,并提醒在模态缺失时要避免因补全策略引入新的偏差。

    来源链接

  20. SPRIG:线性时间、CPU-only 的 GraphRAG,多跳检索更“平民化”(arXiv:2602.23372)

    摘要:论文提出用轻量 NER 共现图替代昂贵的 LLM 造图,再用个性化 PageRank 做传播检索,目标是在 CPU 上以线性复杂度实现可用的多跳召回。它强调工程可落地:降低 GPU 依赖与成本,让结构化检索不再只属于重投入团队;同时也给出了在召回率、噪声与延迟之间如何做权衡的经验性结论。

    来源链接

趋势点评

一边是国防合作与社会抗议把“AI 治理与边界”推到台前,另一边学术界正集中攻克 Agent 的规划控制、可诊断性与可评测性。值得注意的是,低成本可运维(CPU-only、无向量库、动态算力路由)开始成为研究卖点,说明产业落地已从“能不能做”转向“值不值得、好不好管”。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注