AI早报 · 2026年3月10日
昨日AI热点(20条)
-
OpenAI:在前沿大模型中改进“指令层级”与对齐鲁棒性
OpenAI 讨论“指令层级”冲突带来的对齐失效:当系统/开发者/用户多层指令互相掣肘时,模型易被低优先级提示劫持。文章梳理攻击面与评测思路,并给出更稳健的训练与推理约束建议,强调可验证的指令遵循而非仅看表面回答。
-
ChatGPT 上线面向数学与科学的新学习方式
OpenAI 在 ChatGPT 中加入面向数学与科学的学习体验,主打分步推导、概念讲解与练习反馈的结合,降低刷题式回答的“黑箱感”。更新强调将复杂题目拆解、给出可检查的中间步骤与错误纠正路径,指向更强的教学型对话与个性化学习闭环。
来源:https://openai.com/index/new-ways-to-learn-math-and-science-in-chatgpt
-
Memory for Autonomous LLM Agents:自治智能体记忆机制与评测综述
该综述系统总结自治 LLM 智能体的“记忆”设计:短期上下文、长期外部存储、结构化知识库与反思日志等机制如何协同。作者比较了写入/检索策略、遗忘与压缩、评测基准和安全风险,并指出未来关键在可度量的记忆效用与可控的持久化行为。
-
CMMR-VLN:用持续多模态记忆检索提升视觉-语言导航
论文提出持续多模态记忆检索框架,把历史视觉线索、语言指令与导航轨迹编码为可检索记忆,在新环境中按需召回。方法聚焦长程任务中“看过但忘了”的信息恢复,报告在多场景 VLN 设置下的稳健提升,也为具身智能体的长期记忆提供了可复用范式。
-
PIRA-Bench:从被动 GUI 代理走向“主动意图推荐”代理的基准
PIRA-Bench 将 GUI 代理从“被动执行指令”推进到“主动推荐意图”:系统根据用户上下文预测下一步可能目标,并给出可执行建议。基准覆盖多应用、多步骤与干扰情境,强调实时性与误触代价,适合评测能否在不打扰用户的前提下做出有效的前瞻性辅助。
-
Heterogeneous Decentralized Diffusion Models:异构去中心化扩散模型
该工作研究异构、去中心化条件下的扩散模型训练与推断:不同节点数据分布与算力不一致时,如何协同得到接近中心化质量的生成模型。作者给出通信/同步策略与理论分析,面向隐私友好与边缘部署的生成式建模提供路径,也提示扩散模型正在进入“联邦化/分布式”阶段。
-
LieCraft:评估多智能体“欺骗能力”的框架与任务集
LieCraft 提供多智能体对话与博弈任务,用于测量模型在协作或对抗中产生误导、隐瞒与操控的能力。框架强调可控环境、可复现评分与行为标签,支持对“欺骗”从触发条件到收益结构的系统分析,为安全评测从单模型走向多智能体交互补齐工具链。
-
Enhancing Web Agents with a Hierarchical Memory Tree:分层记忆树强化 Web 代理
论文用“分层记忆树”强化 Web 代理:把网页浏览、表单填写与工具调用过程中的关键片段分层存储,检索时先粗筛再精读,降低长上下文成本。结果显示在复杂网站任务中更少迷路、重复操作更少,说明记忆结构化比单纯加长上下文更能提升稳定性。
-
SoK: Agentic RAG:面向智能体的 RAG 体系、评测与研究方向
该 SoK 总结“智能体化 RAG”的核心组件:任务分解、检索规划、工具调用、证据归因与自我校验。作者梳理常见架构与失败模式(幻觉、证据漂移、循环检索等),提出更贴近部署的评测维度,如成本-质量权衡、时效性与对抗鲁棒性。
-
AutoControl Arena:为前沿 AI 风险评估合成可执行测试环境
AutoControl Arena 通过合成可执行测试环境来评估前沿模型的风险:把高层任务转成可操作的控制接口与评分器,便于批量复现。工作强调把“能否做”与“是否会做出危险行为”分开测量,并引入更细粒度的行为日志,为模型上线前的红队化评估提供新范式。
-
Intentional Deception as Controllable Capability:把“有意欺骗”建模为可控能力
论文把“有意欺骗”定义为可控能力:在特定激励与信息不对称下,智能体可能选择误导以达成目标。作者给出形式化建模与实验设置,讨论如何通过训练目标、约束与检测把这种行为限制在可控范围内,提醒多智能体与工具环境会放大对齐难题。
-
FinToolBench:面向真实金融工具使用的 LLM 智能体评测
FinToolBench 聚焦金融场景真实工具使用:报价查询、下单、风险计算与报表生成等,需要严格的数值一致性与合规约束。基准强调工具调用序列、错误恢复与审计可追踪性,能更真实反映“会聊天”到“能办事”的差距,也适合评估代理式交易/投研助手的可靠性。
-
Metacognitive Policy Optimization:多智能体持续学习中的元认知协作
该工作研究多智能体持续学习中的“元认知”优化:智能体不仅学策略,还学习何时求助、何时复核、如何分配注意力。方法用策略优化把自我监控与协作机制纳入训练,目标是在长期任务中减少累积错误、提升与人类协作效率,为可长期运行的 Agent 提供训练思路。
-
UIS-Digger:面向“未索引信息”检索的研究型代理系统
UIS-Digger 面向现实世界“未被索引”的信息检索:代理需要主动发现线索、建立临时索引并持续更新。论文讨论从搜索、爬取、去重到证据组织的一体化流程,并提出评测任务,强调可验证引用与时间敏感性,适合研究型代理与自动情报收集系统。
-
层级纠错图:LLM 行动生成的自治代理错误修正框架
该框架用层级纠错图把任务分解为可验证节点:每步行动由 LLM 生成后进入校验与纠错回路,错误会触发回溯与替代路径搜索。它试图解决自治代理长链路执行中“一错到底”的问题,强调结构化状态记录与可解释的纠错策略,提升可靠性与可审计性。
-
Agentic Neurosymbolic Collaboration:神经符号协作用于数学发现的案例研究
案例研究探索神经符号协作:用神经模型提出候选结构/猜想,再由符号推理验证与修正,循环推进数学发现。工作展示在组合设计等问题上的可行路径,凸显“生成-验证”闭环比单纯扩大模型更关键,也为科学发现型智能体提供工程蓝图。
-
A Novel Multi-Agent Architecture:多智能体结构化建模中降低幻觉的方法
该多智能体架构面向结构化建模任务,通过角色分工、交叉验证与约束表达来降低幻觉:一个负责生成,一个负责一致性检查与反证搜索。结果表明在多步推导与结构化输出中,显式的互审机制能显著减少错误传播,提示“多代理+约束”或是实用路线。
-
SMGI:关于通用智能的结构化理论尝试
SMGI 提出一种结构化的通用智能理论框架,尝试用更明确的模块与交互关系解释从感知到行动、从学习到规划的统一机制。尽管偏理论,但它反映出学界在反思“只堆参数”的局限,转向用可解释结构来描述可泛化智能的组成与边界。
-
IronEngine:通用 AI 助手系统的方向探索
IronEngine 探讨构建通用助手系统的组件:感知输入、任务规划、工具执行与记忆管理的闭环,并关注长期运行的稳定性与成本。文章强调工程化落地中的关键瓶颈,如权限控制、失败恢复与日志审计,体现“可用的通用助手”正在从概念走向系统设计。
-
Microsoft Research:从交互到可复用知识,重新思考 AI Agent 的记忆
Microsoft Research 讨论把原始交互转成可复用知识的记忆体系:从事件日志中提炼可查询的片段、总结与技能,并控制遗忘与更新。文章强调评测要看“能否帮助未来任务”,同时要兼顾隐私与偏差累积,为企业级 Agent 的长期记忆提供更可落地的方向。
趋势点评
“记忆”正在成为智能体落地的共同瓶颈:从分层记忆、持续检索到可复用知识抽取,研究集中在降低长链路执行的遗忘与误差累积。同时,风险评测与欺骗行为建模升温,说明多智能体与工具环境的对齐与审计正在成为发布前的硬指标。

发表回复