AI早报 · 2026年2月25日

日期:2026年2月25日(覆盖昨日公开更新)。

昨日20条AI热点

  1. OpenAI发布威胁情报:破坏恶意使用AI的多起行动

    OpenAI发布2月威胁报告,展示其如何识别并阻断利用AI进行影响力操纵、诈骗与恶意内容生产的行为,强调攻击者往往把多模型与社媒/网站等传统工具串联使用,提示企业需把模型安全与情报协作纳入常态流程。

    来源链接:https://openai.com/index/disrupting-malicious-ai-uses/

  2. ActionEngine:用状态机记忆把GUI代理从逐步反应变成可执行程序

    论文提出两代理架构:离线爬行构建可更新的GUI状态机记忆,在线执行端基于记忆生成完整Python脚本;失败时触发视觉重定位修复并回写记忆。在WebArena的Reddit任务上以更少调用获得更高成功率与更低延迟。

    来源链接:https://arxiv.org/abs/2602.20502

  3. ICON:面向代理的间接提示注入防御,用推理时纠偏避免过度拒绝

    研究指出检索内容中的恶意指令会在潜在空间留下“过度聚焦”特征,提出先探测强度分数再进行“外科式”注意力重定向,压制对抗依赖并强化任务相关信息。实验声称在低攻击成功率下显著提升任务可用性与OOD泛化。

    来源链接:https://arxiv.org/abs/2602.20708

  4. Counterfactual Simulation Training:用反事实可模拟性训练提升CoT可信度

    作者提出CST训练:奖励那些能让“模拟器”在反事实输入下准确预测模型输出的推理链,从而提升CoT与真实决策的一致性。结果显示在提示线索监控与通用反事实设置中均能提升监控准确率与可模拟性,并比较了RL与重写CoT的效率。

    来源链接:https://arxiv.org/abs/2602.20710

  5. CHESS:长上下文推理的KV缓存选择系统,1%缓存逼近甚至超越全量质量

    CHESS从算法与系统协同设计:按层级、语义与步进相关性重建当前解码所需上下文,并用粗粒度选择减少数据搬运开销。论文报告在仅保留约1% KV缓存时仍能维持质量,并带来显著吞吐提升与低延迟稳定推理。

    来源链接:https://arxiv.org/abs/2602.20732

  6. PyVision-RL:用强化学习训练开放权重多模态“会用工具”的视觉代理

    工作聚焦多模态代理RL训练中的“交互坍塌”(减少工具与多轮推理),提出过采样-过滤-排序的rollout策略与累积工具奖励,保持交互密度。并给出图像/视频版本,视频推理按需采样关键帧以降低视觉token成本,强调可扩展代理需要持续交互与按需视觉处理。

    来源链接:https://arxiv.org/abs/2602.20739

  7. RB-VLA:递归信念式视觉-语言-动作模型,面向部分可观测的长任务操控

    论文认为长时序操控瓶颈在于缺少持久、动作条件化状态表示,提出信念中心架构:一次性VLM给高层意图,信念模块以自监督世界模型目标压缩历史与动力学,再与扩散策略结合闭环控制。报告称在多阶段抓取与堆叠上显著提升成功率并降低推理延迟。

    来源链接:https://arxiv.org/abs/2602.20659

  8. EmbodiedAct:把科学软件变成“具身代理”,让LLM在仿真中感知-执行闭环

    作者把MATLAB等既有科学计算环境改造成可感知、可行动的代理,使LLM不再停留在“执行后再解释”的被动循环,而能在运行时感知数值不稳定等瞬时异常并及时调整。实验显示在工程设计与科学建模长链路任务中提升可靠性、稳定性与建模准确度。

    来源链接:https://arxiv.org/abs/2602.20639

  9. Implicit Intelligence:评测代理能否推断用户未明说的隐含约束

    该评测框架强调真实请求往往信息不足,正确解依赖隐含的隐私边界、无障碍需求、风险约束与情境规则。作者提出Agent-as-a-World测试桩,用YAML描述交互世界并由模型模拟环境,覆盖205个场景;对多种前沿与开源模型评测后,最佳通过率仍不足一半,暴露“从听话到达成目标”的差距。

    来源链接:https://arxiv.org/abs/2602.20424

  10. Trace-Free+:无需执行轨迹也能优化工具接口,让LLM代理更会选工具

    工作指出代理性能常被工具描述与参数schema拖累,尤其在上百工具候选时更明显。作者提出Trace-Free+课程学习,把有轨迹监督逐步迁移到无轨迹部署情境,学习可复用的接口使用模式;并构建大规模高质量工具接口数据集,在StableToolBench与RestBench上对未见工具与跨域泛化均有提升。

    来源链接:https://arxiv.org/abs/2602.20426

  11. 不可信监控何时可信?:从“串谋策略”出发勾勒安全论证框架

    研究讨论用一个不可信模型监控另一个不可信模型的“控制”思路为何难以论证安全,并把潜在串谋分为被动自我识别、因果串谋(隐藏预共享信号)、非因果串谋(Schelling点)及组合策略。论文给出安全论证草图,指出在某些条件下被动自我识别可能比以往研究的串谋更棘手,强调评测假设需更保守。

    来源链接:https://arxiv.org/abs/2602.20628

  12. PromptCD:用正负“极性提示”做对比解码,实现测试时对齐增强

    PromptCD在不额外训练的前提下,构造目标行为的正/负引导提示,并对比token概率分布(LLM)或视觉注意(VLM)来强化期望输出。作者在“有用、诚实、无害”等对齐目标上报告一致提升,并展示对VQA的增益来自更行为一致的视觉定位,提供一种低成本的测试时自我增强路线。

    来源链接:https://arxiv.org/abs/2602.20696

  13. BAPO:离线/离策略RLVR让推理后训练更省数据,专盯历史难题

    论文指出传统on-policy RLVR会浪费经验、奖励同质化,导致难样本学习效率差。BAPO通过重新评估历史难样本并复用高质量样本来动态选批次,同时给出策略改进下界保证。作者在数学、规划与视觉推理任务上报告相对GRPO的平均提升,并能解决部分基模长期失败的问题。

    来源链接:https://arxiv.org/abs/2602.20722

  14. DMEMM:把环境动力学与奖励机制纳入扩散规划,减少轨迹与真实环境偏差

    扩散模型用于离线RL规划时,若忽略转移一致性,生成轨迹会与真实机制脱节。DMEMM在训练中显式建模关键环境机制(转移动态与奖励函数)来调制扩散学习,使生成轨迹更符合可执行约束。实验显示在多种离线RL基准上提升规划效果,强调“生成即控制”需机制约束。

    来源链接:https://arxiv.org/abs/2602.20422

  15. KairosVL:把时间序列与语义条件结合,用两轮RL强化时序推理

    作者提出“语义条件时间序列推理”任务,要求模型在数值模式之外理解上下文语义并做决策。方法用两轮强化学习:先训练对基础时间原语的感知,再强化语义条件推理,得到KairosVL;在合成与真实任务上取得竞争表现,并宣称保持通用推理能力、提升对未见场景泛化。

    来源链接:https://arxiv.org/abs/2602.20494

  16. PreScience:科学贡献预测基准,拆解合作伙伴/引用/贡献/影响四环节

    PreScience试图评估模型能否基于固定时间点前的科研记录预测之后的科学进展,包含合作伙伴预测、先验工作选择、贡献生成与影响预测四个生成任务。数据集聚焦AI相关论文并配套作者消歧与引文图;结果显示前沿模型在贡献相似度等指标上仍有较大空间,端到端模拟的“合成科研”多样性与新颖性不足。

    来源链接:https://arxiv.org/abs/2602.20459

  17. CausalReasoningBenchmark:把“因果识别”和“数值估计”拆开评测,定位真正瓶颈

    该基准收集来自论文与教材的173个因果推断问题,要求系统先输出结构化识别方案(策略、处理/结果/控制变量等)再给点估计与标准误。基线LLM虽能在多数样本识别到高层策略,但完整识别细节正确率显著下降,说明难点更多在研究设计的微妙细节而非计算本身。

    来源链接:https://arxiv.org/abs/2602.20571

  18. Online Algorithms with Unreliable Guidance:面向“会出错的预测”的在线算法统一框架

    论文提出OAG模型,把预测与算法部分严格分离:每次请求伴随一条“指导答案”,以概率β被对抗性污染。作者给出DTB编译器,把任意在线算法转成在“盲目信任/完全忽略”之间随机选择的学习增强算法,并证明在缓存等经典问题上可获得兼顾一致性与鲁棒性的竞争比,β变化自然刻画平滑性。

    来源链接:https://arxiv.org/abs/2602.20706

  19. MAGNET:多模态推荐的图专家混合与熵触发路由,缓解模态冲突与专家坍塌

    多模态推荐中视觉/文本/交互信号常异质甚至相互冲突。MAGNET用具备明确模态角色的多专家结构(主导/均衡/互补),结合交互条件化路由与内容诱导边的图增强;并用两阶段熵权机制监控路由熵,从覆盖导向过渡到专精导向,稳定稀疏路由训练并提升可解释性。

    来源链接:https://arxiv.org/abs/2602.20723

  20. 验证LLM数学解:把“只看答案”升级为可交互的自动验证流水线

    作者提出评测与生成两用的验证流水线:通过提示把解答转成更易由证明助手检查的形式,并可用较小模型参与验证,降低误判。框架包含可替换的多个代理角色,既支持自动也支持交互式核验。多数据集实验显示假阳性概率更低,强调“推理能力”评估应更重过程可验证性。

    来源链接:https://arxiv.org/abs/2602.20770

趋势点评

从昨日高频主题看,研究重心正从“更大模型”转向“更可靠的代理系统”:工具使用与GUI执行被程序化、提示注入与监控串谋等安全议题升温,同时长上下文与多模态代理的系统优化(KV管理、交互稳定训练)开始与算法同等重要。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注