AI早报 · 2026年2月16日

日期:2026-02-16(昨日)

昨日 20 条 AI 热点(按重要性)

  1. GT-HarmBench:用博弈论视角评估多智能体安全风险

    论文提出 GT-HarmBench,收集 2009 个高风险多智能体场景(囚徒困境、鹿猎、胆小鬼等),系统测试 15 个前沿模型的协作/对抗决策。结果显示模型仅约六成选择社会最优行动,且对提示框架和顺序敏感;作者还展示了博弈论式干预可带来明显改进。

    来源链接:https://arxiv.org/abs/2602.12316

  2. OptiML:把 CUDA Kernel 优化变成“可验证搜索”

    OptiML 将高性能 CUDA kernel 生成与优化拆成两段:先用 LLM 生成可执行实现,再用基于 MCTS 的编辑搜索在编译、正确性验证与 Nsight profiler 反馈的闭环中迭代。框架用硬件感知奖励综合运行时与瓶颈代理指标,能在多类 kernel 上稳定找到经验证的性能提升轨迹。

    来源链接:https://arxiv.org/abs/2602.12305

  3. Abstractive Red-Teaming:用“查询类别”找出模型性格违规高发点

    研究提出“抽象式红队”方法,不直接搜索具体 prompt,而是搜索能概括大量变体的查询类别(如语言、主题、意图组合),以更低算力发现部署中易触发的性格/原则违规。作者给出两套高效类别搜索算法,并在 12 条原则、7 个目标模型上验证能比基线找到更有代表性的违规触发模式。

    来源链接:https://arxiv.org/abs/2602.12318

  4. Soft Contamination:语义重复让基准更像“浅层泛化测试”

    论文聚焦“软污染”:训练语料中出现与测试题语义等价但字符串不相近的重复内容,传统 n-gram 去污难以发现。作者在大语料嵌入检索后发现多个基准存在高比例语义重复,并验证加入这些重复会抬高基准成绩,且对同基准真留出数据也有提升,提示近年分数提升可能同时混入“数据渗透”因素。

    来源链接:https://arxiv.org/abs/2602.12413

  5. SkillsBench:系统评估“技能包/工具文档”到底能帮代理多少

    SkillsBench 构建 86 个任务、11 个领域的评测,并配套可验证器,比较无技能、人工整理技能、自生成技能三种条件。结果显示人工整理技能平均提升通过率约 16 个百分点,但不同领域差异极大,且有任务出现负收益;自生成技能整体不增益,暗示模型并不稳定具备“写出自己会用的程序性知识”的能力。

    来源链接:https://arxiv.org/abs/2602.12670

  6. To Mix or To Merge:多领域 RLVR 的“混训 vs. 分训后合并”系统对比

    M2RL 对数学、代码、科学与指令跟随等多域 RLVR 训练范式做对照:混合多任务 RLVR 与各域独立 RLVR 后再做模型合并。作者发现跨域干扰总体较少,部分强推理域存在互补增益,并从权重几何、预测行为与信息约束角度分析机制,为构建多域专家级推理模型提供了更可操作的经验与诊断视角。

    来源链接:https://arxiv.org/abs/2602.12566

  7. Scaling Web Agent Training:自动生成数据 + 约束式轨迹评估让“半成功”也可用

    论文提出面向网页代理的可扩展数据生成与评估流程,核心在于用约束驱动的细粒度轨迹评价来量化“离完成还差多少”,从而把部分成功轨迹纳入训练。作者同时提出 BookingArena(20 个网站的复杂预订任务)并展示蒸馏学生模型可在体量更小的情况下追平/超过多种开源方案。

    来源链接:https://arxiv.org/abs/2602.12544

  8. BrowseComp-V3:可检索可验证的多模态深度浏览代理评测

    BrowseComp-V3 提供 300 个高难度多跳问题,证据分散在网页的文字与图片中,并强调证据必须可公开检索,便于复现与审计。除最终答案外,基于子目标的过程评估用于定位中间推理短板。作者报告即便是最强模型在该基准上也仅约三成多准确率,凸显多模态证据整合仍是瓶颈。

    来源链接:https://arxiv.org/abs/2602.12876

  9. WebClipper:用图剪枝压缩网页代理轨迹,减少冗余回合

    研究观察到许多网页代理轨迹包含循环推理与无效分支,提出 WebClipper:把搜索过程建模成状态图,并将轨迹优化视为“最小必要 DAG 挖掘”,在保留关键推理的前提下剪掉冗余步骤。继续用剪枝后的轨迹训练可使工具调用回合下降约两成,同时在准确率上也得到提升,并给出兼顾效率与效果的新指标。

    来源链接:https://arxiv.org/abs/2602.12852

  10. Consistency Under Multi-Turn Attacks:推理型模型并非天然抗多轮对抗

    论文评估 9 个推理型前沿模型在多轮对抗压力下的一致性与失效模式。作者发现推理能力带来一定鲁棒性提升,但仍普遍受“误导性建议”等攻击影响,并归纳自我怀疑、社会从众、建议劫持、情绪易感与推理疲劳等五类失败。结果提示需要为推理模型重新设计更有效的防御与评估方法。

    来源链接:https://arxiv.org/abs/2602.13093

  11. CogRouter:让代理按步骤动态切换“快思考/慢思考”深度

    CogRouter 借鉴 ACT-R,将代理的认知深度分成从直觉反应到战略规划的四级,并通过两阶段训练让模型在每一步根据需要选择合适深度,以最大化行动置信度与整体效率。作者在多轮交互环境中报告更高成功率与更少 token 消耗,说明“按步骤分配推理预算”可能比固定思维模式更适合长时程任务。

    来源链接:https://arxiv.org/abs/2602.12662

  12. AI Agents for Inventory Control:OR + LLM + 人类的互补效应

    论文构建 InventoryBench(千余实例,覆盖需求漂移、季节性、交期不确定等),比较传统运筹算法、LLM 代理与二者结合。结果显示 OR 增强的 LLM 方法优于单独方法,且在课堂实验的人在环设置下,人类结合 AI 建议的团队平均利润也更高。研究给出个体层面的互补性刻画与受益比例下界。

    来源链接:https://arxiv.org/abs/2602.12631

  13. LoRA“回收再合并”研究:收益可能更像正则化而非迁移

    论文在 Hugging Face Hub 收集近千个基于 Llama 3.1 8B 的 LoRA 模块,系统评估自适应合并方法在“野生 LoRA 回收”场景的真实收益。作者发现相对从头训练同数据的新 LoRA,自适应合并的额外收益有限,甚至随机初始化参数的 LoRA 也能得到相近效果,提示其提升可能主要来自正则化而非跨任务正迁移。

    来源链接:https://arxiv.org/abs/2602.12323

  14. DeltaBelief-RL:用模型“信念变化”给长时程交互分配中间奖励

    论文提出 DeltaBelief-RL,把模型对目标解的概率提升作为内在奖励,用于解决长时程交互中的 credit assignment。方法利用合成交互数据训练信息搜寻能力,并显示比纯结果奖励更稳定、更高效;同时作者观察到在测试时扩大交互步数仍能继续带来收益,提示可与测试时扩展策略形成正反馈。

    来源链接:https://arxiv.org/abs/2602.12342

  15. Diffinity:用正则语法约束引导扩散式语言模型输出合规字符串

    Diffinity 提出训练外的引导方法,把正则表达式描述的语法约束(如 JSON 结构)转成对潜变量解码为“有效字符串”的概率评分,并用其梯度引导扩散采样。作者在 180 个约束任务上报告较高约束满足率且困惑度损失较小,并指出在一些场景中可超过自回归受约束解码的质量与稳定性。

    来源链接:https://arxiv.org/abs/2602.12468

  16. Rational Neural Networks:可训练有理激活的表达性与参数效率分离

    论文研究带可训练低阶有理函数激活的网络,给出与多种常见固定激活在逼近复杂函数时的理论分离:在同样误差目标下,有理激活网络可能以更少参数达到近似。作者还讨论其在 Transformer 风格非线性中的扩展,并声称在不改变训练管线的前提下可无缝集成,提供一种“用函数族替换激活”的新路径。

    来源链接:https://arxiv.org/abs/2602.12390

  17. Designing RNAs with Language Models:把 RNA 设计改写成条件序列生成

    研究将 RNA 设计从逐实例启发式优化转为“给定目标二级结构生成序列”的条件生成任务,训练自回归语言模型直接映射结构到序列,并用强化学习优化端到端指标。作者提出高效选择少量样本做 RL 的策略,在多数据集上报告更高关键指标与更快速度,展示生物序列设计可能走向可复用的通用生成器。

    来源链接:https://arxiv.org/abs/2602.12470

  18. Stabilizing Native Low-Rank LLM Pretraining:全程低秩预训练的稳定配方

    论文关注从零开始用全低秩分解权重预训练大模型的稳定性问题,指出训练不稳与损失尖峰的主因是权重更新的谱范数失控增长,并提出 Spectron:带正交化的谱归一化以动态约束更新。作者声称该方法开销很小、可端到端训练,并给出低秩 Transformer 的计算最优缩放规律,面向推理效率有潜在价值。

    来源链接:https://arxiv.org/abs/2602.12429

  19. Value Bonuses with Ensemble Errors:用集成误差做“首访乐观”探索奖励

    论文提出 VBE 探索算法,维护随机 Q 函数集成并用估计误差构造价值奖励,以实现“首次访问就乐观”的深度探索,弥补只在事后回传奖励的不利。作者在多种经典环境上报告优于 Bootstrap DQN 及若干奖励探索方法,并展示该机制可扩展到 Atari 级任务,强调不确定性驱动的价值塑形仍有改进空间。

    来源链接:https://arxiv.org/abs/2602.12375

  20. Adaptive Utility-Weighted Benchmarking:让评测引入利益相关方效用并可动态更新

    论文把评测重构为连接指标、模型组件与多方群体的自适应网络:用效用权重刻画不同群体对行为的偏好,并通过人在环更新规则让基准随场景演进,同时保持稳定与可解释。该框架试图把传统排行榜视为特例,为真实部署语境中更“情境化”的评测协议提供形式化基础。

    来源链接:https://arxiv.org/abs/2602.12356

趋势点评

昨日 arXiv 的集中发布显示两条主线:其一是“代理系统化”,从网页代理的数据生成、轨迹压缩到可验证评测正在成体系;其二是“安全与鲁棒性评测深化”,多智能体风险与多轮对抗一致性被更精细地量化。与此同时,低秩训练与扩散式约束采样等底层方法也在为更低成本、更可控的部署铺路。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注