(覆盖日期:2026年2月11日,按重要性排序;尽量选取官方发布、工程落地与安全/评测方向的高信号内容。)
昨日 20 条 AI 热点
-
OpenAI:Harness engineering——在“代理优先”时代用 Codex 提升工程效率
OpenAI 复盘“0 人手写代码”内部产品实验:以提示、环境与反馈回路替代手写,实现百万行代码与高频 PR 产出;强调让 UI/日志/指标对代理可读,把人类注意力变成最稀缺资源并系统化放大。
-
MIT Technology Review:QuitGPT 运动号召取消 ChatGPT 订阅,引发“用消费抵制施压 AI 公司”的讨论
报道称 QuitGPT 倡议以政治与机构合作争议为由,动员用户退订 ChatGPT;部分用户也抱怨新模型表现与“讨好式”回复。事件反映生成式 AI 商业化后,公众对治理、立场与产品体验的双重审视正在升温。
-
Google Photos 推出 “Ask” 按钮:用 Gemini 在看图时对话式检索、理解与编辑
Google 介绍 Photos 的 Ask 入口:不仅能在相册里自然语言找图,还能在单张照片页面直接提问、获取内容解释、找相似照片并用文字描述完成编辑。该功能先面向美国部分 iOS/Android 用户,凸显“搜索+编辑”一体化趋势。
来源链接:https://blog.google/products-and-platforms/products/photos/ask-button-ask-photos-tips/
-
arXiv:混合式 RAG 出现“检索枢轴攻击”,向量检索的种子片段可经知识图谱扩展“跳”进敏感区域
论文指出向量检索+知识图谱扩展的组合会带来新的跨租户泄露路径:即使不注入对抗内容,共享实体也能把检索结果“枢轴”到敏感邻域。作者提出 RPR 与 Leakage@k 等指标,并证明在图扩展边界做一次授权校验即可大幅消除泄露。
-
arXiv:AgentSys 用“分层隔离记忆”防御间接提示注入,主代理只接收可验证 JSON 返回值
AgentSys 借鉴操作系统进程隔离:主代理把工具调用交给子代理,外部内容与子任务轨迹不进入主上下文,仅通过模式校验后的结构化结果跨边界传递。作者在 AgentDojo/ASB 上将攻击成功率压到个位数,并在良性任务上保持或略增效用。
-
arXiv:ContextBench 提供“编码代理上下文检索”过程评测,让“找对代码”可被量化
ContextBench 汇集 66 个仓库、1136 个 Issue 任务,并给出人工标注的 gold context,用于测量代理检索的召回、精度与效率。结果显示复杂脚手架对检索提升有限,模型更偏召回而非精度,且“看过的上下文”与“真正用到的上下文”存在明显鸿沟。
-
arXiv:ParisKV 用 GPU 原生检索式 KV-cache 支持“百万 token 长上下文”,并对分布漂移更稳健
ParisKV 提出碰撞式候选筛选+量化内积重排,配合 UVA 支持 CPU 侧 KV cache 按需 top-k 拉取,在超长上下文下尽量保持质量并显著提升解码吞吐。作者宣称在百万 token 规模可比基线降低数量级延迟,为长上下文推理的工程落地提供新路线。
-
arXiv:DLLM-Searcher 把扩散式语言模型用于搜索代理,用并行解码缓解 ReAct 串行带来的时延
工作聚焦两点:一是通过 Agentic SFT + 偏好优化增强 dLLM 的推理与工具调用能力;二是提出 P-ReAct,让模型优先生成 tool_call 并在等待工具返回时继续“并行思考”。作者报告在保持搜索代理效果接近主流 LLM 的同时,端到端推理速度约提升 15%。
-
arXiv:SafeDialBench 面向多轮对话与多种越狱策略的安全评测基准,覆盖中文与英文
SafeDialBench 设计两层安全分类体系,包含 6 个安全维度、22 类对话场景与 7 种越狱策略,生成 4000+ 多轮对话,用于评估“识别不安全信息、处理与一致性”能力。作者对 17 个模型测试,指出部分模型在多轮越狱下仍存在明显脆弱点。
-
arXiv:ArcMark 用最优传输视角刻画多比特水印容量,并给出更高比特率的 LLM 水印构造
论文首次给出多比特水印通道的容量刻画,将水印设计明确为“信道编码问题”。基于该理论提出 ArcMark,在不改变平均 next-token 预测的约束下,提升单位 token 可承载信息量与检测准确率,为“可追踪生成文本”提供更系统的工程路径。
-
arXiv:对推理模型的 Chain-of-Thought 做中途“干预”,模型多数能恢复,但会牺牲效率
研究在固定步数对模型自生成 CoT 施加 7 类扰动(善意/中性/对抗),发现大多数推理模型能在扰动后找回正确轨迹,且大模型更稳、早期扰动更伤。值得注意的是,恢复往往伴随 CoT 膨胀(最长可增 200%+),体现稳健性与成本的权衡。
-
arXiv:BEAT 展示“视觉后门”可植入 VLM 具身代理,触发物体出现后可诱导持续执行攻击者策略
BEAT 以环境中的“物体”作为视觉触发器,解决视角与光照变化导致触发不稳定的问题:构造多样化训练集,并用两阶段训练与对比式触发学习强化触发判别边界。作者在多种具身基准与 VLM 上报告较高攻击成功率,同时保持正常任务性能,提示真实部署前需更强防护。
-
arXiv:Fill-and-Squeeze 直攻 LLM 服务调度器——通过耗尽 KV cache 与反复抢占制造“延迟型拒绝服务”
论文认为传统“复杂度型”延迟攻击在现代连续批处理系统中效果有限,于是转向系统层:先“填满”全局 KV cache 造成队头阻塞,再“挤压”调度器进入反复抢占。作者称在黑盒条件下可显著放大 TTFT 与每 token 延迟,且成本更低,提醒推理服务需引入资源隔离与探针防护。
-
arXiv:AlignTune 试图把 SFT 与 RLHF 后训练对齐流程“模块化+可复现”,支持多后端切换
AlignTune 针对对齐实验常见的后端干扰、奖励实现碎片化与流程不可复现问题,提供统一接口封装不同训练后端,并标准化配置、奖励层与评测。其价值在于降低“换后端/换奖励”带来的不可控变量,让对齐结果更易比较与复现。
-
arXiv:STONE 提出“语法感知”代码水印,避开高熵但关键的语法 token 以降低逻辑破坏风险
作者指出既有代码水印常假设“高熵 token 可安全嵌入信号”,但代码里关键字等语法 token 往往高熵且一改就可能破坏逻辑。STONE 只在非语法 token 中嵌入水印,并提出 STEM 指标综合正确性、可检测性与不可感知性,力求在多语言代码场景保持可用性。
-
arXiv:扩散式语言模型也会“记忆泄露”——SAMA 利用多掩码配置提升成员推断攻击成功率
论文系统研究 DLM 在成员推断攻击下的隐私风险:由于可掩码配置呈指数级增长,攻击者可从多种掩码视角反复探测记忆信号。作者提出 SAMA 通过不同掩码密度采样与加权聚合,把稀疏信号变成鲁棒投票,实验显示 AUC 与低误报区间表现显著提升,提示需为 DLM 设计专门防护。
-
arXiv:PreFlect 把“反思”从事后纠错前移到执行前审稿式批判,降低走弯路成本
PreFlect 提出“前瞻反思”:在执行计划前先基于历史轨迹提炼的常见失败模式,对计划进行批评与修订;同时配合动态重规划应对执行偏差。作者在多基准上称可提升复杂任务效用,强调代理系统里“好计划”比“事后补救”更省上下文与工具成本。
-
arXiv:HypRAG 用双曲几何做稠密检索,试图更好表达语言层级结构以降低 RAG 幻觉
工作认为自然语言具有从主题到实体的层级性,欧氏嵌入难以保留这种结构,可能导致不相关文档被误判相似。HypRAG 在洛伦兹模型中构建全双曲/混合检索器,并提出几何感知池化算子;作者在 MTEB 与 RAGBench 上报告上下文相关性与答案相关性提升。
-
OpenAI Python SDK v2.20.0:Batch API 新增图像支持
openai-python 更新到 v2.20.0,变更重点是 Batch API 增加图像输入支持,方便把多任务/多模态请求以批处理方式提交并统一回收结果。对做离线评测、批量内容生成与成本控制的团队来说,这类 SDK 级能力往往比单点模型升级更直接可用。
来源链接:https://github.com/openai/openai-python/releases/tag/v2.20.0
-
OpenAI Python SDK v2.19.0:新增 skills 与 hosted shell 相关 API
openai-python v2.19.0 增加与“skills/托管 shell”相关的 API 支持,为代理式工作流提供更标准的调用面。随着工具调用、执行环境与权限边界逐步产品化,SDK 的抽象层会成为团队落地代理系统时的关键“可控接口”。
来源链接:https://github.com/openai/openai-python/releases/tag/v2.19.0
趋势点评
“代理化软件工程”正从模型能力竞争转向系统工程:上下文检索、记忆隔离、服务调度与安全评测都在被标准化与量化。与此同时,RAG 组合系统的边界授权、长上下文推理的工程栈、以及水印/隐私攻击等对抗议题,正在成为规模化落地的硬门槛。

发表回复