AI早报 · 2026年2月11日

（覆盖日期：2026年2月11日，按重要性排序；尽量选取官方发布、工程落地与安全/评测方向的高信号内容。）

昨日 20 条 AI 热点

OpenAI：Harness engineering——在“代理优先”时代用 Codex 提升工程效率

OpenAI 复盘“0 人手写代码”内部产品实验：以提示、环境与反馈回路替代手写，实现百万行代码与高频 PR 产出；强调让 UI/日志/指标对代理可读，把人类注意力变成最稀缺资源并系统化放大。

来源链接：https://openai.com/index/harness-engineering/
MIT Technology Review：QuitGPT 运动号召取消 ChatGPT 订阅，引发“用消费抵制施压 AI 公司”的讨论

报道称 QuitGPT 倡议以政治与机构合作争议为由，动员用户退订 ChatGPT；部分用户也抱怨新模型表现与“讨好式”回复。事件反映生成式 AI 商业化后，公众对治理、立场与产品体验的双重审视正在升温。

来源链接：https://www.technologyreview.com/2026/02/10/1132577/a-quitgpt-campaign-is-urging-people-to-cancel-chatgpt-subscriptions/
Google Photos 推出 “Ask” 按钮：用 Gemini 在看图时对话式检索、理解与编辑

Google 介绍 Photos 的 Ask 入口：不仅能在相册里自然语言找图，还能在单张照片页面直接提问、获取内容解释、找相似照片并用文字描述完成编辑。该功能先面向美国部分 iOS/Android 用户，凸显“搜索+编辑”一体化趋势。

来源链接：https://blog.google/products-and-platforms/products/photos/ask-button-ask-photos-tips/
arXiv：混合式 RAG 出现“检索枢轴攻击”，向量检索的种子片段可经知识图谱扩展“跳”进敏感区域

论文指出向量检索+知识图谱扩展的组合会带来新的跨租户泄露路径：即使不注入对抗内容，共享实体也能把检索结果“枢轴”到敏感邻域。作者提出 RPR 与 Leakage@k 等指标，并证明在图扩展边界做一次授权校验即可大幅消除泄露。

来源链接：https://arxiv.org/abs/2602.08668
arXiv：AgentSys 用“分层隔离记忆”防御间接提示注入，主代理只接收可验证 JSON 返回值

AgentSys 借鉴操作系统进程隔离：主代理把工具调用交给子代理，外部内容与子任务轨迹不进入主上下文，仅通过模式校验后的结构化结果跨边界传递。作者在 AgentDojo/ASB 上将攻击成功率压到个位数，并在良性任务上保持或略增效用。

来源链接：https://arxiv.org/abs/2602.07398
arXiv：ContextBench 提供“编码代理上下文检索”过程评测，让“找对代码”可被量化

ContextBench 汇集 66 个仓库、1136 个 Issue 任务，并给出人工标注的 gold context，用于测量代理检索的召回、精度与效率。结果显示复杂脚手架对检索提升有限，模型更偏召回而非精度，且“看过的上下文”与“真正用到的上下文”存在明显鸿沟。

来源链接：https://arxiv.org/abs/2602.05892
arXiv：ParisKV 用 GPU 原生检索式 KV-cache 支持“百万 token 长上下文”，并对分布漂移更稳健

ParisKV 提出碰撞式候选筛选+量化内积重排，配合 UVA 支持 CPU 侧 KV cache 按需 top-k 拉取，在超长上下文下尽量保持质量并显著提升解码吞吐。作者宣称在百万 token 规模可比基线降低数量级延迟，为长上下文推理的工程落地提供新路线。

来源链接：https://arxiv.org/abs/2602.07721
arXiv：DLLM-Searcher 把扩散式语言模型用于搜索代理，用并行解码缓解 ReAct 串行带来的时延

工作聚焦两点：一是通过 Agentic SFT + 偏好优化增强 dLLM 的推理与工具调用能力；二是提出 P-ReAct，让模型优先生成 tool_call 并在等待工具返回时继续“并行思考”。作者报告在保持搜索代理效果接近主流 LLM 的同时，端到端推理速度约提升 15%。

来源链接：https://arxiv.org/abs/2602.07035
arXiv：SafeDialBench 面向多轮对话与多种越狱策略的安全评测基准，覆盖中文与英文

SafeDialBench 设计两层安全分类体系，包含 6 个安全维度、22 类对话场景与 7 种越狱策略，生成 4000+ 多轮对话，用于评估“识别不安全信息、处理与一致性”能力。作者对 17 个模型测试，指出部分模型在多轮越狱下仍存在明显脆弱点。

来源链接：https://arxiv.org/abs/2502.11090
arXiv：ArcMark 用最优传输视角刻画多比特水印容量，并给出更高比特率的 LLM 水印构造

论文首次给出多比特水印通道的容量刻画，将水印设计明确为“信道编码问题”。基于该理论提出 ArcMark，在不改变平均 next-token 预测的约束下，提升单位 token 可承载信息量与检测准确率，为“可追踪生成文本”提供更系统的工程路径。

来源链接：https://arxiv.org/abs/2602.07235
arXiv：对推理模型的 Chain-of-Thought 做中途“干预”，模型多数能恢复，但会牺牲效率

研究在固定步数对模型自生成 CoT 施加 7 类扰动（善意/中性/对抗），发现大多数推理模型能在扰动后找回正确轨迹，且大模型更稳、早期扰动更伤。值得注意的是，恢复往往伴随 CoT 膨胀（最长可增 200%+），体现稳健性与成本的权衡。

来源链接：https://arxiv.org/abs/2602.07470
arXiv：BEAT 展示“视觉后门”可植入 VLM 具身代理，触发物体出现后可诱导持续执行攻击者策略

BEAT 以环境中的“物体”作为视觉触发器，解决视角与光照变化导致触发不稳定的问题：构造多样化训练集，并用两阶段训练与对比式触发学习强化触发判别边界。作者在多种具身基准与 VLM 上报告较高攻击成功率，同时保持正常任务性能，提示真实部署前需更强防护。

来源链接：https://arxiv.org/abs/2510.27623
arXiv：Fill-and-Squeeze 直攻 LLM 服务调度器——通过耗尽 KV cache 与反复抢占制造“延迟型拒绝服务”

论文认为传统“复杂度型”延迟攻击在现代连续批处理系统中效果有限，于是转向系统层：先“填满”全局 KV cache 造成队头阻塞，再“挤压”调度器进入反复抢占。作者称在黑盒条件下可显著放大 TTFT 与每 token 延迟，且成本更低，提醒推理服务需引入资源隔离与探针防护。

来源链接：https://arxiv.org/abs/2602.07878
arXiv：AlignTune 试图把 SFT 与 RLHF 后训练对齐流程“模块化+可复现”，支持多后端切换

AlignTune 针对对齐实验常见的后端干扰、奖励实现碎片化与流程不可复现问题，提供统一接口封装不同训练后端，并标准化配置、奖励层与评测。其价值在于降低“换后端/换奖励”带来的不可控变量，让对齐结果更易比较与复现。

来源链接：https://arxiv.org/abs/2602.09621
arXiv：STONE 提出“语法感知”代码水印，避开高熵但关键的语法 token 以降低逻辑破坏风险

作者指出既有代码水印常假设“高熵 token 可安全嵌入信号”，但代码里关键字等语法 token 往往高熵且一改就可能破坏逻辑。STONE 只在非语法 token 中嵌入水印，并提出 STEM 指标综合正确性、可检测性与不可感知性，力求在多语言代码场景保持可用性。

来源链接：https://arxiv.org/abs/2502.18851
arXiv：扩散式语言模型也会“记忆泄露”——SAMA 利用多掩码配置提升成员推断攻击成功率

论文系统研究 DLM 在成员推断攻击下的隐私风险：由于可掩码配置呈指数级增长，攻击者可从多种掩码视角反复探测记忆信号。作者提出 SAMA 通过不同掩码密度采样与加权聚合，把稀疏信号变成鲁棒投票，实验显示 AUC 与低误报区间表现显著提升，提示需为 DLM 设计专门防护。

来源链接：https://arxiv.org/abs/2601.20125
arXiv：PreFlect 把“反思”从事后纠错前移到执行前审稿式批判，降低走弯路成本

PreFlect 提出“前瞻反思”：在执行计划前先基于历史轨迹提炼的常见失败模式，对计划进行批评与修订；同时配合动态重规划应对执行偏差。作者在多基准上称可提升复杂任务效用，强调代理系统里“好计划”比“事后补救”更省上下文与工具成本。

来源链接：https://arxiv.org/abs/2602.07187
arXiv：HypRAG 用双曲几何做稠密检索，试图更好表达语言层级结构以降低 RAG 幻觉

工作认为自然语言具有从主题到实体的层级性，欧氏嵌入难以保留这种结构，可能导致不相关文档被误判相似。HypRAG 在洛伦兹模型中构建全双曲/混合检索器，并提出几何感知池化算子；作者在 MTEB 与 RAGBench 上报告上下文相关性与答案相关性提升。

来源链接：https://arxiv.org/abs/2602.07739
OpenAI Python SDK v2.20.0：Batch API 新增图像支持

openai-python 更新到 v2.20.0，变更重点是 Batch API 增加图像输入支持，方便把多任务/多模态请求以批处理方式提交并统一回收结果。对做离线评测、批量内容生成与成本控制的团队来说，这类 SDK 级能力往往比单点模型升级更直接可用。

来源链接：https://github.com/openai/openai-python/releases/tag/v2.20.0
OpenAI Python SDK v2.19.0：新增 skills 与 hosted shell 相关 API

openai-python v2.19.0 增加与“skills/托管 shell”相关的 API 支持，为代理式工作流提供更标准的调用面。随着工具调用、执行环境与权限边界逐步产品化，SDK 的抽象层会成为团队落地代理系统时的关键“可控接口”。

来源链接：https://github.com/openai/openai-python/releases/tag/v2.19.0

趋势点评

“代理化软件工程”正从模型能力竞争转向系统工程：上下文检索、记忆隔离、服务调度与安全评测都在被标准化与量化。与此同时，RAG 组合系统的边界授权、长上下文推理的工程栈、以及水印/隐私攻击等对抗议题，正在成为规模化落地的硬门槛。

AI早报 · 2026年2月11日

昨日 20 条 AI 热点

趋势点评

评论

发表回复取消回复

AI早报 · 2026年2月11日

昨日 20 条 AI 热点

趋势点评

评论

发表回复 取消回复

发表回复取消回复