AI早报 · 2026年2月23日

AI早报 · 2026年2月23日（覆盖昨日重要动态，按重要性排序）

热点新闻（20条）

OpenAI 宣布推出 Frontier Alliance Partners（Frontier 联盟合作伙伴）

OpenAI 围绕 Frontier 平台拉起咨询与交付伙伴联盟，强调企业落地 AI 的瓶颈不只在模型能力，而在组织变革、流程重构与系统/数据集成。合作方将与 OpenAI 的前线工程团队协同，提供从战略到上线运营的端到端支持，加速“AI 同事/代理”规模化部署，并推动认证培训、交付方法论与治理流程标准化。

来源：https://openai.com/index/frontier-alliance-partners/
OpenAI：SWE-bench Verified 不再适合衡量前沿代码能力进展

OpenAI 表示将停止报告 SWE-bench Verified 分数：其审计发现部分题目测试用例会拒绝功能正确的修复；且基准题目/金补丁来自开源仓库，难以避免训练污染，模型可复现“金补丁”或细节。继续追分将更像“记住考题”，不利于衡量真实工程能力；官方建议转向更干净、可持续的评测（如 SWE-bench Pro）。

来源：https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
MIT Technology Review：芝加哥如何构建“监控全景监狱”式安防网络

报道梳理芝加哥由数万摄像头、车牌识别、跨机构音视频接入等组成的数字“天罗地网”，展示其在案件追踪中的效率，也呈现对隐私、言论自由与“寒蝉效应”的担忧。文章强调技术扩张往往在少数族裔社区更集中，引发治理、公平与问责的长期争议。

来源：https://www.technologyreview.com/2026/02/23/1132740/inside-chicago-surveillance-panopticon/
MIT Technology Review《The Download》：聚焦芝加哥监控网络与“AI加持的网络攻击”信号

该期简报将芝加哥城市级监控作为主线，同时在“必读”中提到多起与 AI 相关的安全事件线索（如 AI 支持的网络攻击浪潮等），凸显公共安全与数字安全正被更强的自动化与生成式能力重塑。对企业与政府而言，治理与防护将从“点工具”升级为“系统工程”。

来源：https://www.technologyreview.com/2026/02/23/1133495/the-download-chicagos-surveillance-network-and-building-better-bras/
arXiv：AstroMLab 4——70B 天文领域推理模型在问答基准上逼近顶级通用模型

论文提出 AstroSage-Llama-3.1-70B，通过天文文献继续预训练与监督微调，并加入可选“推理链”输出。在 AstroMLab-1 的 3,846 道保留题上达到 89% 左右表现，接近 GPT-5.2、Claude、Gemini 等前沿模型，同时强调其推理输出可在“直答/解释”之间切换。结果说明“大模型做垂直领域专精”仍能显著提升可靠性、可解释性与性价比。

来源：https://arxiv.org/abs/2505.17592
arXiv：EnterpriseBench CoreCraft——用高保真企业仿真环境训练可泛化的智能体

作者构建“客户支持组织”仿真环境（2500+实体、23种工具），用于衡量多步、强约束的真实工作流。前沿模型在严格评分标准下通过率不足 30%。论文用 GRPO 等方法训练 GLM 4.6，仅一轮训练即提升任务通过率，并能迁移到多项分布外工具使用基准，提示“环境质量与可计算奖励”对代理能力同样关键。

来源：https://arxiv.org/abs/2602.16179
arXiv：LLM-WikiRace——在真实知识图谱上测试长程规划与重规划能力

基准要求模型沿维基百科超链接逐步导航，从起点页规划到目标页，考察前瞻规划、世界知识与失败后的重规划。论文显示在“难题”上最强模型成功率仍很低（约两成），常陷入循环而难以恢复，揭示当前推理系统在长程规划与自我纠错上的短板，也为“代理式浏览/检索”提供更贴近真实的评测场。

来源：https://arxiv.org/abs/2602.16902
arXiv：WorkflowPerturb——多智能体工作流评估的“可校准压力测试”

论文指出工作流指标常缺乏校准：分数变化难对应“退化严重程度”。作者对“黄金工作流”施加缺步、压缩、描述变更等可控扰动，并按 10%/30%/50% 强度生成 4万+变体，用于比较不同指标家族的灵敏度与可解释性。该工作为代理工作流评测提供了更可复现实验范式。

来源：https://arxiv.org/abs/2602.17990
arXiv：MultiVer——零样本多智能体漏洞检测提高召回

作者用“安全/正确性/性能/风格”四代理分工并做并集投票，在不微调的情况下提升漏洞检出召回，在 PyVul 上达到 82.7% 召回，接近或超过部分微调基线。代价是精确率下降，但论文强调在“漏报成本更高”的安全场景，召回优先的多代理集成具备实用价值，并展示了结构化协作对安全分析的增益。

来源：https://arxiv.org/abs/2602.17875
arXiv：OODBench——面向视觉语言模型的分布外（OOD）鲁棒性基准

论文提出自动化构建 OOD 评测的方法，包含 4 万个实例级“分布外对象-类别”对，并设计由浅入深的提示问答流程来量化不同难度下的退化。作者指出现实应用（自动驾驶、医疗等）常遇到 IID 假设失效，现有 VLM 在该基准上仍明显掉点，强调“看见过的类别”并不代表对异常实例可靠。

来源：https://arxiv.org/abs/2602.18094
arXiv：FENCE——金融场景的双语多模态越狱检测数据集

FENCE 聚焦金融应用中的文本+图像越狱攻击，提供韩英双语、贴近业务的威胁样本，用于训练/评测越狱检测器。实验显示多种商用与开源 VLM 均存在稳定漏洞；基线检测器在分布内可达很高准确率且对外部基准保持较好泛化。该工作补齐了“高风险行业+多模态攻击面”的数据缺口。

来源：https://arxiv.org/abs/2602.18154
arXiv：TFL——面向大模型的“定向位翻转”参数攻击

论文研究 DRAM 漏洞导致的少量权重位翻转攻击，提出 TFL 使攻击从“无差别破坏”升级为“对特定提示定向操控输出”。方法通过关键词导向损失与效用约束，在少于 50 次位翻转下即可诱导指定 token 更易出现，同时尽量不影响无关输入表现。结果提示模型供应链与硬件层防护对 AI 安全同样重要。

来源：https://arxiv.org/abs/2602.17837
arXiv：RFEval——用反事实干预评估“推理是否忠实于答案”

论文将“推理忠实性”从准确率中拆出，提出立场一致性与因果影响两项可检验条件，并用输出级反事实干预构建 7,186 条评测。对多种开源推理模型的测评显示，近半输出存在不忠实，且与准确率相关性弱；部分 RL 风格后训练可能在不降准确率的情况下损害忠实性。该结论为“可解释推理”审计提供了更硬的工具。

来源：https://arxiv.org/abs/2602.17053
arXiv：CodeScaler——无需执行测试的代码奖励模型，推动训练与推理扩展

RLVR 依赖单测执行反馈，难以规模化。CodeScaler 以偏好数据训练“免执行”奖励模型，用于强化学习训练与推理期重排序/自一致扩展。论文报告在多项代码基准上显著提升（对 Qwen3-8B-Base 平均 +11.72），推理时可在接近单测方法效果的同时降低延迟。它指向“以奖励模型替代昂贵验证”的新路径。

来源：https://arxiv.org/abs/2602.17684
arXiv：Agentic Unlearning——代理系统的“参数+记忆”联合遗忘

传统遗忘多只改模型参数，但代理系统还会把信息写入持久记忆并检索回流，形成“参数-记忆互相污染”。论文提出 SBU 同步处理两条路径：记忆侧做依赖闭包式清理与逻辑作废，参数侧用随机参考对齐把输出拉向高熵先验，并通过双更新协议闭环抑制回流。结果在医疗 QA 上减少敏感信息残留且保留性能。

来源：https://arxiv.org/abs/2602.17692
arXiv：GOPO——将“策略规划”和“回复生成”解耦的任务对话偏好优化

论文认为 token 级训练难对齐多轮任务成功，提出层级强化框架 GOPO：专家代理在轨迹级优化目标偏好，客服代理只按选定策略生成回复，并引入源自真实电商交互的序列指标 TSE。实验显示在客户服务数据集上比 PPO 等方法有稳定提升，且中等规模模型可在该指标上超过更大模型，说明“先定策略再执行”对任务对话有效。

来源：https://arxiv.org/abs/2602.15854
arXiv：Agent Skill Framework——小模型在工业场景的“技能编排”收益边界

论文讨论 Agent Skill（技能封装+选择+上下文工程）在工业落地中的价值：可减少幻觉、提升工具调用准确性，但小模型可能因技能选择不稳而收益有限。作者对不同规模模型做系统评测，指出约 12B-30B 的中等 SLM 更能从该范式受益，代码专用较大模型可接近闭源基线且提升算力效率，为“本地小模型+技能库”部署给出实证线索。

来源：https://arxiv.org/abs/2602.16653
arXiv：Cross-Lingual Interleaving——无需文本监督的跨语种语音语言模型训练

语音语言模型受限于英语数据与评测。论文提出跨语种交错（interleaving）训练：将不同语言的语音离散单元混合建模，不依赖文本对齐；并发布英法 4.2 万小时数据与合成的语音语义评测。实验显示在相同训练预算下可提升单语语义、实现更稳的跨语种续写并增强表征对齐，为低资源语言的端到端语音建模提供了更简洁路线。

来源：https://arxiv.org/abs/2512.01865
arXiv：TimeBlind——视频大模型的时序组合推理诊断基准

TimeBlind 用“最小差异对”构造视频对：静态内容一致，只改变时间结构，以此隔离真正的时序推理能力。作者把时序理解分为事件识别、事件属性与事件依赖三层，并对 20+ 多模态大模型评测后发现最强模型实例准确率仅约 48%，远低于人类（约 98%）。结果表明许多视频模型仍在依赖静态捷径而非时间逻辑。

来源：https://arxiv.org/abs/2602.00288
arXiv：从“模型评测”走向“代理评测”——标准化评估的再定位

论文认为评估已从终点检查变为核心控制功能：当系统从静态模型进化为可用工具、可组合的代理，单次基准与汇总分数会掩盖失败模式。作者讨论评测流水线自身的“静默失效”、高分误导与在非确定系统中如何建立可持续的测量纪律，强调评估应服务于信任、迭代与治理，而不只是性能秀。

来源：https://arxiv.org/abs/2602.18029

趋势点评

“代理化”正在把竞争焦点从单模型参数转向三件事：可落地的平台与交付生态、贴近真实工作的高保真环境，以及更可信的评测与安全审计（污染、越狱、硬件级攻击）。当基准不再可靠、攻击面持续扩大，企业与监管都会更看重可验证的过程控制与治理体系。

AI早报 · 2026年2月23日

热点新闻（20条）

趋势点评

评论

发表回复取消回复

AI早报 · 2026年2月23日

热点新闻（20条）

趋势点评

评论

发表回复 取消回复

发表回复取消回复