AI早报 · 2026年2月23日(覆盖昨日重要动态,按重要性排序)
热点新闻(20条)
-
OpenAI 宣布推出 Frontier Alliance Partners(Frontier 联盟合作伙伴)
OpenAI 围绕 Frontier 平台拉起咨询与交付伙伴联盟,强调企业落地 AI 的瓶颈不只在模型能力,而在组织变革、流程重构与系统/数据集成。合作方将与 OpenAI 的前线工程团队协同,提供从战略到上线运营的端到端支持,加速“AI 同事/代理”规模化部署,并推动认证培训、交付方法论与治理流程标准化。
-
OpenAI:SWE-bench Verified 不再适合衡量前沿代码能力进展
OpenAI 表示将停止报告 SWE-bench Verified 分数:其审计发现部分题目测试用例会拒绝功能正确的修复;且基准题目/金补丁来自开源仓库,难以避免训练污染,模型可复现“金补丁”或细节。继续追分将更像“记住考题”,不利于衡量真实工程能力;官方建议转向更干净、可持续的评测(如 SWE-bench Pro)。
来源:https://openai.com/index/why-we-no-longer-evaluate-swe-bench-verified/
-
MIT Technology Review:芝加哥如何构建“监控全景监狱”式安防网络
报道梳理芝加哥由数万摄像头、车牌识别、跨机构音视频接入等组成的数字“天罗地网”,展示其在案件追踪中的效率,也呈现对隐私、言论自由与“寒蝉效应”的担忧。文章强调技术扩张往往在少数族裔社区更集中,引发治理、公平与问责的长期争议。
来源:https://www.technologyreview.com/2026/02/23/1132740/inside-chicago-surveillance-panopticon/
-
MIT Technology Review《The Download》:聚焦芝加哥监控网络与“AI加持的网络攻击”信号
该期简报将芝加哥城市级监控作为主线,同时在“必读”中提到多起与 AI 相关的安全事件线索(如 AI 支持的网络攻击浪潮等),凸显公共安全与数字安全正被更强的自动化与生成式能力重塑。对企业与政府而言,治理与防护将从“点工具”升级为“系统工程”。
-
arXiv:AstroMLab 4——70B 天文领域推理模型在问答基准上逼近顶级通用模型
论文提出 AstroSage-Llama-3.1-70B,通过天文文献继续预训练与监督微调,并加入可选“推理链”输出。在 AstroMLab-1 的 3,846 道保留题上达到 89% 左右表现,接近 GPT-5.2、Claude、Gemini 等前沿模型,同时强调其推理输出可在“直答/解释”之间切换。结果说明“大模型做垂直领域专精”仍能显著提升可靠性、可解释性与性价比。
-
arXiv:EnterpriseBench CoreCraft——用高保真企业仿真环境训练可泛化的智能体
作者构建“客户支持组织”仿真环境(2500+实体、23种工具),用于衡量多步、强约束的真实工作流。前沿模型在严格评分标准下通过率不足 30%。论文用 GRPO 等方法训练 GLM 4.6,仅一轮训练即提升任务通过率,并能迁移到多项分布外工具使用基准,提示“环境质量与可计算奖励”对代理能力同样关键。
-
arXiv:LLM-WikiRace——在真实知识图谱上测试长程规划与重规划能力
基准要求模型沿维基百科超链接逐步导航,从起点页规划到目标页,考察前瞻规划、世界知识与失败后的重规划。论文显示在“难题”上最强模型成功率仍很低(约两成),常陷入循环而难以恢复,揭示当前推理系统在长程规划与自我纠错上的短板,也为“代理式浏览/检索”提供更贴近真实的评测场。
-
arXiv:WorkflowPerturb——多智能体工作流评估的“可校准压力测试”
论文指出工作流指标常缺乏校准:分数变化难对应“退化严重程度”。作者对“黄金工作流”施加缺步、压缩、描述变更等可控扰动,并按 10%/30%/50% 强度生成 4万+变体,用于比较不同指标家族的灵敏度与可解释性。该工作为代理工作流评测提供了更可复现实验范式。
-
arXiv:MultiVer——零样本多智能体漏洞检测提高召回
作者用“安全/正确性/性能/风格”四代理分工并做并集投票,在不微调的情况下提升漏洞检出召回,在 PyVul 上达到 82.7% 召回,接近或超过部分微调基线。代价是精确率下降,但论文强调在“漏报成本更高”的安全场景,召回优先的多代理集成具备实用价值,并展示了结构化协作对安全分析的增益。
-
arXiv:OODBench——面向视觉语言模型的分布外(OOD)鲁棒性基准
论文提出自动化构建 OOD 评测的方法,包含 4 万个实例级“分布外对象-类别”对,并设计由浅入深的提示问答流程来量化不同难度下的退化。作者指出现实应用(自动驾驶、医疗等)常遇到 IID 假设失效,现有 VLM 在该基准上仍明显掉点,强调“看见过的类别”并不代表对异常实例可靠。
-
arXiv:FENCE——金融场景的双语多模态越狱检测数据集
FENCE 聚焦金融应用中的文本+图像越狱攻击,提供韩英双语、贴近业务的威胁样本,用于训练/评测越狱检测器。实验显示多种商用与开源 VLM 均存在稳定漏洞;基线检测器在分布内可达很高准确率且对外部基准保持较好泛化。该工作补齐了“高风险行业+多模态攻击面”的数据缺口。
-
arXiv:TFL——面向大模型的“定向位翻转”参数攻击
论文研究 DRAM 漏洞导致的少量权重位翻转攻击,提出 TFL 使攻击从“无差别破坏”升级为“对特定提示定向操控输出”。方法通过关键词导向损失与效用约束,在少于 50 次位翻转下即可诱导指定 token 更易出现,同时尽量不影响无关输入表现。结果提示模型供应链与硬件层防护对 AI 安全同样重要。
-
arXiv:RFEval——用反事实干预评估“推理是否忠实于答案”
论文将“推理忠实性”从准确率中拆出,提出立场一致性与因果影响两项可检验条件,并用输出级反事实干预构建 7,186 条评测。对多种开源推理模型的测评显示,近半输出存在不忠实,且与准确率相关性弱;部分 RL 风格后训练可能在不降准确率的情况下损害忠实性。该结论为“可解释推理”审计提供了更硬的工具。
-
arXiv:CodeScaler——无需执行测试的代码奖励模型,推动训练与推理扩展
RLVR 依赖单测执行反馈,难以规模化。CodeScaler 以偏好数据训练“免执行”奖励模型,用于强化学习训练与推理期重排序/自一致扩展。论文报告在多项代码基准上显著提升(对 Qwen3-8B-Base 平均 +11.72),推理时可在接近单测方法效果的同时降低延迟。它指向“以奖励模型替代昂贵验证”的新路径。
-
arXiv:Agentic Unlearning——代理系统的“参数+记忆”联合遗忘
传统遗忘多只改模型参数,但代理系统还会把信息写入持久记忆并检索回流,形成“参数-记忆互相污染”。论文提出 SBU 同步处理两条路径:记忆侧做依赖闭包式清理与逻辑作废,参数侧用随机参考对齐把输出拉向高熵先验,并通过双更新协议闭环抑制回流。结果在医疗 QA 上减少敏感信息残留且保留性能。
-
arXiv:GOPO——将“策略规划”和“回复生成”解耦的任务对话偏好优化
论文认为 token 级训练难对齐多轮任务成功,提出层级强化框架 GOPO:专家代理在轨迹级优化目标偏好,客服代理只按选定策略生成回复,并引入源自真实电商交互的序列指标 TSE。实验显示在客户服务数据集上比 PPO 等方法有稳定提升,且中等规模模型可在该指标上超过更大模型,说明“先定策略再执行”对任务对话有效。
-
arXiv:Agent Skill Framework——小模型在工业场景的“技能编排”收益边界
论文讨论 Agent Skill(技能封装+选择+上下文工程)在工业落地中的价值:可减少幻觉、提升工具调用准确性,但小模型可能因技能选择不稳而收益有限。作者对不同规模模型做系统评测,指出约 12B-30B 的中等 SLM 更能从该范式受益,代码专用较大模型可接近闭源基线且提升算力效率,为“本地小模型+技能库”部署给出实证线索。
-
arXiv:Cross-Lingual Interleaving——无需文本监督的跨语种语音语言模型训练
语音语言模型受限于英语数据与评测。论文提出跨语种交错(interleaving)训练:将不同语言的语音离散单元混合建模,不依赖文本对齐;并发布英法 4.2 万小时数据与合成的语音语义评测。实验显示在相同训练预算下可提升单语语义、实现更稳的跨语种续写并增强表征对齐,为低资源语言的端到端语音建模提供了更简洁路线。
-
arXiv:TimeBlind——视频大模型的时序组合推理诊断基准
TimeBlind 用“最小差异对”构造视频对:静态内容一致,只改变时间结构,以此隔离真正的时序推理能力。作者把时序理解分为事件识别、事件属性与事件依赖三层,并对 20+ 多模态大模型评测后发现最强模型实例准确率仅约 48%,远低于人类(约 98%)。结果表明许多视频模型仍在依赖静态捷径而非时间逻辑。
-
arXiv:从“模型评测”走向“代理评测”——标准化评估的再定位
论文认为评估已从终点检查变为核心控制功能:当系统从静态模型进化为可用工具、可组合的代理,单次基准与汇总分数会掩盖失败模式。作者讨论评测流水线自身的“静默失效”、高分误导与在非确定系统中如何建立可持续的测量纪律,强调评估应服务于信任、迭代与治理,而不只是性能秀。
趋势点评
“代理化”正在把竞争焦点从单模型参数转向三件事:可落地的平台与交付生态、贴近真实工作的高保真环境,以及更可信的评测与安全审计(污染、越狱、硬件级攻击)。当基准不再可靠、攻击面持续扩大,企业与监管都会更看重可验证的过程控制与治理体系。

发表回复