日期:2026年3月4日
热点新闻(20条)
-
OpenAI:将“single-minus”散射振幅方法扩展到引力子(graviton)
OpenAI 发布研究文章,讨论如何把单负螺旋度(single-minus)振幅的构造推广到引力子树振幅计算,并给出可验证的推导与结果。这类交叉研究把大模型用于符号推导、校验与复现流程,展示了“AI 辅助理论物理/数学研究”的更工程化范式。
-
OpenAI:推出学习成效测量套件,量化 AI 对学习结果的影响
OpenAI 介绍一套用于教育场景的“学习成效测量”框架,目标是在不同课堂与人群中长期追踪 AI 工具对学习结果的影响,避免只看满意度或短期分数。该方向强调可重复的评估设计与指标体系,为教育 AI 的产品迭代与政策讨论提供更可比的证据基础。
-
OpenAI:Axios 分享 AI 如何提升本地新闻生产效率与影响力
Axios 结合实际工作流分享:在不牺牲编辑把关的前提下,引入 AI 辅助资料整理、写作草稿、版面/分发等环节,以更小团队覆盖更多地方议题。对媒体行业而言,关键不在“自动写新闻”,而在把高耗时的后台工作标准化,从而把人力释放到采访与核验上。
-
Google:发布 Gemini 3.1 Flash-Lite,主打规模化与成本效率
Google 介绍 Gemini 3.1 Flash-Lite,定位为更快、更省的系列模型,面向高并发与大规模部署场景。此类“轻量高吞吐”模型通常用于客服、内容理解、批量抽取与工具调用入口等任务,意味着企业侧会更频繁地以小模型承接前置流程,再把少量复杂请求上送更强模型。
-
Google DeepMind:Project Genie 提示词技巧,帮助生成更可控的“新世界”
Google 分享 Project Genie 的提示词写作要点,强调用更明确的约束来提高生成世界的一致性与可编辑性,包括场景结构、风格与交互细节的描述方式。对生成式内容工具而言,提示词从“灵感输入”逐步变成“可复用的控制面板”,降低创作试错成本。
-
Hugging Face:PRX 第三部分,24小时训练文生图模型的工程复盘
Hugging Face 博客继续分享在限定时间内训练文本到图像模型的流程经验,覆盖数据准备、训练策略、算力配置与质量评估等关键环节。此类“可复现的快速训练”经验正在把文生图从研究项目推向更可落地的工程实践,为小团队做定制化生成模型提供路径。
-
MIT Technology Review:如何弥合“把 AI 真正跑进生产”的运营鸿沟
MIT Tech Review 讨论企业从试点走向生产时常见的运营问题:模型并非只要“上线”就结束,还需要监控、回滚、成本控制、合规与组织流程重构。文章也提到 agentic AI 的新挑战——多步工具调用使故障定位更难、风险面更大,要求更成熟的运行治理与工程体系。
-
arXiv:基于知识图谱+多智能体的事实核查证据检索(WKGFC)
论文提出用权威开放知识图谱做证据“骨架”,再用 LLM 智能体按步骤检索相关子图与网页内容,形成结构化证据并完成断言核查。作者将流程建模为 MDP,并用提示词优化提升决策质量,试图解决仅靠语义相似度检索导致的多跳关系遗漏问题。
-
arXiv:TraderBench,用真实收益指标评测金融交易智能体鲁棒性
TraderBench 把金融智能体评测分为静态任务(知识检索、分析推理)与对抗式交易仿真,并用夏普率、回撤、收益等“可计算的绩效”评分,避免 LLM 评审带来的波动。结果显示不少模型在对抗条件下策略几乎不变,说明当前智能体缺乏真正的市场自适应能力。
-
arXiv:多模态模型在心电(ECG)推理上的可验证评测框架
论文将“推理”拆为感知与演绎两部分:感知负责从原始信号识别关键形态,演绎负责用临床规则进行逻辑判断。作者用智能体生成代码去验证推理链里描述的时序结构,并用结构化临床标准库校验演绎逻辑,试图规模化评估“推理是否真实”。
-
arXiv:EmCoop,面向具身多智能体协作的框架与基准
EmCoop 将高层认知协作与低层具身交互分离,提供过程级指标来诊断协作质量与失败模式,而不仅看最终是否完成任务。该方向关注“协作如何发生、哪里崩”,适合分析多 agent 的沟通拓扑、队伍规模与任务约束对成功率的影响。
-
arXiv:CARO,用混淆矩阵做“分模式修补”的自动评分量规优化
CARO 针对 LLM 自动批改中常见的“规则稀释”问题:把冲突错误样本混在一起更新会削弱指导。作者用混淆矩阵把误差拆成不同模式,分别生成针对性的修补补丁,再做多样性选择避免规则冲突,从而在教育与 STEM 数据集上提升准确率并降低计算成本。
-
arXiv:AI Runtime Infrastructure,把“执行时”当作可优化的层
论文提出“运行时基础设施”层位于模型之上、应用之下,能够在 agent 运行过程中观测、推理并介入,优化任务成功率、延迟、token 成本、可靠性与安全。与仅做日志/监控不同,它把记忆管理、失败检测与恢复、策略约束等变成执行时可动态调度的能力。
-
arXiv:DenoiseFlow,用不确定性驱动的闭环“去噪”提升长链智能体可靠性
DenoiseFlow 把多步推理视为带噪 MDP,针对指令语义歧义会逐步累积的失效模式,提出感知不确定性、按风险自适应分配计算(单路径或并行探索)、以及根因定位后的定向纠错,并用在线自校准对齐验证器反馈,在多个推理/代码/问答基准上提升准确率并显著降本。
-
arXiv:LOGIGEN,用逻辑约束合成“可验证的智能体任务”数据
LOGIGEN 通过把自然语言政策编译成数据库约束,结合前向合成与确定性状态验证,生成严格可检验的训练任务与轨迹,并提出基于验证的训练流程(先 SFT 再 RL)。它试图解决智能体在复杂有状态环境里缺数据、难验证的问题,为“可控合规”的 agent 训练提供更硬的监督信号。
-
arXiv:Draft-Thinking,学习“草稿式推理”减少过度思考的 token 消耗
Draft-Thinking 认为长链 CoT 往往诱发系统性过度推理,导致成本与能力被不必要地绑定。方法引导模型先学会保留关键步骤的简洁草稿推理结构,并用课程学习稳定内化,再通过自适应提示词让推理深度成为可选行为,在保持性能的同时显著减少推理预算。
-
arXiv:LiTS,把 LLM 树搜索拆成可插拔组件,统一 MCTS/BFS 等算法
LiTS 提供模块化框架,将树搜索拆为策略、转移与奖励模型三类组件,便于在不同任务与算法间复用。作者还指出在无限动作空间里,树搜索瓶颈往往不是奖励质量而是策略多样性不足导致的“模式坍塌”,为提升搜索型推理提供了更明确的工程抓手。
-
arXiv:MemPO,自主摘要与管理记忆的策略优化,面向长时程智能体
MemPO 关注长交互导致上下文膨胀而性能不稳的问题,不仅依赖外部记忆检索,而是让策略模型在交互中主动总结与筛选要点,并把“记忆是否有效”纳入信用分配,达到在保持任务表现的同时大幅降低 token 使用。结果显示在多项任务上提升 F1 并显著降本。
-
arXiv:DeepResearch-9K,面向深度检索型研究智能体的高难数据集与训练框架
作者构建 9000 道多跳深度研究问题,并提供高质量搜索轨迹与可验证答案,同时开源支持多轮网页交互与多种 RL 训练的框架。该工作试图填补“深度研究 agent”缺乏大规模困难数据与可复现训练管线的空白,为后续评测与对齐提供更强基座。
-
arXiv:用能力(capability)类型系统做智能体“安全缰绳”,提升工具调用安全性
论文提出让智能体先用能力安全语言表达意图(示例为带 capture checking 的 Scala 3),由类型系统静态追踪权限与副作用,限制信息泄露与恶意副作用,并支持在处理敏感数据时强制子计算保持“局部纯”。结果显示可在不明显损失任务性能的前提下,提高安全约束的可执行性。
趋势点评
从“更便宜的高吞吐模型”到“运行时基础设施/记忆优化/树搜索框架”,行业正在把大模型能力包装成可运营、可评测、可治理的系统工程。与此同时,论文与基准集中围绕 agent 的可靠性与安全边界:如何在长链任务中控成本、控风险,并用更少的主观评审获得可复现的结论。

发表回复