AI早报 · 2026年2月12日

AI早报 · 2026年2月12日

昨日要闻(按重要性)

  1. OpenAI 发布 GPT-5.3-Codex-Spark:面向“实时编程”的超低延迟模型预览

    OpenAI 推出 GPT-5.3-Codex-Spark 研究预览,主打实时协作式写代码与极低延迟(强调可达千 token/秒级响应),128k 上下文、文本输入。模型与 Cerebras 低延迟硬件深度集成,并同步改造端到端链路以降低首 token 与每 token 开销,计划逐步扩展到更多模型与场景。来源链接

  2. TechCrunch:OpenAI 解散“使命对齐(Mission Alignment)”对外沟通支持团队

    OpenAI 向媒体确认,负责阐释公司使命及影响的 Mission Alignment 支持团队已被解散,成员被分配到组织内其他岗位;原负责人 Josh Achiam 转任“首席未来学家”,将聚焦研究 AI/AGI 对世界的影响。报道回顾 OpenAI 过去相关团队多次调整,引发外界对内部治理与安全叙事一致性的关注。来源链接

  3. TechCrunch:Modal Labs 传洽谈新一轮融资,估值约 25 亿美元,聚焦推理基础设施

    据多位知情人士,专注模型推理(inference)基础设施的 Modal Labs 正与投资人讨论新融资,估值或达 25 亿美元,较数月前 11 亿美元估值大幅提升;报道提到其 ARR 约 5000 万美元。随着“推理效率=成本与体验”的权重上升,推理云、编排与加速成为资本追逐的热门赛道。来源链接

  4. TechCrunch:xAI 罕见公开全员大会视频,披露产品线拆分与“太空算力”野心

    xAI 在 X 平台公开 45 分钟全员大会视频,讨论组织重组、产品路线与与 X 的联动:团队按聊天/语音、编码系统、视频生成 Imagine、以及面向“计算机使用与企业模拟”的 Macrohard 等方向划分。会议还提及订阅收入与生成内容规模等内部指标,并再次强调将算力与数据中心推向太空甚至月面制造的设想。来源链接

  5. TechCrunch:马斯克称 xAI 多名联合创始人离职为“组织重组裁撤”,并将继续激进招聘

    围绕 xAI 近期多名核心工程师与联合创始人离开,马斯克公开表示离职多为组织重组下的“分道扬镳”而非自愿离开,并称公司将加速招聘。报道梳理离职时间线与外界争议背景,指出在前沿 AI 人才高度稀缺的当下,团队稳定性与声誉将直接影响模型迭代、产品交付与监管应对。来源链接

  6. TechCrunch:讨论“轨道 AI 数据中心”经济账,落地仍受制于发射、散热与供应链

    报道梳理“把数据中心搬到轨道/卫星”的热潮与多方计划,指出按现阶段测算,1GW 轨道数据中心成本或达数百亿美元,显著高于地面方案;要接近可行需发射成本大幅下降、卫星制造规模化、太空散热/辐射可靠性工程突破,以及更成熟的星间激光通信。短期更现实的切入点可能是分布式推理而非大规模训练。来源链接

  7. TechCrunch:微软 CoreAI 高管谈“智能体让创业成本再降一阶”,但落地难点在目标与数据

    微软 CoreAI 部门高管 Amanda Silver 认为,智能体将像公有云一样显著降低创业与软件运维成本:例如自动升级依赖、缩短故障处置时间、减少夜间值班干预。她也指出,企业落地变慢往往不是技术不够“会做”,而是组织不清楚“让智能体做什么、成功如何定义、喂什么数据”,以及关键操作上需要人类把关的边界设计。来源链接

  8. Hugging Face:OpenEnv + Calendar Gym 展示工具型智能体在真实系统里的常见失误模式

    Hugging Face 介绍 OpenEnv 框架及“日历管理”生产级环境 Calendar Gym,用真实 API、权限与状态约束评估工具调用智能体。结论强调:多步骤链路、语义歧义、参数结构错误与执行顺序错位,是从 Demo 走向生产的主要坎;与其只比“会选工具”,更要比“能否在约束下稳定执行并自我修复”。来源链接

  9. TechCrunch:Threads 推出“Dear Algo”功能,允许用户用公开贴文临时调教信息流

    Meta 旗下 Threads 上线“Dear Algo”,用户通过发布公开帖表达“想多看/少看什么”,系统据称将对信息流做为期三天的临时调整;他人还能转发同一请求复用偏好。该设计把个性化从私密设置变成“社区可见”的交互,但也带来隐私与表达成本问题,意在提升信息流可控性与实时讨论氛围。来源链接

  10. TechCrunch:Uber Eats 推出购物车助手 Cart Assistant,可识别清单图片并自动加购

    Uber Eats 发布测试版“Cart Assistant”购物车助手:用户可输入清单或上传图片(含手写/食谱截图),系统自动把商品加入购物车,并结合历史订单优先推荐常买品牌,支持替换与补充。对话式“从意图到下单”的体验正在外卖与杂货平台加速渗透,竞争焦点从补贴转向转化效率与个性化。来源链接

  11. TechCrunch:前 Founders Fund VC Sam Blond 推出 AI 销售平台 Monaco,强调“AI + 人在回路”

    Monaco 宣布走出隐身,累计融资 3500 万美元,面向早期公司提供 AI 原生 CRM、潜客数据库与外联智能体,并配置资深销售人员在环监督与执行关键环节。其思路不是用“拟人化智能体”取代销售,而是把 AI 自动化与专家服务打包,降低初创公司获客与销售运营门槛;差异化落在流程闭环与可靠性上。来源链接

  12. TechCrunch(视频):Glean 讨论“企业 AI 层”归属,权限与治理被认为是最大难点

    Glean 从企业搜索扩展为“AI 工作助手”底座,试图连接内部系统、承接权限与上下文,让上层各类 AI 体验共享同一数据与治理层。访谈强调,企业推进智能体时最难的常不是模型能力,而是权限、合规、数据边界与组织协同;谁能把这些做成可复用的平台层,谁就可能在“被大厂捆绑的 AI”之外获得长期议价权。来源链接

  13. TechCrunch(播客):Glean 进一步阐述其平台化路线,瞄准企业内“AI 统一层”之争

    播客内容延续“企业 AI 层”话题:随着 AI 从问答走向执行,企业需要统一的连接、权限与知识层来支撑多应用、多智能体的落地。Glean 将自己定位为夹在微软、谷歌等大厂与企业内部系统之间的平台层,讨论了组织结构变化、权限治理成本,以及智能体热潮中“真实能力”与“概念包装”的区分。来源链接

  14. TechCrunch:苹果 AI 版 Siri 再次延期,部分功能或推迟至 iOS 26.5 甚至 iOS 27

    据彭博社报道,苹果原计划随 iOS 26.4 推出的新 Siri 功能在内部测试中遇到问题,将改为更缓慢的分批上线,部分特性可能推迟到 5 月更新或更晚。报道还提到新 Siri 形态将更接近对话式大模型助手,并可能由 Google Gemini 提供能力支持。系统级集成与稳定性约束,正在拖慢苹果“端侧+云侧”AI 叙事兑现。来源链接

  15. arXiv:提出图像编辑模型的“纯视觉提示越狱”攻击与基准,扩大多模态安全面

    论文提出 Vision-Centric Jailbreak Attack(VJA),展示在图像编辑模型中,攻击可通过标记、箭头等“纯视觉提示”传递恶意指令,绕过以文本为中心的防护;并引入 IESBench 安全基准。作者称在部分商用模型上攻击成功率可达较高水平,并提出训练外的多模态自省推理防御思路,提示多模态对齐与审计需覆盖“视觉指令层”。来源链接

  16. arXiv(ICLR 2026):用统计检验识别“看似无损优化”导致的大模型性能退化

    研究指出,即便温度为 0,模型在数值误差等因素下也可能对“理论无损”的推理优化不鲁棒;为区分噪声与真实退化,作者基于 McNemar 检验提出假设检验框架,强调按样本对照而非任务级聚合评估,并给出跨基准汇总决策方法。论文提供基于 LM Evaluation Harness 的实现,声称可对约 0.3% 精度下降作出可信判定。来源链接

  17. arXiv:Aletheia 数学研究智能体提出,尝试从竞赛解题迈向“半自主科研”流程

    论文介绍 Aletheia 数学研究智能体,强调迭代生成-验证-修订的长链路推理与工具使用,并以更强版本的 Gemini Deep Think 与推理时扩展规律为核心。作者展示从奥数题到博士级练习的能力,并声称在评估大量开放问题库时出现若干“自主解决”案例;同时建议用自治度与新颖度等级量化 AI 辅助科研成果,推动可比性。来源链接

  18. arXiv:CLI-Gym 提供大规模命令行环境任务生成管线,用于训练/评测代理式编程

    CLI-Gym 通过“环境历史反演”从健康环境回溯出故障状态,再打包错误信息形成可复现任务,构建 1655 个命令行环境密集型任务集合。作者同时提供成功轨迹并微调出 LiberCoder,在 Terminal-Bench 上给出显著提升。该思路把“真实环境修复”变成可规模化数据,直指代理式编程在依赖/系统问题上的短板。来源链接

  19. arXiv:AgentTrace 提出面向智能体的运行时结构化日志框架,强调安全可追溯与可观测

    论文指出 LLM 智能体的非确定性使传统静态审计失效,提出 AgentTrace 作为动态可观测与遥测层,以较低开销在运行时采集操作、认知与上下文三类结构化日志,用于调试、监控与风险分析。其目标是把“智能体做了什么、为何这么做、状态如何变化”落到可追踪证据上,为高风险场景的部署提供安全与问责基础设施。来源链接

  20. arXiv:RLCER 用“自演化评分规约”强化链式思维训练,试图降低人工标注与奖励黑客风险

    研究聚焦链式思维(CoT)难以直接奖励的问题:人工标注成本高、静态奖励模型易被投机。作者提出 RLCER,让模型自拟并自演化“评分规约(rubrics)”来给 CoT 提供监督信号,声称在无需人工注释的情况下优于以结果为中心的 RLVR,并可把规约作为提示增强推理时表现。该方向指向“自动化可解释监督”的可持续训练路径。来源链接

趋势点评

昨日信息集中在三条主线:一是“更快的推理与更低延迟”开始重塑产品形态与基础设施;二是智能体落地从模型能力转向权限、治理与可观测;三是多模态安全面外扩到视觉提示与生成内容规模化风险。2026 年的竞争将更像工程与组织的复合战。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注