AI早报 · 2026年2月10日

本期覆盖:模型商业化、视频生成与世界模型、深伪治理与安全、代理评测与长上下文、以及多代理在移动端任务上的突破。

昨日 20 条 AI 热点(按重要性排序)

  1. ChatGPT 开始测试广告:免费与 Go 订阅先上,付费层级默认不展示

    摘要:OpenAI 宣布在美国为 Free 与 Go(每月 8 美元)用户测试广告位,强调广告不影响回答、不会向广告主暴露对话内容,并提供“为何看到此广告”、历史与个性化开关等控制项;18 岁以下与敏感主题将禁投。

    来源:https://techcrunch.com/2026/02/09/chatgpt-rolls-out-ads/

  2. Runway 融资 3.15 亿美元、估值 53 亿:加码“世界模型”与多行业落地

    摘要:Runway 新一轮由 General Atlantic 领投,Nvidia、Adobe Ventures 等参投,称将用于训练下一代世界模型并扩展到医疗、气候、能源与机器人等场景;公司强调其视频生成模型在多项基准上领先,并持续扩充算力与团队。

    来源:https://techcrunch.com/2026/02/10/ai-video-startup-runway-raises-315m-at-5-3b-valuation-eyes-more-capable-world-models/

  3. Anthropic 据称逼近 200 亿美元新融资:估值或达 3500 亿美元

    摘要:TechCrunch 引述彭博称 Anthropic 正接近以约 3500 亿美元估值融资 200 亿美元,投资需求强劲使募资规模翻倍;参与方或包括多家顶级风投及 Nvidia、Microsoft 等战略伙伴。前沿模型竞赛与算力成本被视为主要驱动力。

    来源:https://techcrunch.com/2026/02/09/anthropic-closes-in-on-20b-round/

  4. 印度收紧深度伪造治理:官方下架 3 小时、紧急投诉 2 小时窗口

    摘要:印度修订 2021 IT 规则,把深度伪造纳入正式监管框架:要求平台对合成音视频进行披露核验、清晰标注并嵌入可追溯溯源信息;对部分违规内容设定更短的处理时限,并将“不合规”与安全港保护挂钩,引发对过度下架与自动化误伤的担忧。

    来源:https://techcrunch.com/2026/02/10/india-orders-social-media-platforms-to-take-down-deepfakes-faster/

  5. 微软披露“单提示”可削弱多款模型对齐:GRPO 也能被反向利用

    摘要:Microsoft Security 研究提出“GRP-Obliteration”:用常见的 GRPO 强化学习流程,把奖励函数改为“更直接完成有害请求”,即可在少量甚至单个未标注提示下,显著提升模型在多类危险任务上的脆弱性;作者建议把安全评测纳入下游微调与部署后的持续流程。

    来源:https://www.microsoft.com/en-us/security/blog/2026/02/09/prompt-attack-breaks-llm-safety/

  6. OpenAI 硬件项目改名并延至 2027:法院文件称不再使用“io”

    摘要:WIRED 报道称 OpenAI 在商标诉讼相关文件中表示,将不会在任何 AI 硬件产品的命名与营销中使用“io/IYO”等字样,并预计首款设备最早要到 2027 年 2 月底后才向用户发货;文件同时显示其包装与营销素材尚未成型,时间线较此前预期延后。

    来源:https://www.wired.com/story/openai-drops-io-branding-hardware-devices/

  7. 深度伪造诈骗“工业化”:研究称门槛骤降、可规模化定制

    摘要:《卫报》引述 AI Incident Database 分析称,利用低成本工具批量生成定制化诈骗内容已成趋势,包括冒充媒体人、政要或“医生带货”等;研究者认为语音克隆成熟使电话诈骗更易得手,而视频深伪逼真度持续提升将进一步侵蚀对数字内容的信任,并冲击招聘、选举等制度。

    来源:https://www.theguardian.com/technology/2026/feb/06/deepfake-taking-place-on-an-industrial-scale-study-finds

  8. Hauler Hero 获 1600 万美元 A 轮:把 AI 代理带进环卫与垃圾运输软件

    摘要:Hauler Hero 为废弃物管理公司提供 CRM、计费与路线规划一体化平台,并计划推出三类 AI 代理:识别服务问题与增收机会、客服问答,以及基于历史数据自动优化线路;公司称已促成 3500 万次垃圾收运,并在种子轮后人员、营收与客户数翻倍。

    来源:https://techcrunch.com/2026/02/10/hauler-hero-collects-16m-for-its-ai-waste-management-software/

  9. 前 Google 团队做“视频暗数据”基础设施:把海量录像变成可查询业务数据

    摘要:东京创业公司 InfiniMind 宣布完成 580 万美元种子轮,目标是将企业多年沉睡的视频与音频资料结构化为可检索数据;其平台可进行长视频语义检索、场景/人物定位与实时电视内容分析,并计划把总部迁往美国,切入安防、监控与内容分析等企业场景。

    来源:https://techcrunch.com/2026/02/09/ex-googlers-are-building-infrastructure-to-help-companies-understand-their-video-data/

  10. 前 GitHub CEO 创业 Entire:用开源“Checkpoints”管理 AI 代理生成的代码与上下文

    摘要:Thomas Dohmke 的新公司 Entire 以 6000 万美元种子轮、3 亿美元估值起步,主打“把 AI 生成代码与其提示词/对话/工具调用上下文自动配对”的版本化能力;其愿景是让多代理协作产出的海量代码可审计、可搜索、可回溯,缓解开源项目被低质 AI 贡献淹没的风险。

    来源:https://techcrunch.com/2026/02/10/former-github-ceo-raises-record-60m-dev-tool-seed-round-at-300m-valuation/

  11. Databricks CEO:AI 不会“杀死 SaaS”,但会让界面与岗位壁垒消失

    摘要:Databricks 披露年化营收跑到 54 亿美元、其中 AI 产品贡献 14 亿美元以上,并强调 LLM 自然语言界面(如 Genie)正在把“写查询/懂界面”的门槛变成对所有人可用的对话;CEO 认为系统不会轻易迁移,但 UI 变成语言后,传统 SaaS 的培训护城河会被削弱。

    来源:https://techcrunch.com/2026/02/09/databricks-ceo-says-saas-isnt-dead-but-ai-will-soon-make-it-irrelevant/

  12. 研究:真正拥抱 AI 的员工可能更易倦怠,效率提升会被更高期望“吃掉”

    摘要:TechCrunch 引述 HBR 研究:在一家约 200 人公司中,员工自发使用 AI 后并未“少干活”,而是把节省的时间转化为更多任务与更快响应,工作侵入午休与夜晚;研究者提醒企业在推 AI 的同时要同步调整目标与节奏,否则“可做更多”会演变成系统性疲劳。

    来源:https://techcrunch.com/2026/02/09/the-first-signs-of-burnout-are-coming-from-the-people-who-embrace-ai-the-most/

  13. Google/YouTube Safer Internet Day:强化家长控制、年龄估计与 AI 素养资源

    摘要:Google 与 YouTube 推出更集中化的 Family Link 家长控制与屏幕时间管理,并更新受监管账号创建与切换流程;YouTube 继续用机器学习做“年龄估计”以启用默认保护,并新增 Shorts 滚动时长限制与更细的就寝/休息提醒,同时发布面向 2-8 年级的 AI 素养教案与 Gemini 引导式学习资源。

    来源:https://blog.google/innovation-and-ai/technology/safety-security/safer-internet-day-2026-kids-teens/

  14. mistral.rs 走红:主打“零配置”推理与多模态,覆盖 Hugging Face 多类模型与量化

    摘要:开源项目 mistral.rs 宣称提供单一二进制的聊天/服务/基准/网页 UI,并支持多种量化格式、连续批处理与多设备映射;其定位是直接运行 Hugging Face 模型、自动识别架构与模板,同时提供 Python/Rust SDK 与工具调用集成,瞄准本地与自建推理的工程效率。

    来源:https://github.com/EricLBuehler/mistral.rs

  15. LLM-as-a-Judge 评测“变稳定”的方法:用原子化失效检查替代主观打分

    摘要:Veris 的实验比较两种评测提示:以“是否发生某类明确失效”为中心的 42 条原子检查,与每类只给一个“做得好不好”的整体评分;在同一批对话轨迹上重复运行 10 次后,前者一致性约 94%,后者约 66%。结论是把评测问题拆细、减少可解释空间,能显著降低随机性。

    来源:https://veris.ai/blog/llm-as-a-judge

  16. arXiv:LOCA-bench 评测长上下文“语言代理”,聚焦 context rot 与上下文管理策略

    摘要:LOCA-bench 提出在可控环境里持续增长代理上下文长度,并保持任务语义不变,以更贴近真实“长跑任务”;论文指出传统长上下文基准多为一次性检索,而代理需探索、规划与行动,性能会随状态复杂度下降,但更先进的上下文管理可显著提升成功率,并已开源。

    来源:https://arxiv.org/abs/2602.07962

  17. arXiv:Minitap 多代理分工+执行校验,在 AndroidWorld 基准上达成 100% 成功率

    摘要:论文提出 Minitap,用 6 个专职代理做“认知隔离”,并对文本输入做确定性后验验证、用元认知检测循环与触发改策;作者称其在 116 个 AndroidWorld 任务上首次 100% 通过,超过人类基线(约 80%)。消融显示多代理拆分、执行校验与元认知分别带来显著增益,并开源实现。

    来源:https://arxiv.org/abs/2602.07787

  18. arXiv:Aster 自主科研发现代理称“迭代速度提升 20 倍”,覆盖数学到生物等任务

    摘要:Aster 以“任务+初始程序+评测脚本”为输入,循环改进程序并追求更高分,作者称其显著减少达到新结果所需迭代次数,使多小时训练等长评估任务更可行;在数学最小重叠、GPU kernel 优化、单细胞降噪、神经活动预测与 NanoGPT 训练竞赛等多领域取得 SOTA 或近似最优表现。

    来源:https://arxiv.org/abs/2602.07040

  19. arXiv:TRUST 用“动态概念定位+选择性微调”做扩散模型有害概念遗忘

    摘要:论文提出 TRUST(Targeted Robust Selective fine Tuning),在扩散模型的“概念遗忘”任务中动态估计目标概念相关神经元,并结合基于 Hessian 的正则做选择性微调;作者称其在对抗提示下更稳健,能在较少算力下实现单一概念、概念组合与条件概念的遗忘,同时尽量保留生成质量。

    来源:https://arxiv.org/abs/2602.07919

  20. Anthropic 进军印度遇“同名”纠纷:本地公司称自 2017 年已使用 Anthropic 商号

    摘要:印度软件公司 Anthropic Software 向卡纳塔克邦商事法院起诉,称其早于 Anthropic 在当地使用该名称,并因后者进入印度市场造成客户混淆,要求确认在先使用并索赔;法院已向 Anthropic 发出通知但未授予临时禁令,案件预计 2 月中旬再审,凸显 AI 公司全球扩张的商标与本地合规风险。

    来源:https://techcrunch.com/2026/02/09/anthropics-india-expansion-collides-with-a-local-company-that-already-had-the-name/

趋势点评

商业化与监管正在同步加速:一边是对话产品引入广告、融资规模继续膨胀;另一边是深伪治理走向“更短时限+更强溯源”。同时,代理能力竞争从“模型大小”转向“长上下文管理、可验证执行与工程化协作”,多代理与评测方法论会成为下一阶段护城河。


评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注