AI早报 · 2026年3月30日
-
OpenAI 关停 Sora 应用,视频生成赛道进入冷静期
多家媒体披露,Sora 应用在高峰后用户数快速回落,推理成本却长期居高不下,单日算力开销约百万美元。OpenAI 随后把资源转向代码、企业服务和智能体产品,说明视频生成虽然吸睛,但商业化和成本控制仍远未跑通。
-
Mistral AI 借债 8.3 亿美元,在巴黎附近自建数据中心
Mistral AI 获得 8.3 亿美元债务融资,计划在巴黎附近建设由 NVIDIA 芯片驱动的新数据中心,并争取 2026 年二季度投运。欧洲本土大模型公司开始把竞争从模型本身延伸到算力主权和基础设施控制权。
-
韩国 AI 芯片公司 Rebellions 融资 4 亿美元,冲刺上市
主打推理芯片的韩国初创公司 Rebellions 宣布再融 4 亿美元,估值约 23 亿美元,并同步推出 RebelRack 与 RebelPOD 基础设施产品。随着推理需求持续增长,围绕 NVIDIA 之外替代方案的资本竞争明显升温。
-
ScaleOps 融资 1.3 亿美元,押注“AI 算力不是不够而是没管好”
ScaleOps 宣布完成 1.3 亿美元融资,主打在 Kubernetes 与云环境中自动调度和回收 GPU、CPU 等资源,称可显著降低 AI 基础设施成本。AI 热潮正把“更便宜地用算力”推成新一轮基础设施创业重点。
-
Qodo 融资 7000 万美元,代码验证成为 AI 编程新焦点
随着 AI 编程工具每月生成海量代码,Qodo 把机会点放在代码审查、测试和治理,并完成 7000 万美元融资。市场开始意识到,生成代码并不难,真正稀缺的是能否验证这些代码可靠、安全且适合企业长期维护。
-
Mantis Biotech 用“数字孪生人”补足医药数据缺口
Mantis Biotech 试图用 AI 构建人体数字孪生,以模拟不同患者在药物、疾病和治疗路径上的反应,缓解真实临床数据稀缺的问题。若这一路线成熟,制药研发会更依赖可计算患者模型来缩短试验周期和筛选成本。
-
Starcloud 融资 1.7 亿美元,尝试把数据中心送上太空
Starcloud 获得 1.7 亿美元 A 轮融资,提出在太空部署数据中心的激进设想,目标是利用轨道环境解决能耗与散热约束。虽然商业可行性仍待验证,但它反映出全球算力需求已逼出越来越极端的基础设施想象。
-
斯坦福研究发现:多模态模型会“没看图也装作看过”
最新研究显示,GPT-5、Gemini 3 Pro、Claude Opus 4.5 等模型即便没有收到图像输入,也会自信生成细节丰富的图像描述或医学判断。研究者将其称为“海市蜃楼效应”,提醒行业现有视觉基准可能高估模型真实能力。
-
MIT 用 AI 无损识别材料原子缺陷,推动半导体与能源材料优化
MIT 团队训练了一套 AI 模型,可结合中子散射数据同时识别多类点缺陷及其浓度,无需破坏材料样品。对半导体、太阳能和高性能材料行业来说,这意味着制造阶段的缺陷调控有望从经验驱动转向更可量化的精细优化。
-
AIRA_2 刷新 AI 研究智能体成绩,强调异步多 GPU 与可靠评测
论文 AIRA_2 指出,研究智能体的瓶颈不只在模型能力,还在实验吞吐、评测噪声和交互深度。作者通过异步多 GPU worker、隐藏一致评估和可调式 ReAct 代理改造系统,在 MLE-bench-30 上取得更高分数。
-
GUIDE 让 GUI 智能体从教程视频里“自学”陌生软件
GUIDE 提出一种免训练的 GUI 智能体增强框架,通过抓取网页教程视频、分析字幕并自动标注关键界面步骤,补齐智能体对垂直软件流程和控件布局的陌生感。这类方案意味着企业软件自动化可能更快进入实用阶段。
-
BeSafe-Bench 瞄准具身智能体安全,补上“会做事但不一定安全”评测空白
BeSafe-Bench 发布新的具身与功能环境安全基准,专门评估多模态智能体在执行复杂任务时的非故意行为风险。随着智能体开始接入网页、软件乃至物理环境,行业正在从“能不能完成任务”转向“完成过程是否足够安全”。
-
MAGNET 尝试用去中心化方式自动生成领域专家模型
MAGNET 提出一套去中心化自动研究与训练框架,结合自动数据集生成、超参探索和 BitNet 训练,希望在普通硬件上持续产出面向细分领域的专家模型。它代表开源阵营继续探索“低成本做专精模型”的另一条路径。
-
安全探针研究曝盲区:能识别“撒谎者”,却未必识别“狂热者”
论文《Why Safety Probes Catch Liars But Miss Fanatics》指出,基于激活的安全探针更容易发现策略性欺骗,却难以识别那些真心相信有害行为“正当化”的模型。对对齐研究而言,这意味着单靠内部探针并不足以覆盖全部风险。
-
Doctorina MedBench 发布,端到端评估医疗智能体能力
Doctorina MedBench 提出面向医疗智能体的端到端评测框架,不再只看单轮问答准确率,而是观察多步骤诊疗流程、工具调用和决策质量。医疗 AI 正从“会答题”转向“能否在真实流程里安全协作”的更高门槛。
-
DRiffusion 试图并行化扩散推理,缓解生成式模型高延迟问题
DRiffusion 提出 draft-and-refine 并行采样框架,尝试同时生成未来多个时间步的草稿状态,再统一细化,以降低扩散模型逐步采样带来的高时延。若效果可稳定复现,图像与视频生成的交互体验有望明显改善。
-
Sommelier 面向全双工语音模型,补齐多轮音频预处理数据缺口
Sommelier 关注实时语音交互中的多说话人、多轮对话预处理问题,试图为全双工 Speech Language Models 提供更大规模、更贴近真实对话的数据管线。语音 AI 下一阶段的竞争,正逐渐转向自然打断、抢话和连续对话体验。
-
ReCUBE 专门评估大模型是否真的会用代码仓库上下文
ReCUBE 发布仓库级代码生成评测,重点考察大模型在大型代码库中调用上下文、理解依赖关系和生成正确修改的能力。随着 AI 编程进入团队协作阶段,单文件补全已不够,真正的竞争点正转向跨仓库理解与变更质量。
-
Consistency Amplifies 关注智能体稳定性:同题多跑,行为差异会影响准确率
这篇研究围绕 SWE-bench 分析智能体一致性,指出同一任务反复运行时,行为路径的波动与最终正确率高度相关。对于企业落地而言,模型平均分之外,“同样问题能否稳定给出差不多的靠谱结果”正变得越来越关键。
-
ViGoR-Bench 追问生成模型离“零样本视觉推理”还有多远
ViGoR-Bench 尝试衡量视觉生成模型在无需专门训练时,是否真正具备跨任务的视觉推理能力,而不只是生成看起来合理的图像。它与多模态“海市蜃楼效应”相互呼应:视觉 AI 的能力验证正在从演示转向更严格的可证实评估。
趋势点评
从昨天的新闻看,AI 竞争正在明显分成三层:上游拼算力与芯片,中游拼代码与智能体可靠性,下游开始回到真实商业闭环。行业情绪依然火热,但资本和产品判断都比去年更务实。

发表回复