黑色幽默电影-一周AI大事:Sora 2开启"造梦时代",马斯克机器人在学功夫
一、重磅工具:Sora 2视频生成模型发布——造梦人已就位,AI帮你把‘主角梦’拍成现实
新闻:OpenAI发布Sora 2视频生成模型,并通过一段介绍视频展示了其强大功能。Sora 2提升了视频的真实感、画质和一致性,实现了音画同步,还支持用户通过自己的肖像生成客串视频。
OpenAI还同步推出搭载Sora 2模型的iOS应用,内置TikTok风格的视频信息流供用户发现生成内容,并集成了AI视频创作功能。Sora的“客串”(Cameos)功能允许用户上传个人肖像,让自己出现在生成的视频中。这一有趣功能催生了大量广泛传播的Sora 2视频。目前Sora模型仍处于邀请制阶段,邀请码正分批发放。
锐评:Sora 2让你一秒“穿越”进大片当主角,前提是……得先有邀请码。
二、AI技术与产品发布——从代码到功夫,从云端到桌面:大模型“诸神之战”比各大景区还热闹
1. 新闻:Anthropic公司发布Claude Sonnet 4.5。官方称其在编程、智能体AI和计算机操作方面表现优异,具备强大的推理和工具使用能力。在编程类基准测试SWE-bench Verified中,该模型取得77.2%的顶尖成绩,并行测试时可达82.0%;在“计算机操作”任务中的得分也达到顶尖水平,为61.4%。
相较于业内顶级模型,Claude Sonnet 4.5在构建金融分析、智能体工具使用等智能体工作流方面的性价比超高。目前用户评价褒贬不一,但普遍认为其UI表现优异,而且能用各种刁钻古怪的提示词来测试Sora 2的极限。Claude Sonnet 4.5在速度和价格上都有显著提升,能以Sonnet 4的定价提供媲美Claude 4.1 Opus的性能,不过其成本仍然是GLM-4.6的8倍。
锐评:性能直追顶配版,价格却只要“中配”的钱,唯一烦恼可能是隔壁国产大模型比它便宜了8倍。
2. 新闻:智谱AI发布GLM-4.6。作为GLM-4.5的升级版,GLM-4.6支持更长的上下文(最高20万token),提升了编码和推理性能,并降低了实际应用中的token消耗。此次更新专注于增强智能体工作流能力,在Terminal-Bench测试中得分为40.5%,在GPQA测试中得分81.0%,在HLE中得分17.2%,SWE-bench Verified得分68%,在顶尖模型中性价比极高。GLM-4.6已开放模型权重,用户可通过智谱清言平台和HuggingFace获取。
锐评:加量还降价,誓要卷死海外同行。
3. 新闻:DeepSeek(深度求索)发布DeepSeek-V3.2-Experimental。该模型基于DeepSeek-V3.1-Terminus开发,引入“深度求索稀疏注意力”(DSA)机制,在保证与前代模型同等质量的前提下,显著降低了长上下文场景下的训练和推理计算量。根据《DeepSeek-V3.2-Exp技术报告》的阐释,DSA的细粒度稀疏注意力机制使注意力复杂度接近线性而非二次方变化,因此能以更低成本处理长上下文查询并保证结果质量。这也让DeepSeek能将其API推理价格减半。
锐评:啥是“稀疏注意力”不重要,重要的是深度求索靠这招把API价格直接砍了一半。
4. 新闻:腾讯发布混元生图3.0(HunyuanImage 3.0)。这是一个开源权重的800亿参数混合专家(MoE)文生图模型,每token激活参数达130亿。这款强大的多模态模型在自回归框架下统一了多模态理解和图像生成,效果斐然。混元生图3.0已登顶LMArena综合榜与文生图专项榜,超越原冠军NanoBanana。腾讯混元已在Hugging Face公开权重并发布了技术报告。
锐评:一不小心就坐上了全球开源文生图的头把交椅。
5. 新闻:阿里云通义千问Qwen3系列模型发布并开源了新一代多模态模型Qwen3-VL-30B-A3B-Thinking和Qwen3-VL-30B-A3B-Instruct。Qwen3-VL是一个多模态视觉语言模型系列,基于其前代产品,在视觉理解方面实现了显著提升,同时保持了强大的纯文本处理能力。
锐评:前有鹅厂登顶,后有阿里通义上新,国产大模型“神仙打架”。
6. 新闻:Hume AI推出新一代文本转语音模型Octave 2,具备更低延迟(低于200毫秒)和深度情感理解能力,并将多语言支持扩展到11种语种。用户可通过Hume平台和API预览体验版。
锐评:AI语音还能读懂你的情绪,以后吵架可能都吵不赢它了。
7. 新闻:俄罗斯AI研究实验室AI-Forever开源了文本生视频模型Kandinsky 5.0 T2V Lite。该模型参数为20亿,为生成5到10秒的AI视频提供了领先的轻量级开源方案。Kandinsky 5.0 T2V Lite包含多个变体,针对不同时长和流程进行了优化。相关代码和说明发布在GitHub平台,模型权重可通过HuggingFace获取。
锐评:俄罗斯老铁送温暖,轻量级开源视频模型让普通玩家也能尝鲜AI大片。
8. 新闻:ServiceNow SLAM实验室发布开源权重多模态推理模型Apriel-1.5-15B-Thinker,在之前Apriel系列文本模型的基础上增加了图像推理能力。报告显示其性能可与许多更大规模的系统相媲美,模型权重和介绍已上线Hugging Face。
锐评:Apriel证明“小个子”也能有大智慧,专治各种“参数焦虑症”。
9. 新闻:Liquid AI发布端到端音频语言基础模型LFM2-Audio-1.5B,专为低于100毫秒的响应延迟而设计。LFM2-Audio-1.5B支持实时轻量级助手,可以同时理解和生成语音及文本。用户可通过官方平台体验演示版本,模型权重已上线HuggingFace。
锐评:低于100毫秒的响应速度,比你反应还快的AI语音助手来了。
10. 新闻:Perplexity旗下智能体浏览器Comet全面开放免费下载。Comet将研究导向的界面与Perplexity问答引擎深度融合,内置引文和快速捕捉等工具,定位为面向搜索与写作场景的“为你服务”型AI优先浏览器。Comet付费版还增加了团队协作和高级功能。模型功能、平台支持以及下载安装链接均在官网详细列明。
锐评:Comet想让你彻底忘记传统搜索框,直接把问题喂给浏览器。
11. 新闻:挪威浏览器公司Opera发布AI浏览器Neon,宣称其为一款“为行动而生”的智能体辅助浏览器。Neon已向部分用户开放,月费19.90美元,其他用户可申请加入候补名单。Comet和Neon的相继发布加剧了AI浏览器领域的激烈竞争态势。
锐评:AI浏览器大战愈演愈烈,Neon主打高端局。
12. 新闻:谷歌推出Jules工具集和相关API,为其自主编程智能体Jules拓展集成能力。Jules API基于三大核心概念构建:资源(Source)、会话(Session)和活动(Activity)。Jules通过配置上述三种要素可规划多步骤编程任务、调用工具模块,并基于现有代码库和CI流程执行命令行操作。谷歌已提供Jules API的完整演示案例和技术文档。
锐评:谷歌给程序员配齐了AI“工具箱”。
13. 新闻:Gemini取代Google Assistant成为谷歌Nest以及Home设备的默认语音助手。此次更新与全新改版的Google Home应用“Gemini for Home”深度整合,将Gemini功能嵌入到设备设置、控制和自动化流程中,其中还包括支持连续对话的付费版Gemini Live。目前谷歌通过“抢先体验”计划推送相关功能,官方宣称这一举措将为近十年来发布的旧设备带来智能体和自动化功能。
锐评:谷歌终于下定决心让老将Assistant退休,让Gemini全面接管智能家居。
14. 新闻:谷歌为照片编辑应用Snapseed在设备端新增交互式图像分割功能。用户通过完全本地化的“指点分割”交互方式,即可在Snapseed移动应用中实现快速抠图和图像编辑功能。谷歌研究博客详述了模型架构和用户体验,将其定位为面向创作者的本地视觉实用功能。
锐评:“指尖魔法”成现实,P图党的福音来了。
15. 新闻:谷歌正在预览一款全新的Gemini人工智能模型,该模型旨在通过浏览器浏览网络并与之交互,使AI智能体能够在原本为人类而非机器人设计的用户界面中执行操作。这款名为“Gemini 2.5计算机使用”(Gemini 2.5 Computer Use)的模型,利用“视觉理解与推理能力”分析用户的请求,并完成相应任务,例如填写并提交表单。
锐评:AI也学会上网“冲浪”办事了,以后摸鱼刷网页可能比用户还熟练。
16. 新闻:特斯拉官方账号@TeslaAI于10月4日发布视频,展示了特斯拉Optimus人形机器人正在学习功夫的场景。针对Optimus本次“对打”是遥控还是AI驱动的问题,马斯克在X平台帖子的评论区明确回应:“是AI,不是遥控。”
锐评:别家的AI还在画图写诗,马斯克的机器人已经开始练咏春了。
三、AI研究资讯——从“提示词焦虑”到“举一反三”,AI研究正进化成会思考的自己
1. 新闻:谷歌研究团队提出协同图像生成工作流,通过约束编辑与结构化输入让用户对模型进行迭代式“协同引导”,从而减少反复调整提示词的麻烦。相关研究论文《Preference》提出强化学习智能体PASTA的概念,可优化文生图的交互过程,提高生成式图像任务的可控性和创作者的满意度。尽管这还是一项研究,但为谷歌图像工具生态系统中的编辑功能改进提供了支持。
锐评:谷歌这项新研究,就是想治好广大创作者的“提示词焦虑症”。
2. 新闻:麻省理工学院林肯实验室揭幕全球高校最强AI超级计算机TX-GAIN。这套新系统专为生成式AI工作负载优化,旨在加速从生物防御到材料发现等领域的研究进程。虽然与科技巨头的数据中心相比,这套拥有600张GPU的学术计算系统规模不算大,但算力仍达到2exaflops(百亿亿次),跻身TOP500超级计算机榜单。
锐评:麻省理工学院也开始秀科研算力。
3. 新闻:Meta、Mila-Quebec AI Institute、蒙特利尔大学和普林斯顿大学联合提出元认知复用(Metacognitive Reuse)机制。简单来说,就是让模型自己回顾、总结解题思路,将常用的推理套路提炼成更为简洁的“行为”,并将其存储于“行为手册(Behavior Handbook)” 中。当再遇到类似问题时,模型便可直接从手册中调用相应的行为,无需重新推导。实验结果显示,该机制通过行为条件推理、行为引导自我改进、行为条件监督微调三种应用场景,在MATH、AIME等数学基准测试中实现了显著优化,在保持准确率不变的前提下,最多可减少46%的推理token使用量。
锐评:说白了就是让AI学会“举一反三”,把解题套路存进小本本,下次直接抄作业。
四、AI商业与政策动态——算力、资本与版权博弈:AI巨头的下一场战争在幕后打响
1. 新闻:OpenAI与AMD签署一项价值数十亿美元的股权协议,在过去12个月里OpenAI通过风险投资交易筹集了约470亿美元,估值达到约5000亿美元。今年以来,OpenAI已签署价值高达约1万亿美元的交易,从而获得运行人工智能模型的计算能力,交易方包括AMD、英伟达、甲骨文和CoreWeave等,这些企业的利益也与OpenAI未来的盈利能力相绑定。通过交易,OpenAI在未来十年内将获得超过20吉瓦的计算能力,大致相当于20个核反应堆的电力。OpenAI高管预估,按照目前的电力价格计算,每1吉瓦的人工智能计算能力的部署成本约为500亿美元。
锐评:OpenAI不是在买算力,就是在去买算力的路上。
2. 新闻:OpenAI规模最大的一届开发者大会DevDay于10月6日在旧金山Fort Mason举行。会上,公司介绍并演示了为ChatGPT打造应用程序App的框架Apps SDK(软件开发框架)、支持打造AI智能体(Agent)的AgentKit、以及轻松嵌入ChatGPT聊天功能的ChatKit。
锐评:大会三件套发布,OpenAI要拉开发者一起搞钱。
3. 新闻:OpenAI宣布三星和SK集团加入“星际之门”(Stargate)计划,并拓展韩国AI数据中心布局。OpenAI表示,两家韩国企业的加入有助于加速全球AI基础设施建设,与早前甲骨文、软银等数据中心合作建设计划形成互补。此次合作不仅扩大了内存芯片供应,也增加了韩国AI数据中心的容量,既能支持全球AI算力,也符合韩国自身AI发展战略。此外,OpenAI还宣布与日本数字厅达成战略合作,通过与政府机构推广生成式AI应用。
锐评:像极了攒局打游戏,到处拉人组队刷“算力副本”。
4. 新闻:外媒援引知情人士称,埃隆·马斯克(Elon Musk)麾下AI创企xAI被曝正进行200亿美元(折合人民币约1424亿元)融资,英伟达在这轮融资中的股权投资部分高达20亿美元(折合人民币约142亿元)。知情人士称xAI这笔新融资包括股权和债务,将与其计划在大型数据中心Colossus 2中使用的英伟达GPU挂钩。
锐评:主要目的似乎是拉卖“铲子”的英伟达入伙。
5. 新闻:Meta宣布自今年12月起使用用户与AI助手的聊天记录来个性化定制信息流、短视频、群组及广告内容,但敏感话题除外。欧盟、英国和韩国因监管要求暂不实施,此举凸显出AI助手交互数据正与核心广告系统深度整合。
锐评:你跟AI说的每一句“心里话”都被Meta默默记下,转身就变成精准推送的广告。
6. 新闻:欧盟委员会宣布一项10亿欧元(约合11亿美元)的计划,旨在推动在关键行业广泛应用人工智能技术,同时努力减少欧盟对其他国家技术的依赖。欧盟执行机构的“应用人工智能”(Apply AI)战略是在今年4月份公布的一份行动计划之后出台的。该计划旨在减轻初创企业因难以遵守去年8月生效的具有里程碑意义的人工智能规则而带来的监管负担和成本压力。
锐评:欧盟狂砸10亿欧元,生怕AI掉队。
7. 新闻:美国商务部拟议的“50%规则”可能冲击依赖版权素材训练的AI公司。据报道,相关草案要求,若训练数据中超过50%的内容受版权保护,则公司必须进行披露或取得授权。这可能会大大提高专有模型训练数据的透明度,推动AI厂商更多使用授权语料库。
锐评:以后靠“白嫖”版权内容训练模型的日子可能要到头了。
8. 新闻:环球音乐和华纳音乐将与谷歌、Spotify以及Udio、Suno、Stability AI等AI初创公司达成授权协议,或将重塑AI时代的音乐产业。据悉,谈判双方探讨了类似流媒体的微支付模式。这项协议有望规范生成式音乐工具的训练数据授权与输出内容版权管理。
锐评:音乐巨头们拿着版权排队等收钱了。
9. 新闻:由于好莱坞强烈抗议其平台使用大量未经授权的角色和版权材料,OpenAI正为Sora 2增加版权方对角色使用的控制功能。OpenAI计划为电影公司提供细粒度的IP或角色控制机制,并探索授权IP的商业化框架。据报道,迪士尼已选择退出合作体系。这一功能的具体实施方案和政策细节仍在不断完善中。
锐评:一边用人家的IP玩得飞起,一边又给好莱坞大佬们上“版权锁”功能,这波操作属实有点尴尬。
10. 新闻:OpenAI通过官方新闻账号对马斯克最新以诉讼为幌子的骚扰策略作出回应。OpenAI表示,公司不需要也不想要任何人的商业机密。OpenAI将保护员工,不会被马斯克试图欺凌他们的行为所吓倒。
锐评:遭OpenAI明杠,老马又碰上硬茬了。
五、AI观点——画得出“皮相”,却画不出“筋骨”,真实感之外的AI“虚幻”危机
新闻:当前AI视频模型是否具备物理推理能力?答案是否定的。一项新的基准研究发现,当前主流文生视频系统的物理推理表现参差不齐,视频真实感的进步速度远超其对现实世界的深入理解。这对AI安全性和可靠性构成了重要隐患。
以Veo 3的典型失误案例(此处“失误”指无法持续正确完成任务)为例,当被要求模拟打开煤气灯并烧掉一张纸时,12次尝试中有9次失败;当被要求解决简单迷宫时,12次尝试中有10次失败;当被要求按顺序戳破带标签的气泡来给数字排序时,12次尝试中有11次失败。
或许可以说,AI视频生成模型再现物理现实的失误与大语言模型的“幻觉”现象如出一辙。它只是基于统计数据来模拟现实,却缺乏现实根基。要解决AI视频的真实性缺陷,很可能需要开发基于现实世界基础的AI模型。