小微
(原标题:2025,AI行业发生了什么?)图片来源于网络,如有侵权,请联系删除
文/陈永伟
2025年的帷幕已经落下,这一年中,AI行业无疑走过了极具里程碑意义的一程。从技术范式的革新,到商业逻辑的重构,从产业应用的落地,到全球规则的博弈,这一年既有突破,也留下诸多思考。
鉴于AI发展错综复杂,这里只能从十个侧面做一个简要回顾。
一、多模融合
过去几年中,AI大模型在文字、推理等方面进展神速,但它们多模态能力的发展却相对迟缓,这在很大程度上限制了其能力的发挥。比如,在4.0版本之前,GPT虽然已经能写诗、会编程,但既看不见、也画不出,如果用户想让它分析一张图片讲了什么,或是根据要求生成一张图片,它就显得力不从心。
虽然从2024年开始,AI开发者们就开始大力发展模型的多模态能力,但在相当长一段时间里,这些努力仍然主要集中在对既有模型进行组合――文本一个系统,图像一个系统,语音再来一个系统,然后用工程手段把它们拼在一起。这样的模型可以完成一些多模态任务,但由于各系统之间存在协调问题,其能力局限性一直十分明显。到了2025年,越来越多的开发者不再满足于这种“拼装式”方案,转而开始设计“原生多模态”模型,从训练之初起,就让模型在同一个体系里同时处理文本、图像、音频、视频等信息。
在设计原生多模态模型的过程中,很多人逐渐意识到:多模态模型的真正瓶颈,并不在于它能不能看图、听声音,而在于能否把视觉、语言、时间与空间组织成一个可推理、可行动的统一表征。现在的大模型在语言上已经高度成熟,却依然缺乏对三维空间、物理约束和因果关系的系统理解。因此,下一代AI的突破重点,可能并不在于再多几个参数,而在于能否构建对真实世界的内部模型,使其可以在脑中“预演”行动后果。在这种思路之下,“世界模型”与“空间智能”重新被重视,并逐渐成为设计原生多模态模型的重要理论依据。
在实践层面,多模态模型几乎成为头部AI企业的主战场。企业不再满足于“能看图”,而是把能力推进到看得准、看得全、看得懂流程,并能把视觉理解转化为可执行的动作:有的强化视觉与语言的一体化表达,有的把能力扩展到视频与长时序理解,也有的尝试把“看懂屏幕”转化为界面操作。共同的趋势是,模型不再只是回答问题,而是越来越多地介入真实任务本身。
多模态模型的蓬勃发展,为AI技术的应用化和普及化提供了强大的助力。麦肯锡在《技术趋势展望2025》中指出,多模态AI正在成为新一代AI系统的关键底座,并将与智能体(Agent)、自动化、物理系统控制深度融合,其影响将从数字世界延伸至现实世界。而Gartner则强调,多模态技术的影响将超出AI范畴,全面重塑当前的软件生态。据其预测,到2030年,80%的企业软件将在其产品中植入多模态AI能力。
二、具身爆发
?
如果说多模融合解决了AI“怎么看”和“怎么理解”的问题,那么具身智能(Embodied AI)要回答的,则是AI在真实世界中“做什么”和“怎么做”。虽然具身智能的发展已有数十年时间,但过去,机器人更多停留在实验室展示阶段:完成一些酷炫动作,在受限场景中做局部自动化,人们讨论的也只是它们“技术上究竟能做到什么”。而到了2025年,情况开始发生变化――具身机器人真正走向市场,行业叙事也从“能不能做到”转向“能不能规模化、能不能稳定工作、能不能进入岗位”。
最直接的信号,来自量产节奏的变化。2025年,国内的宇树、优必选,国外的波士顿动力、Apptronik等企业,都明确宣布产品进入量产与商业化试点阶段,而不再只是单台原型或演示样机。在以北美和中国为代表的主要市场中,具身机器人开始按“百台级”“千台级”规划供应链、制造与交付。IDC估算显示,2025年全球在仓储、制造、巡检等岗位的试点应用,较2024年增长了数倍。
与此同时,成本也出现了显著下降。几年前,能够与人交互的人形机器人价格动辄几十万甚至上百万美元,几乎无法商业化;而根据美国银行研究院的数据,目前典型人形机器人的价格已经下降到每台约3.5万元左右,比2023年下降至少40%,并且未来几年还有继续下探的空间。这种成本下降,正在迅速降低使用门槛,让机器人更容易走向工厂、走进家庭。
具身智能在2025年的“爆发”,是多种因素共同作用的结果。一方面,原生多模态AI的发展,补上了机器人“看不懂世界”的短板,让它不仅会跑会跳,还能理解环境、根据情境做出决策,从而具备真正的实用价值;另一方面,用工成本的持续抬升,也在扩大市场需求。制造、物流、巡检、服务等领域本就劳动力密集,在老龄化、年轻人不愿进入高强度岗位、合规与安全成本增加等因素叠加下,企业开始转而接受机器人替代,由此带动了需求的快速增长。
三、算力竞争
如果说前几年算力竞争的核心,是“谁能抢到更多GPU”,...