10月8日,阿里巴巴通义千问技术负责人林俊旸在社交平台发布了一条简短但分量十足的消息:团队已正式建立“机器人和具身智能小组”。
他进一步阐释了背后的技术判断:多模态基础模型正转变为基础智能体(Agents),这些智能体可以利用工具和记忆,通过强化学习进行长视野推理,“它们绝对应该从虚拟世界走向物理世界”。
这并非一次心血来潮的追风口之举。往前追溯15天,在2025年9月24日的云栖大会上,阿里巴巴集团CEO吴泳铭已为这一行动做出战略背书。他判断,行业正进入AI的“自主行动”阶段,并明确将联合英伟达,推动具身智能落地。
从CEO定调到技术团队落地,阿里只用了半个月,其背后是一场酝酿超过两年的战略转型:阿里巴巴正在具身智能这个终极赛道上,完成从“看台投资者”到“核心牌手”的角色转变。
然而,想凭借AI大模型为“大脑”打赢这场物理世界智能化战争的玩家,并不止阿里。
在这条赛道上,早已巨头林立,模式各异:特斯拉正以“从芯片到整机”的全栈自研模式打造擎天柱(Optimus);明星创业公司Figure AI选择与OpenAI结盟,构成“顶尖AI大脑+敏捷硬件身体”的典型组合;而Google DeepMind则持续通过发布RT系列模型,探索通用AI模型控制万物的技术边界。
但此前各方的角力,更多还停留在投资产业和技术研发并进阶段。直到2025年10月8日这一天,阿里与软银的同时出手,才真正将这场竞赛推向了“产业级”规模与“生态级”对抗的全新阶段。
从“广撒网”到“深扎根”
阿里的行动,发生在具身智能全球竞赛骤然加速的背景之下。
就在林俊旸官宣的同一天,日本软银集团也正式宣布,以近54亿美元现金,将工业机器人“四大家族”之一ABB集团旗下的“机器人与离散自动化事业部”收入囊中。软银董事长孙正义对此明确表示,此举旨在将“人工超级智能和机器人技术相融合”,其战略雄心可见一斑。
此举远非孙正义的心血来潮,而是其在AI与机器人领域长达十年布局的最后一块拼图。
回顾软银的路径,它对机器人领域相当热衷:从早期推出Pepper机器人探索人机交互,到斥巨资收购ARM公司掌控底层芯片架构,再到一度将全球技术最顶尖的波士顿动力纳入麾下。然而,这些布局或着眼未来,或聚焦前沿,始终缺少一个能够立刻投入大规模商业化、并且稳定盈利的“主力军团”。ABB机器人业务完美补上了这块“终极拼图”,它带来了前者们所不具备的:大规模、可盈利的成熟工业制造能力与遍布全球的销售网络。
这或许也意味着,软银认为机器人已经来到了大规模爆发的门槛。
东西方两大巨头的同日行动,也再次印证了英伟达CEO黄仁勋在今年6月的判断:AI与机器人是英伟达的两大技术机遇,将带来“数万亿元”的长期增长机会。牌桌上的玩家们已经达成共识:让AI拥有身体,进入物理世界“干活”,是一片巨大的蓝海。
但想要在这片蓝海中取胜,对所有玩家而言都非易事。
宇树科技创始人王兴兴在2025年外滩大会上的感慨,点破了行业的核心焦虑:“现在AI写文作画,已经比99.99%的人都要做得好,但真正让AI干活,还是一片荒漠。”
可以看到,阿里在过去两年的机器人领域投资,恰恰相当重视“干活”,也就是机器人本体和灵巧手相关企业:
2024年2月,投资协作机器人企业法奥意威。
2024年10月,联合领投星动纪元近3亿元Pre-A轮,并于次年1月追投。
2025年3月,阿里参与逐际动力A+轮融资,半年内累计跟进其A轮系列投资达5亿元。
2025年6月,联合领投宇树科技C轮。
2025年9月,重金领投自变量机器人A+轮。
如今成立具身AI小组,标志着其战略正从“广撒网”的生态投资,转向“深扎根”的核心自研,决心将这些分散的“躯体”与自己的“大脑”——通义千问——进行深度缝合。
阿里的解法:“一脑多形”与场景闭环
面对“AI如何干活”的终极问题,阿里的技术蓝图正与行业主流的“一脑多形”路径深度对齐。
这一概念由智元机器人联合创始人稚晖君率先提出,即以一个通用大模型为智能核心,适配驱动形态各异的机器人。
虽然阿里未直接沿用此说法,但其战略思路已如出一辙。
在2025年的云栖大会上,阿里云CTO周靖人已明确表示,最新的Qwen3-Max模型在Agent工具调用能力上达到“一梯队水平”。同时,阿里联合英伟达,将集成NVIDIA Isaac Sim仿真工具与Cosmos测试平台,这些工具可通过标准化接口与通义大模型联动,为不同形态的机器人提供统一的训练与测试环境。
这一切都指向一个清晰的两层架构:由通义千问担当通用的“大脑”,负责任务理解与规划;由阿里投资的硬件公司担当专用的“执行单元”,负责动作落地。这与软银直接收购成熟硬件巨头(ABB)后,再为其嫁接“AI大脑”的“自上而下”整合路径,形成了鲜明对比。
如果说“一脑多形”的技术路径是英雄所见略同,那么“场景闭环”则是阿里手中最独特的王牌。
AI模型迭代极度依赖高质量的真实数据。无论是那些阿里投资的机器人企业还是阿里自身庞大的业务生态——菜鸟的智慧仓储、饿了么的即时配送、天猫的零售场景——恰好构成了天然、复杂且海量的“数据炼丹炉”。
凭借着超3800亿元建设的云和AI硬件基础设施,不仅仅为大模型训练等海量计算需求所准备的算力基座提供了充足的弹药,这些基建也能够服务AI+机器人的“研发-测试-迭代”闭环,让模型和硬件的磨合成本降到最低。
终极挑战:跨越“软”与“硬”的天堑
尽管前景广阔,但无论是阿里“合纵连横”的生态路径,还是软银“帝国并购”的整合路径,都必须面对一个共同的终极挑战:如何跨越人工智能“软”世界与机器人硬件“硬”世界之间的巨大天堑。
“一脑多形”的蓝图描绘了一个理想的未来,但在现实中,硬件层面却是一座“巴别塔”。不同厂商的机器人拥有迥异的底层架构、通信协议和数据接口。因此,摆在阿里平台方面前的首要难题,并非简单的“重复造轮子”,而是如何扮演“通用翻译官”的角色,投入巨大的工程力量去抹平硬件差异,让通义大模型这颗“大脑”能真正听懂并指挥形态各异的“身体”。这对于试图连接多家初创盟友的阿里而言,挑战尤为艰巨;相比之下,软银的挑战则在于如何让ABB这个统一但可能僵化的工业体系,去拥抱外部更开放、更多变的AI生态。
即便解决了软件的适配,挑战会立刻下沉到物理层面。机器人的最终表现,终究受限于精密减速机、力矩传感器等核心硬件的物理极限,而这正是整个产业链共同面临的瓶颈。更重要的是,这些尖端硬件的成本,与训练AI所需的海量真实数据的采集成本叠加,共同构成了商业化落地前难以逾越的“成本天堑”。
在硬件攻坚上,阿里可通过资本和订单赋能生态伙伴(如星动纪元)共同成长。而在破解数据和落地成本的难题上,阿里则拥有其他玩家难以比拟的优势——其独有的“试验场”(菜鸟、盒马等)能够提供海量的真实场景,在“内部消化”中极大地降低数据采集和模型试错的成本。
吴泳铭为阿里的AI战略锚定了方向,林俊旸的团队则正式下场执行。从早期的资本布局到如今的亲自整合,阿里在具身智能领域的野心已然清晰:它不仅要做一个“赋能者”,更想成为平台规则的制定者。
然而,10月8日的号角吹响之后,真正的考验才刚刚开始。在这场由巨头点燃的竞速赛中,宏大的愿景固然重要,但最终的胜负手,将取决于谁能率先破解“AI落地干活”这个最朴素也最艰难的商业与工程难题。