摆鞋、叠衣、逗猫…自变量发布世界统一模型,机器人成员即将入驻家庭 | 附实录
发布时间:2026-04-24 14:16 浏览量:1
4月21日自变量机器人举行发布会,推出新一代机器人进家庭计划。自变量创始人兼CEO王潜、联合创始人兼CTO王昊全面解读了WALL-B的技术架构、数据策略和训练机制等,并宣布5月25日搭载WALL-B的新一代机器人将首批入驻真实家庭,开启机器人服务家庭生活的成长之旅。
WALL-B是自变量新一代自研具身智能基础模型,也是全球首个基于世界统一模型架构(World Unified Model,WUM) 的具身智能基础模型,标志着具身基础模型从VLA架构向原生多模态融合架构的重大跨越。
在发布会上,王潜指出,当前模型仍处于“实习生”阶段,会犯错,需要远程协助,有时可能把拖鞋放到厨房、擦桌子擦到一半停下来“思考”。但其能够实现24小时不间断工作,且每工作一天都会因新数据的产生而变得更“聪明”。
发布会后,CEO王潜、CTO王昊一起参加了媒体交流会。当谈到机器人进家这个话题时,CTO王昊则表示:“过去机器人无法做多件事,让大家觉得机器人好像离进家庭很远。但实际上,机器人能处理摆鞋、叠衣、洗衣、铲猫砂、遛狗、逗猫等零碎需求,我们将机器人引入进家庭就是为了解决细碎需求、覆盖日常长尾任务,将其定位为全能家庭助手。”
以下是网易智能等与王潜和王昊的对话实录,经不改变原意的编辑:
01摆鞋、叠衣、铲猫砂:“不嫌累”的成员即将入驻家庭
问:当前阶段机器人的通用性是否足够支持进家,机器人能进入家庭并完成大部分相关活动的时间点是什么?
王潜:我们5月25号就要把真实的机器人放到家庭里面去,希望机器人进入家庭第一天就能做大部分我们希望它做的事。除狭窄空间无法到达、复杂工具无法操作外,在它可以去到的地方,所有物理上能实现的事情都能做。当然,这些事情并非百分之百靠AI自主完成,有时得需要人工兜底、接管并保障安全。
王昊:在我们一直进行的家庭、养老院、酒店等场景探索中发现,人们在家庭里没有特别高频的需求,但有很多构成日常必需的小需求。过去机器人无法做多件事,让大家觉得机器人好像离进家庭很远。但实际上,机器人能处理摆鞋、叠衣、洗衣、铲猫砂、遛狗、逗猫等零碎需求,这些日常事务合在一起就是大需求。所以,我们将机器人引入进家庭就是为了解决细碎需求、覆盖日常长尾任务。
问:自变量5月份招募机器人进入家庭,是否可以确定机器人已具备预想的能力并可实际落地?
王潜:是,大家现在就可以拿出手机在58APP上申请,让机器人来到家里。它不是预设好的,也不是实验性质的,物理上它能做的事都能做。
问:通过APP预约机器人上门扫房,是否需要公司员工与保姆一同前往,保姆和机器人是否需要公司后台进行遥控或其他操作支持?
王潜:机器人现场不太需要员工实时支持,目前是保姆和机器人一同进入家庭。机器人在屋内可达范围内表现较好,现场人员主要处理其物理可达范围外的问题,比如过道过窄无法通过、物品无法拿起等。
这并不代表闭环内无人参与,仍有人员远程提供接管支持。机器人遇到无法解决的问题时,会远程发出信号呼叫人工接管,待难题解决后再交还给AI自主运行。
问:自变量机器人部署进家庭,实现了泛化性的领先,您如何看待整个具身智能行业的通用性和泛化性程度?
王昊:当大家对机器人期望不高的时候,机器人进家就能带来很多惊喜;但你如果以人的智能水平标准去衡量机器人的时候,就可能会对它比较失望。机器人虽能覆盖大部分家庭任务,但受限于身体通过性、任务覆盖程度,仍存在一定局限性。所以泛化性体现在同一任务能在不同家庭环境中完成,例如应对高矮不一的桌面、宽窄不同的家具、易倾倒的物品,或是打滑的地面等,而非包揽所有家务。全球具身智能行业都在通过具身模型训练提升泛化能力,差异在于覆盖程度与表现。
王潜:总体来讲大家要给机器人一些耐心,虽然这个词已经存在近一个世纪了,但五年前我们才第一次实现机器人抓取眼前物品,此前机器人只是按预设轨迹不停地重复。所以我觉得机器人发展的速度在某种意义上要超过大家一般意义上的直觉,我毫不犹豫地认为真正意义上的Ahamoment就在不远的未来,可能比大家想象的要近一点。
问:在解决机器人泛化能力方面,除了数据问题外,自变量机器人还需突破哪些难点?
王昊:物理世界模型有很多相关模态与处理逻辑和数字世界不同。我们需要更高频的处理,视觉要做动态视觉而非传统静态视觉,从视觉运动中理解因果逻辑,我们要为视觉、语言、动作、触觉等设定不同的监督目标。我们现在其实一直在做2D到3D的映射,2D是多摄像头的视觉输入,3D是我们在三维空间里执行动作的这个过程,这是以往具身模型未处理过的问题,需要考虑好怎么把这个空间建构好。
王潜:现实物理环境中的物理规律高度复杂,而且会有大量不可控情况发生。比如我们的手指互相摩擦,轻搓的时候很顺畅,但当压紧的时候就会一跳一跳地滑动。这是因为手指是个可变形物体,加上它上面的摩擦是非线性摩擦,所以出现了高度随机性。这类情况在自动驾驶、语言模型、多模态及马拉松机器人中从来没有遇到过,但却是上肢操作能力里最为复杂和困难的事。随机物体抓取五年前才实现,感知物体和实际交互是两个完全不同并且差异极大的层次。
所以我们提出“世界统一模型”的目的就是希望这个模型从第一条训练数据到整个模型架构,都是为了捕捉物理世界中关键且难捕捉的特性而设计。它不应该是已有模型的延伸,也不应该从已有模型继承任何东西,它从一开始就为了这个任务服务。
问:未来家庭机器人进入家庭的价格预期是什么,能否让每个普通家庭都用得上?
王潜:我们尽可能让所有家庭都用得起,但价格上会有一定区隔。用汽车比喻,有基础款产品,也有中端及高端价位的产品。我们希望未来市场朝这个方向发展,实现普惠与技术平权,同时满足有差异化需求的消费者。
02边做边学:家庭机器人正在悄悄自我进化
问:发布会提到机器人将进入100个家庭、每个家庭采集100个数据,且行业认为1万数据是零样本泛化的卡点,Wall—B发布时已收集的“牛奶数据”量级是多少,该量级是否达到零样本泛化标准?进入家庭后的数据收集核心目标是什么,与之前的数据收集有何区别?
王昊:家庭任务是多样的,所以不存在为特定任务采集固定数据量或固定次数的情况,否则机器人就没法进入家庭。我们不应预设机器人需要学习多少次才能学会,而是让搭载模型的机器人去做、去尝试。它能完成一部分任务,再由人协助改进做得不好的地方,这才是核心。所以衡量家庭任务数据的价值,不以数据条数为标准,而是以任务的丰富程度、完成的平均程度与复杂性来衡量的。
我们的数据采集与回流方式和之前大家认为的离线式的数据采集是不一样的。离线是先有数据、训练模型,再到新场景评测部署。我们在大规模预训练后,模型已具备零样本泛化能力,不需要在新场景里重新训练数据,可以通过这种静默的方式实现在线学习。先让搭载模型的机器人直接执行任务,无法完成的通过人机协作让数据回流,下次即可克服困难,无需刻意采集数据。模型进化、数据回流、模型评估同时发生,这是很不一样的一点,是现阶段我觉得具身大模型迭代方式很不一样的地方。
问:除了希望在家庭多元化场景中挖掘更多数据之外,自变量在数据路线(包括仿真、真机、UMI等)上的整体规划及思考是什么?
王昊:我们核心强调数据来自于真实环境,真实环境数据的获取途径不只一种。过去我们主要靠真实机器人远程操作获取数据,现在可以通过可穿戴设备、无本体、相机等设备采集,这些数据均来自现实世界,只是它们之间的信息密度与信息容量不同。
一般来讲,现实世界的数据是我们主要坚持的方向。它也有不同的数据分级,从最底层的ego-centicr,到中间层穿戴设备数据,再到上层真机数据。其实在本体数据上应该还要再区分一层,我想把它称为交互式数据。
数据采集一种是人工操作采集,另一种更重要的是让模型机器人自主探索,通过人机协作的方式获得数据是更上一层。
越容易获取的数据,训练难度越大,本质上需要找到好方法形成对这个数据的有效的压缩。真实世界纯视频数据的压缩思路,与基础模型训练手段一致。所以很难离开模型去看数据,要在模型数据闭环里谈主要的数据策略。
问:全国成立了多个地方性数据联盟以解决数据问题,自变量有从大脑、身体到数据的自有体系,如何看待数据联盟这一趋势,不加入这些联盟的想法是什么?
王潜:我们一直以来都对任何合作持非常开放的态度。这个行业还是处在很早期的阶段,我们还是认为大家一起来把这个事情做出来。
数据采集厂的建设对不同公司的意义不同。我们对数据质量要求较高,所以在数据链路的理念和运营考虑上,不见得与所有人一致。所以我们很多时候持非常开放的态度,而且我们确实参与了一些这种意义上的合作。
问:发布会上提到机器人可以在真实家庭中实现边做边学的自我迭代,这个自我迭代是否有具体周期?
王昊:这种训练方式在做推理或执行任务的同时,会持续进行数据回流、在线运行模型,所以不存在所谓的迭代周期,你可以理解它是一直在迭代自己的参数的。大量机器人部署后会天然形成数据回流,它可以保证实现近乎在线式学习。
问:自变量已覆盖130个应用场景,其中家庭场景需求占比最高的场景有哪些,是否有实验室推理及可量化的数据支撑?
王昊:家庭场景的核心特点是,进入前无法预知具体任务,需现场自主规划、拆解任务,这与实验室集中数据采集完全不同。实验室会提前搭建场景、明确任务,并主动增加环境干扰以提升多样性;而家庭环境本身就足够复杂、因果关联强,无需额外制造干扰,数据来源与数据效率差异显著。
王潜:我们不希望机器人是受限的,即便可将家庭场景划分为清洁、做饭、照护等,也不愿让机器人被这类分类限定,而是希望它能平等对待并完成所有任务,这也是我们追求AGI的核心逻辑。数字世界的大模型之所以重要,关键在于无限制,我们同样希望物理世界的机器人也没有能力边界。
问:自变量数采工厂的建设规模如何?
王潜:我们自有数据采集工厂是国内最早的,从2024年年初自建,没有拿其他人的任何钱,到现在仍然是全国、乃至全世界规模最大的工厂之一,这是我们发展中重要的一部分。
问:自变量自有工厂采集的数据与从外部购买的数据配比是多少?
王潜:整体来说我们平等对待工厂采集与外部环境采集的数据,将它视为统一集合,按统一方式调整配比,不会单纯区分二者数量。
王昊:其实当你真正开始调整数据配比,就意味着你已经进入大模型训练的下一阶段了。上一阶段数据量不足,只能有多少训多少。如今调控配比与质量,是重要的进步。不同数据的最终价值不同,还是要看信息密度,物理信息越多的数据价值越高,因为它采集难,数据占比自然更小。
03走出实验室,走进家门:让机器人直面真实生活场景
问:外界普遍认为自变量不急于商业化变现,现在推出并落地家庭相关产品的根本原因是什么?
王潜:我们一直秉承技术第一性,当前阶段的商业化是为达到Ahamoment这个核心目标服务的。
家庭场景是数据的重要导入渠道,同时也能带动多个方面发展。家庭场景中存在很多物理限制,这些问题只有实际去做才能发现,否则会限制硬件设计、数据、模型等各环节的进步。
实验室的研究成果终究要与广阔世界交互,商业化是最天然的方式。无论是收集数据还是带动技术发展,商业化都是非常自然的事。为了做好技术,我们必须做好当前阶段的商业化,且我们认为当前阶段的商业化有相当价值,能做就要做好。
04不惧大厂入局,通用机器人市场空间超乎想象
问:自变量通用机器人的市场规模有多大?
王潜:通用机器人市场无法用当前的经济数字简单衡量。仅家庭市场,家务劳动约占GDP的20%,人均每日1-2小时做家务,对应8小时工作,市场规模相当于GDP的1/4-1/5,空间极大。
问:大厂全面投入具身智能研发,您如何判断行业态势,是否存在相关顾虑?
王潜:包括小米、字节、阿里、美团等股东均在布局具身智能,这并不影响其对自变量的投资支持。核心逻辑有两点,一是市场空间足够广阔,二是创业公司具备大型企业难以替代的优势。
首先,公司具备软硬件一体化的能力;其次,大模型行业发展证明,资源投入并非核心壁垒。以OpenAI的发展历程为例,谷歌直至2025年末才在技术层面实现真正追赶,此时距离ChatGPT推出已接近两年。在此期间,大厂投入的人力与算力远超创业公司,却未能产生对等的技术成果。技术门槛具备决定性作用。大模型行业技术门槛变降低的感知源于蒸馏技术普及,而机器人无法采用蒸馏方式实现能力迁移,技术难度依然极高。
问:具身智能技术将对从业者及其家庭带来哪些变化?
王潜:家务服务是尚未被满足的刚需市场,传统人工服务存在诸多痛点,大量家庭被迫自主承担家务,造成效率浪费。
人们每日工作8小时之外,仍需投入近两小时处理家务,这部分隐性劳动对应的经济规模约占GDP的1/4-1/5。我们希望机器人能真正服务于家庭,替代人完成不愿意承担的事,并且做得更好。这也是发布会主题“一个新的家庭成员的诞生”的意义所在,我们希望它带来的是一种全新的生活方式,而不只是款产品。