最新最快科技资讯
太阳能光伏网

RoboChallenge测评: π0、π0.5领先,自变量WALL-OSS-Flow零成功率引关注

在具身智能竞速加速升温的当下,真实场景的客观评测成为检验机器人模型能力最关键的一环。

近日,“具身进化论”在查询最新发布的RoboChallenge测试结果时注意到,π0、π0.5在成功率上遥遥领先其他开源模型。自变量机器人(X Square Robot)的大模型wall-oss-flow虽然在多次企业自我宣传中提到,“基本上和PI、和google在同一个水平线上”,但是在多个任务上成功率偏低。根据公开的测评记录,其在31次测试中大部分成功率为零,这一表现引发业内对其大模型真实能力的讨论。

RoboChallenge是全球首个具身智能的大规模真机评测平台,也是目前行业内最受关注的真实物理机器人评测平台,由Dexmal原力灵机联合Hugging Face发布,被视作“机器人界的硬核基准”。其最大特点是真机真测:评测同时接入UR5、Franka、Aloha双臂系统以及国产ARX-5四类主流机器人,统一软件栈并配备多台RGB-D深度相机,以确保任务在高度一致的物理条件下进行。

平台的任务覆盖柔性物体处理、双臂协作、多阶段顺序动作等真实世界的关键难点。其中Table30场景包含30个具有代表性的日常任务,包括叠抹布、整理果篮、插花、开关水龙头等,难度从基础操作递进到长链条组合动作。

据了解,RoboChallenge之所以被认为更加客观,是因为其采用了“任务成功率+进度评分”的双指标体系。前者统计任务是否完整成功,后者将任务拆解为多个关键阶段并按推进程度累计分值,即便任务未完成也能反映模型做到哪一步,为能力评估提供更细粒度的信息。

在该评测体系中,多款主流开源模型已完成测试。“具身进化论”对比发现,基于Physical Intelligence (Pi)系列构建的π0和π0.5是官方重点基线,它们在成功率与进度得分上整体领先其他开源模型,特别是π0.5,显示出更成熟的任务执行能力。

π0测试结果

π0.5测试结果

相比之下,自变量的wall-oss-flow在相同条件下的表现明显偏弱。测评结果显示:wall-oss-flow共测试31次,其中2次成功率为60%,1次成功率为50%,1次成功率为20%,其余所有任务成功率均为0。

wall-oss-flow测试结果

“具身进化论”从进度分情况看到,模型虽然在部分任务中能完成初段动作,但多数情况下未能完成关键步骤,执行链条往往在中段被迫中断。这与平台强调的“多阶段连续操作能力”形成明显差距。

公开信息显示,自变量2023年成立,创始人兼CEO为王潜。今年9月,自变量发布其开源大模型WALL-OSS,自变量在官方宣传稿中强调该模型“具备强大的泛化性和推理能力,在长程操作任务方面表现优于其他基础模型”。

王潜甚至曾在接受媒体采访时表示:“我们(自变量)的模型水平基本上和PI、和google在同一个水平线上。”

但此次RoboChallenge的评测结果显示,自变量模型的水平、能力在真实机器人执行任务时未能体现,与PI的模型(π0和π0.5)也存在明显差距。

一位具身智能从业者对“具身进化论”分析,RoboChallenge的独特价值正是在于提供透明、可复现的真机评估环境,避免主观展示带来的偏差。随着越来越多模型加入测评,业内对“模型真实能力差异”有了更清晰的认知。

对具身智能行业而言,此次结果再次提醒:真正的竞争不在PR宣传中,而在三方认可的评测,学术基准线,以及机器人能否稳定完成任务的那一刻。

真实世界,正在成为检验大模型能力的最终标准。而认识到差距,正是追赶的开始。

最新相关

国家药监局通告35批次药品不合格

2025年12月4日,国家药监局发布最新通告,35批次药品被检出不符合规定。此次检验由广东省药品检验所等9家机构联合开展,涉及29家企业生产的药品。不合格项目包括成分含量、微生物限度等,具体产品...

中百集团累计关闭30家仓储大卖场

2025年12月4日,中百集团宣布截至目前已关闭30家仓储大卖场。此次调整是公司优化网点布局、提升经营效率的举措之一。关闭门店主要集中在效益不佳的传统大卖场,旨在适应消费模式变化,推动业态转...

南网储能子公司引入12亿元战投

2025年12月4日,南网储能控股子公司肇庆浪江蓄能发电有限公司通过北京产权交易所公开增资扩股,引入战略投资者。广东战略性产业促进发展基金合伙企业(有限合伙)拟出资12亿元参与本次增资,原股东...

工信部部署推进工业互联网发展

12月4日,工业和信息化部党组开展理论学习中心组学习。会议强调要坚持系统观念,谋划新阶段工业互联网发展目标与任务,推动其与制造业数字化转型、智能制造及"人工智能+制造"深度融合。同时,要加...

央行开展10000亿元逆回购操作

2025年12月5日,中国人民银行开展10000亿元买断式逆回购操作,期限为91天(3个月)。此次操作采用固定数量、利率招标、多重价位中标方式。操作地点为中国境内,由中国人民银行组织实施。此举旨在调...

三季度非现金支付超1685亿笔

2023年三季度,全国银行共办理非现金支付业务1685.08亿笔,总金额达1503.36万亿元。数据由中国人民银行发布,反映了我国支付体系的高效运转和数字化支付的持续普及。业务量和金额同比均保持稳定...

华安鑫创获北汽福田项目定点

2025年12月4日,华安鑫创宣布收到北汽福田项目定点通知。公司获得某商用车平台一体机总成产品的开发与供货资格,销售范围覆盖全球。此次合作将对公司中长期经营业绩产生积极影响,但预计不会对本...

博纳影业: 《阿凡达3》票房尚难预计

2025年12月4日,博纳影业发布股票交易异常波动公告。公司指出,近期投资者关注的《阿凡达3》尚未全球上映,其票房收入目前难以预估。尽管公司控股子公司通过与TSG Entertainment Finance LLC合作...

东阿阿胶拟1亿至2亿元回购股份

2025年12月4日,东阿阿胶发布公告称,公司拟以1亿元至2亿元回购股份。本次回购将通过集中竞价交易方式实施,回购价格不超过72.08元/股。回购的股份将用于注销,以减少公司注册资本。此举旨在优化...

中威电子控股股东筹划控制权变更

2025年12月4日,中威电子(300270.SZ)公告称,公司控股股东新乡市新投产业并购投资基金壹号合伙企业(有限合伙)正在筹划公司控制权变更事宜,可能導致实际控制人变更。为保证信息披露公平,维护投资...

南凭高铁崇凭段12月5日通车

南凭高铁崇左至凭祥段将于12月5日开通运营,标志着南宁至凭祥高铁全线贯通。线路全长81公里,设计时速250公里,设崇左南、宁明东、龙州、凭祥东站。通车后,南宁至凭祥最快75分钟可达,较普速列车...

中国移动推出AI听障康复智能体

12月3日国际残疾人日,中国移动在广东广州落地全国首个AI听障康复智能体"中移无障碍"。该智能体融合AI大模型与5G通信技术,针对我国2780万听障人士提供电话接听、面对面沟通、语言康复训练等场...

黄仁勋谈成功背后的焦虑与坚持

2025年12月4日,英伟达CEO黄仁勋在最新访谈中坦言,尽管公司已成为全球最具价值的科技企业之一,他仍长期保持'随时可能破产'的危机感。他回忆上世纪90年代英伟达曾三次濒临绝境,这些经历塑造了其...