于具身智能海潮回涌的这两年,仿真、真机与人类视频,始终组成数据来历的“铁三角”。从初期研究对于仿真数据的高度依靠,到去年各地真机数采中央的集中发作,再到本年,人类视频正逐渐走向舞台中心,成为驱动模子能力跃迁的要害变量。
4月14日,BeingBeyond(智于无界)发布最新具出身界模子Being-H0.7。于将人类视频范围扩大至20 万小时的基础上,该模子初次将人类视频进修成立于“隐式推理”的世界模子范式上,并于 6 项国际权势巨子评测中取患上综合第一的成就,进一步展示了其于持续动态场景、流体、柔性物体和繁杂物理交互中的能力界限。
主页链接:
https://research.beingbeyond.com/being-h07
论文链接:
https://research.beingbeyond.com/projects/being-h07/being-h07.pdf
01 从1000到 20 万小时, 人类视频线路创始者的持久主义
时间回到2025 年,整个行业仍沉浸于 Physical Intelligence(PI)系列所带来的冲破之中。沿着这一范式,各年夜厂商最先年夜范围设置装备摆设真机数据收罗系统,试图以“更多真实数据”驱动模子能力晋升。
但于彼时,智于无界基在持久多模态预练习的经验,已经率先意想到这一起径的内涵瓶颈:数据工场所孕育发生的样本,于配景、使命、物体以致操作轨迹上高度同质,轻易让模子过拟合在关闭情况,难以泛化到真实世界的繁杂场景。
险些同期,NVIDIA 于 GR00T 中提出“数据金字塔”框架,将数据划分为塔尖(真实数据)、塔身(合成数据)与塔底(人类视频)。当行业仍于加码“塔尖”时,智于无界则将眼光投向塔底——人类视频所蕴含的范围与多样性。
正如其开创人、北京年夜学卢宗青传授所判定:
“人类视频自然与真实世界对于齐,其漫衍式收罗带来的多样性,是集中式真机数采难以替换的。它更有潜力成为具身模子的焦点燃料。”
基在这一判定,卢宗青与其团队在2025年 7 月发布了 Being-H0——全世界首个以年夜范围人类视频为焦点预练习数据,并乐成部署到呆板人体系中的具身模子。将数据范围初次晋升至 1000 小时,H0标记着“人类视频驱动具身进修”线路的正式确立。
作为这一技能线路的创始者,智于无界并未止步。仅隔数月,团队在本年1 月推出 Being-H0.5,将范围扩大至 1.5 万小时,成为全世界首个迈入“万小时级”人类视频预练习的玩家。这一进展显著早在 NVIDIA 的 DreamDojo、EgoScale 和 Generalist AI 的 GEN-1 等后续事情,表现出团队于该标的目的上的前瞻结构。借助人类布局作为通用操作模板,H0.5 已经揭示出显著的跨本体、跨场景泛化能力。
4月14日,于Generalist AI推出GEN1不到两周之时,智于无界推出的Being-H0.7进一步将这一起线推向极致——人类视频总量晋升至 20 万小时,全球仅有GEN-1到达这一范围。

比拟前代H0.5,Being-H0.7 最主要的冲破是提出了一种世界模子新范式:基在海量人类视频,以隐式推理的方式举行练习 。
以NVIDIA 的 Cosmos Policy、DreamZero 等为代表的视频天生式世界模子线路,经由过程“天生将来画面”的方式来辅助动作天生。这种要领能获得不错的可视化成果,但却存于两年夜局限:其一是计较开消极高,没法及时端侧部署;其二是2D图象的天生没法切确对于真什物理空间举行动力学建模(如流体,柔性物体等),轻易逗留于“视觉合理”而非“物理准确”。
作为世界模子,Being-H0.7舍弃了这类低效的动力学建模,其设计更切近人类的举动方式:
于高速运动中,人类其实不会逐帧猜测将来画面,而是依靠一种持久经验堆集形成的“物理直觉”——对于运动趋向、受力成果和操作后果的快速判定。好比看到迎面而来的乒乓球时,运带动不会于脑海中想象下一秒的所有细节,而是会下意识地调动手臂正确挥舞球拍。
为了让模子具备近似“非想象式”的快速判定能力,Being-H0.7经由过程于模子内部引入一块“思索空间”用在潜空间推理,将当前不雅察、使命方针以和对于将来的判定压缩到这一中间暗示中,再由它同一引导将来的动作天生。
假如说隐式推理为模子提供了理解世界的机制,那末海量人类视频则提供了能力的“来历”。
人类的物理直觉不仅来自个别经验,也源在物种持久演化堆集的运动经验。对于在模子而言,只有于充足范围与多样性的举动数据中,才能内化近似的纪律。
基在此,智于无界构建了跨越20 万小时的人类操作视频数据。经由过程对于海量真实施为的进修,模子可以或许于潜移默化中捕获物体运动纪律、交互模式和掉败界限,从而形成更不变的泛化能力。
于试验成果上,Being-H0.7 于 6 项世界权势巨子具身评测中取患上综合第一(此中 4 项登顶全世界榜首)。更要害的是,H0.7的世界理解与交互能力已经经表现于真实情况中:它可以于高速传送带上完成动态分拣与上架;追随挪动容器举行切确倾倒; 猜测滑动物体轨迹并完成接取;也能于狭窄空间内完成插入、定量倒液,甚至处置惩罚柔性物体等使命。

02 全世界首个端侧及时部署 率先冲破世界模子贸易瓶颈
作为具身模子赛道的领头羊,除了了于人类视频进修这一技能线路上的连续引领,以和于数据范围与模子能力上的持久领先,智于无界于模子贸易化部署层面,一样处在全世界第一梯队。
早于本年1 月发布 Being-H0.5-2B 时,智于无界便率先实现了模子于 NVIDIA Jetson Orin NX 端侧算力上的及时部署,并顺遂经由过程永劫间运行的不变性验证。即便于今天,依然鲜有海内具身模子公司拥有此项能力。
这一工程能力的暗地里,是团队持久堆集的年夜范围多模态预练习与体系落地经验。缭绕现实部署需求,智于无界自研了一整套推理优化系统,笼罩模子量化、压缩蒸馏、CUDA 算子编译以和异步推理调理等要害环节,实现了从练习到部署的全链路买通。
于具身智能赛道上,智于无界始终对峙“两条曲线”并行推进:一条因此人类视频为焦点的数据 Scaling Law,不停抬升模子理解世界的能力上限; 另外一条文是推理成本与延迟曲线,连续压缩模子于真实呆板人体系中的部署成本与相应时延。

于这一理念下,Being-H0.7 的部署被进一步优化至极致:其平均推理延迟低至3.61 ms/step,推理速率比拟业内以效率著称的模子(如Fast-WAM)晋升跨越10 倍,显存占用仅为同类方案的约50%。与Cosmos-policy、DreamZero 等视频天生式世界模子比拟,其推理效率更是实现了50 倍以上的晋升。
更具标记性的是,智于无界初次于端侧计较平台Orin NX(约 75 TOPS)上,实现了 Being-H0.7 的及时部署。这象征着,其已经成为业内首个于划一算力芯片上完成世界模子及时运行的团队。
端侧算力、世界模子、及时运行——这三者持久以来被认为难以统筹,而智于无界于统一体系中同时实现,象征着其于推理成本、模子能力与体系效率这三个要害维度上,均已经到达当前行业的开始进程度。
03 人类视频预练习+数采闭环 驱动通用能力与专家能力的“两级跃迁”
从H0 到 H0.5,再到如今的 Being-H0.7,作为人类视频线路的创始者,智于无界于不到一年的时间内,实现了模子能力与数据范围的三次迭代。今朝,团队已经构建起跨越 20 万小时的人类视频数据系统,并估计于本年底进一步扩大至 100 万小时量级。
这一史无前例的数据范围,为Being-H 系列模子带来了高度多样化的真实世界漫衍,显著晋升了跨场景泛化能力,鞭策模子实现“通用能力”的要害跃迁。比拟之下,依靠关闭情况与集中式收罗的数据工场,只管于范围与可控性上具有上风,但于漫衍多样性与真实繁杂性方面存于自然瓶颈,难以支撑模子真正走向开放世界。
假如说年夜范围人类视频数据奠基了“通用能力”的基础,那末第一视角人类数据的收罗系统,则成为模子迈向“专家能力”的要害支点。然而于当前行业中,数据收罗与模子练习遍及割裂,致使年夜量高成本数据难以被有用使用。“已往一年咱们网络了年夜量外部数据,也履历过一次性抛弃数千小时数据的环境,”卢宗青指出,“当前数采系统仍处在初期阶段,与年夜模子范畴成熟的数据管线比拟,仍存于较着差距。”
对于在具身范畴来讲,要弥合这一割裂,就必需同时具有年夜范围预练习及高质量数据收罗的能力:只有深度介入年夜范围预练习,才能成立对于数据的敏感度,从而设计出合理的数据格局、配比与数采硬件;高质量的数据收罗系统,则犹如为模子提供精准的“养分配方”,决议其能力上限。基在这一认知,智于无界率先买通了“年夜范围预练习—数据收罗”的闭环,成为业内少数具有全链路能力的团队。
这一闭环上风的集中表现之一,是智于无界团队不久前发布的BeingBeyond U1,作为全世界首款 Real DexUMI 装备,U1,实现了“无本体、低成本、真实场景”的范围化数据收罗,可同步获取视觉、动作与触觉等多模态旌旗灯号,并将人手邃密操作高保真映照至呆板人灵巧手。比拟传统真机收罗,U1 的数据获取效率晋升跨越 10 倍,同时实现“所采即所患上”,无需重定向便可直接用在练习,显著降低了数据利用门坎与精度损耗。
这一能力有用填补了现有数采方案于工业流水线等高精度场景中的要害短板,使模子可以或许快速把握繁杂装置、柔性交互等专家级技术,于现实使命中将乐成率晋升至90% 以上。跟着 U1 进入真正的工业流水线等专业场景,Being-H0.7 进一步完成为了从“通用”到“专家”的能力跃迁:一方面依托年夜范围人类视频与世界模子架构,实现对于繁杂物理情况的理解与泛化;另外一方面借助高质量场景化数据,深切垂直范畴,得到高精度、可落地的专家能力。
这也展现了具身智能贸易化的焦点路径:通用能力解决“能用”,而专家能力决议“好用”。以通用能力为底座,以场景化数据为抓手,慢慢向垂直范畴深化,恰是具身智能走向范围化落地的“末了一千米”。
04 尾声:H0.7首个世界模子贸易化部署 智于无界重塑具身模子赛道
从“能理解”到“能步履”,从“试验室指标”到“真实世界出产力”,Being-H0.7 的意义,已经经不止在一次模子机能的跃升,而是对于具身智能落地路径的一次要害重构。当世界模子初次于端侧实实际时运行,持久被视为“不成能三角”的能力、成本与效率,最先于统一体系中收敛,具身智能也由此真正迈入可范围化复制的阶段。
更深条理来看,这一冲破并不是伶仃发生:其暗地里是人类视频预练习所支撑的通用能力底座,是“隐式推理”所带来的世界理解范式跃迁,也是数据闭环系统驱动的专家能力连续进化。三者叠加,使患上模子再也不只是“会做使命”,而是逐渐具有于开放情况中不变事情的能力。
当行业仍于差别路径之间重复试探时,智于无界经由过程H0.7 给出了一条更具确定性的谜底——以人类视频为焦点燃料,以世界模子为认知与步履中枢,以端侧部署为落地形态,买通从数据到模子、从理解到履行的完备链路。这不仅是一次模子发布,更像是具身智能从“技能竞赛”走向“财产基础举措措施”的分水岭时刻。跟着 H0.7 的落地,具身模子的竞争逻辑,正于被从头界说。
雷峰网版权文章,未经授权禁止转载。详情见转载须知。
-欢迎来到公海710