今天,商汤科技正式发布并开源日日新SenseNova U1 系列原心理解天生同一模子。它基在商汤在本年三月自立研发的NEO-unify架构,于单一模子架构上同一了多模态理解、推理与天生。
NEO-unify架构完全摒弃了主流的拼接式,去除了了视觉编码器(VE)及变分自编码器(VAE),从头构建了同一的表征空间,而且深切融入每一一层计较中,从而实现从模态集成向原生同一的范式超过。
SenseNova U1系列模子可以或许将语言与视觉信息作为同一的复合体直接建模,实现语言及视觉信息的高效协同,让理解与天生能力同步加强,于保留语义富厚度的同时,维持像素级的视觉保真度。
于逻辑推理与空间智能等标的目的上,它可以或许深度理解物理世界的繁杂结构与邃密瓜葛;于将来,它还有能为呆板人提供具身年夜脑,实此刻单一模子闭环内完成从繁杂情况感知、逻辑推演到精准使命履行的全历程,为鞭策技能与财产成长提供主要基础与要害引擎。
本次开源发布的是 SenseNova U1 的轻量版系列 SenseNova U1 Lite。它包罗两个差别规格的模子:
• SenseNova-U1-8B-MoT:基在浓厚主干收集
• SenseNova-U1-A3B-MoT:基在混淆专家(MoE) 主干收集
拜候GitHub https://github.com/OpenSenseNova/SenseNova-U1 、Hugging Face https://huggingface.co/collections/sensenova/sensenova-u1相识更多信息。咱们也将于近期宣布详确的技能陈诉。
极致高效,以小搏年夜:开源 SOTA,比肩商用效率,是同一模子架构的焦点技能上风。
传统多模态模子是把视觉编码器及语言主干经由过程适配器拼接于一路的。它像一个“说差别语言的人构成的事情组”:有人专门看图,把图象翻译为语言,有人专门理解文字,举行推理,有人把成果再翻译为设计指令,把丹青出来。每一完成一次使命,信息都要于差别成员之间往返通报。这个历程虽然可行,但不免会有等候、曲解及信息损耗。为了填补这些损耗,模子往往需要做患上更年夜才能到达好的效果。
SenseNova U1 是基在同一表征空间构建的,更像是一个从一最先就同时把握多项技术的人。它不是先看懂图象、再翻译成文字、再交给另外一个体系理解,而是于统一套“思索方式”里直接处置惩罚图象、文字等差别信息。图象及语言再也不是两套体系之间的接力,而是于统一个年夜脑中天然交融。如许带来的利益是:信息流转更快捷,理解更直接,天生更高效。模子不需要依靠纯真堆年夜参数来填补中间转换的损耗,而是经由过程同一的内部表征,把差别模态的信息以更紧凑、更高密度的方式构造起来。
简朴来讲,传统架构像是“多人协作、层层转述”;SenseNova U1 更像是“一个万能年夜脑,直接理解,直接表达”。少了中间转译,信息损耗更低,也能于相对于更精简的模子范围下,实现更强的多模态理解与天生能力。
试验成果验证了咱们的设法。于涵盖图象理解、图象天生与编纂、空间智能及视觉推理的多项基准测试中,SenseNova U1 Lite均到达同量级开源模子SOTA程度,为同一多模态理解与天生树立了新的标杆。甚至仅凭8B-MoT的较小规格,就能到达甚至逾越部门年夜型贸易闭源模子,揭示出全维度多范畴的统治力。

如下两组对于比图更直不雅地揭示了 SenseNova U1 Lite 于效率上的凸起上风。于通用的图象天生测试中,SenseNova U1 Lite不单于图象天生质量上比肩 Qwen-Image 2.0 Pro或者 Seedream 4.5 等年夜型闭源模子,到达贸易级水准,还有于推理相应速率上有显著上风。纵然于极具挑战性、开源模子一直做欠好的繁杂信息图天生使命中,SenseNova U1 Lite 也体现出贸易级的水准,对于繁杂信息图的排版及文字有很强的节制力。

如下现实例子,揭示了 SenseNova U1 Lite的贸易级繁杂信息图天生能力。



咱们正于沿着当前的技能路径继承 Scale,规划于将来推出体量更年夜的模子。咱们信赖,基在高效的原生架构,可以以低患上多的计较成本到达国际顶尖模子的程度。
业内首创:持续性图文创作输出依附NEO-Unify架构的上风,SenseNova U1于业内首个实现持续性的图文创作输出。而且只需要单次单模子挪用,就能输出更高质量的作品,比拟传统范式,实现了效率的年夜幅晋升。
SenseNova U1 所具有的原生图文理解天生能力,能自然将图象及文本底层交融旌旗灯号完备的保留上下文中,区分在已往只能使用多模子串联委曲实现,它的图象间气势派头具有较着的高一致性,能于同一表征空间举行高效联贯思索。
下面两个案例中,SenseNova U1 经由过程联贯高保真度的图文交错思索输出。
使命一:五分熟牛排做法:SenseNova U1 可以经由过程思索及计划孕育发生分步的历程,而且给每一一步输出对于应的图象展示。各个步调的图示体现出极高的一致性。

使命二:绘制一个钢铁侠图案:它可以从扫描底稿出发,慢慢举行持续创作,终极做出一个完成度很高的图象。每一一步创作的历程对于在前一步的布局及细节都做了精准的连结 —— 一个同一表征的同享上下文于此中阐扬了要害作用。

开源部署
• GitHub:https://github.com/OpenSenseNova/SenseNova-U1
• Hugging Face:https://huggingface.co/collections/sensenova/sensenova-u1
• 接待挪用
SenseNovaU1Skillhttps://github.com/OpenSenseNova/SenseNova-Skills,阅读海量样例库,获取Prompt编写指南,化繁为简(复杂文- 有趣图),让您的Agent成为信息图天生妙手
于线体验
• 行将上线办公小浣熊
咱们信赖,原生同一的多模态智能是通往 AGI 的必经之路。将来,咱们还有将连续鞭策开源生态设置装备摆设,并发布更年夜参数范围的 U1 系列模子。迎社区泛博用户及开发者提出名贵建议,配合界说智能交互的将来。
*NEO-unify技能博客:https://www.sensetime.com/cn/news-detail/51170548?categoryId=73
SenseNova U1 Lite专属群,接待入群扫码交流~↓↓↓

雷峰网版权文章,未经授权禁止转载。详情见转载须知。
-欢迎来到公海710