业内首个实现连续性的图文创作输出商汤日日新SenseNova U1发布并开源

4月28日，商汤科技正式发布并开源日日新SenseNova U1系列原生理解生成统一模型。它基于商汤于今年三月自主研发的NEO-unify架构，在单一模型架构上统一了多模态理解、推理与生成。

效率，是统一模型架构的核心技术优势。SenseNova U1像是一个从一开始就同时掌握多项技能的人。它不是先看懂图像、再翻译成文字、再交给另一个系统理解，而是在同一套“思考方式”里直接处理图像、文字等不同信息。图像和语言不再是两套系统之间的接力，而是在同一个大脑中自然融合。这样带来的好处是：信息流转更快捷，理解更直接，生成更高效。模型不需要依赖单纯堆大参数来弥补中间转换的损耗，而是通过统一的内部表征，把不同模态的信息以更紧凑、更高密度的方式组织起来。

简单来说，传统架构像是“多人协作、层层转述”；SenseNova U1更像是“一个全能大脑，直接理解，直接表达”。少了中间转译，信息损耗更低，也能在相对更精简的模型规模下，实现更强的多模态理解与生成能力。

在涵盖图像理解、图像生成与编辑、空间智能和视觉推理的多项基准测试中，SenseNova U1 Lite均达到同量级开源模型SOTA水平，为统一多模态理解与生成树立了新的标杆。甚至仅凭8B-MoT的较小规格，就能达到甚至超越部分大型商业闭源模型。

同时，凭借NEO-Unify架构的优势，SenseNova U1在业内首个实现连续性的图文创作输出。并且只需要单次单模型调用，就能输出更高质量的作品，相比传统范式，实现了效率的大幅提升。

比如，绘制一个钢铁侠图案：它可以从扫描草稿出发，逐步进行连续创作，最终做出一个完成度很高的图像。每一步创作的过程对于前一步的结构和细节都做了保持——一个统一表征的共享上下文在其中发挥了关键作用。

1微信图片_2026-04-29_112646_611

在逻辑推理与空间智能等方向上，它能够深度理解物理世界的复杂布局与精细关系；在未来，它还能为机器人提供具身大脑，实现在单一模型闭环内完成从复杂环境感知、逻辑推演到精准任务执行的全过程，为推动技术与产业发展提供重要基础与关键引擎。

商汤表示，其正在沿着当前的技术路径继续 Scale，计划在未来推出体量更大的模型。其相信，基于高效的原生架构，可以以低得多的计算成本达到国际顶尖模型的水平。

文/广州日报新花城记者：张露

广州日报新花城编辑：龙嘉丽