Sora带来巨大冲击波但还需“学好物理”

最近几天，OpenAI 发布的视频生成模型Sora成了全世界关注的焦点。它究竟会给我们的生活带来怎样的影响?连日来，本报记者专访了几位人工智能领域的资深科学家。专家表示，Sora站在ChatGPT的肩膀上，一山又比一山高，但它远未达到理解自然规律的地步，仍有很长的路要走。

Sora站在ChatGPT的肩膀上，一山又比一山高

著名人工智能研究专家、创新工场人工智能工程院执行院长王咏刚表示，OpenAI公布的样例视频连贯、流畅、稳定，与提示文本的符合程度极高，无论是时长还是质量，都远超此前的视频生成技术。初步看，Sora是人工智能发展史上的又一个里程碑，是文生视频领域的“GPT-3时刻”。AI大模型从文本信息处理进化到多模态信息处理，Sora可能是其中至关重要的一环。AI从处理文本，一跃提升到能高质量处理或生成视频，这意味着AI对世界的理解达到了一个全新的高度。通俗说，ChatGPT时AI学会了读书写字，Sora的发布则代表AI初步学会了“拍摄”视频或电影短片——这中间的技术飞跃可见一斑。2024年，很有可能掀起AI视频技术与应用发展的巨大浪潮。

屏幕快照 2024-02-21 下午9_副本
王咏刚

从ChatGPT到Sora，两种技术之间有明确的继承与发展关系。Sora的技术突破主要得益于两个方面：第一，融合了两大生成式AI技术：Sora虽然在整体算法框架上沿用了图像生成领域常用的Diffusion模型，但在框架内部巧妙融入ChatGPT使用的Transformer来编码和表达视频中的时空信息，得到了名为Diffusion Transformer的组合模型。根据技术报告，Sora在视频生成时涌现的精准、连贯的表达能力，以及对物理世界的正确理解，就源自这种“组合拳”式的科技创新。第二，发挥GPT的特长，改进标注质量：Sora使用类似GPT-4的技术对训练用的样本视频做了重新标注，这从根本上解决了目前视频训练数据缺乏高质量标注的问题。例如，以前AI训练时看到一个训练视频，可能只知道其中有一个人在跳舞；现在经过GPT重新标注，AI可以知道该训练视频中，人长什么样子，穿什么衣服，跳舞时手从哪里运动到哪里，身体呈现什么姿势等等。显然，AI可以据此学到有关这个世界运动规律的更多知识。

“OpenAI首先研发出ChatGPT和GPT-4，获得了质量最高的语言理解和生成技术。现在又把ChatGPT的核心技术与视频生成的流行技术框架结合起来，并使用类似GPT-4的技术来标注视频数据——可以说Sora站在ChatGPT的肩膀上，一山又比一山高。”

Sora和ChatGPT结合未来AI的AGI水平将极大提高

原云天励飞联合创始人、首席科学家王孝宇博士是人工智能领域的资深科学家，2023年王孝宇当选亚太人工智能学会AAIA Fellow，早在2022年,王孝宇就入选IEEE Fellow。连日来，王孝宇也密切留意着文本生成视频Sora带来的影响。

在王孝宇看来，正如业内人士所说，Sora结合了扩散模型与变压器网络，前者擅长将随机像素变为图像，后者则长于处理文字等长序列数据，将这两项技术结合，使得Sora能如语言模型处理文本一般，轻松应对视频制作。在具体功能上，它能掌握一部分人类世界的物理规律，能部分模拟人或事物在现实世界中的存在方式，并由此产生一定水准的情感表达。在生成视频质量上，Sora较之以往文本生成视频的模型，有了质的飞跃。其高清画质，丰富的细节，尤其是在处理遮挡和场景连贯性上跟之前的文本生成视频模型都有了很大提升。

王孝宇

王孝宇表示，OpenAI这些年一直在进行多模态同步推进，比如说将视频转化成文字，利用AI给视频精准配音。此次推出的Sora也用到了ChatGPT的一些能力，打个比方，生成视频先需要文本，但先输入的这句话机器不一定能理解，他会拿去用ChatGPT重新写一遍，将 prompt(提示词）转化成Sora能够理解的文字，然后再进行视频创作。同时，也会把训练视频转化成Sora可以理解的文字。这些技术是相互夯实，相互帮忙，相互搭台，而不是相互替代。所以，Sora的技术架构并不复杂，只不过它跳脱出以前大家做文生视频的思路，因为海量高质量数据和很强的算力目前是比较稀缺的，而它正是在多模态演进和高质量数据学习的基础上，实现了视频涌现机制，生成的视频连贯性比较高，并且能大概理解真实世界的一些物理规律。比如人在汽车里面，而不是汽车被装在人的口袋里面，这还是非常让人振奋的。“AI技术方面最大的进步不一定是基础技术的进步，工程学、呈现效果的进步也是进步，Sora的最大意义正是在于，它让学界认识到了，通过文字和视频的桥接，来提升AI的AGI水平是有可能的。未来Sora和ChatGPT结合，将极大提高AI的AGI水平。”

Sora还不懂物理远未达到理解自然规律的地步

王咏刚表示，尽管Sora在文本生成视频方面有了质的提升，但并不能将其功能过分夸大。”它还远远没有达到掌握物理规律的地步。“王咏刚说，不能把以前的文生图、文生视频与今天的Sora割裂看待，他们之间的技术是在同一个体系内延续发展的。也不要把Sora表现出来的可以比较好地模拟物理世界这件事，看成是Sora的一种差异化技术。其实，更好地理解物理世界，这是Sora技术涌现出来的“结果”，而非Sora主动在算法中设计出来的“原因”。之前的文生图、文生视频也存在不少“理解”或“符合”物理世界规律的例子，但失败的例子更多。Sora之所以能在这件事上有数量级的提升主要得益于更好的模型结构；更强大的GPU集群算力；比以前多得多的训练数据；更准确、细致的训练数据自动标注。

在王咏刚看来，“机器学习完全理解自然界规律”还是一个遥远的命题。Sora在技术上并没有跳出ChatGPT和Stable Diffusion等前沿AI大模型的范畴，不大可能在“智力水平”上跃升到另一个完全不同的“境界”。”我们在使用ChatGPT时，仍会经常遇到AI胡言乱语或无法处理精确、复杂逻辑的问题；在使用Stable Diffusion或DALL-E等技术生成图片时，也经常会遇到图片局部或细节不符合人类指令的情况。Sora刚刚把文生视频提升到接近之前文生图的质量，怎可轻易断言，Sora离达到人类智慧（AGI）更近一些呢？“

对此，王孝宇也表示认同。他表示，Sora在文生视频技术还不是完美的，还有很多不连贯性，比如说，人的手指有时会多一个或者少一个，它还不能准确地理解现实世界。一个模型能生成逼真视频并不能代表一个模型理解了物理世界，从目前来看，并没有完全掌握现实世界的物理规律。因为也是看着视频学习，它可供学习的样本相当有限。模型的预测能力依赖于其训练数据的多少和质量，对于那些超出训练数据分布的新情况，模型可能无法精确预测。要知道，现实世界的复杂性远超过任何模型能够通过有限数据学习到的经验。这就像天气预报一样，即便我们现在掌握了足够多的卫星云图和气象资料，也还是不能精确预报每一次台风的最终精确走向。

所以，它只能部分模拟现实世界，掌握人或者其他物体在现实世界中的存在方式。“我同意现在有些学者的观点，只让 AI 看视频是学不成世界模型的，它还不能用作现实世界的可靠模拟，它在逻辑推理上还有很大的进步空间。”他说。

文本生成视频模型未来将向哪个方向发展？王咏刚说，大语言模型的评估是一个复杂的课题。但即便如此，对AI大模型能力的评估数据，仍然是改进AI大模型的关键一环。目前大模型体现出的写作水平、绘画水平比较强，在某些方面可以接近人类的专业水平。但在逻辑推理上，AI的“智力水平”大概还处在人类孩童的阶段，无法处理过于复杂的逻辑问题，也无法完全依照人类指令完成所有任务。缺乏复杂逻辑推理能力，对世界的认知不够准确，难以完全按人类要求工作，这是阻碍AI应用落地的最核心问题。今天，最流行的AI应用还停留在知识问答、陪伴式聊天、办公文案生成、辅助编程、辅助设计等领域。只有更进一步提高AI的逻辑推理能力及可控性，AI相关应用才能更进一步普及。

文/广州日报·新花城记者：肖欢欢实习生：祝明月

图/广州日报·新花城记者：肖欢欢实习生：祝明月

视频/广州日报·新花城记者：肖欢欢实习生：祝明月

广州日报·新花城编辑蔡凌跃