关闭引导
东京街头视频流出,硅谷巨头不淡定了
2024-02-21 14:27:19
广州日报新花城

图片

作者 | 荣智慧

必须承认,目前这个AI时代只有一位主角,OpenAI。

 

它的聊天机器人ChatGPT,不上法学院就通过了律师资格考试。现在,它的最新模型Sora,我们大胆想象一下,说不定某一天会拿到奥斯卡。

 

Sora于2月16日上线,根据文本提示,可创建长达一分钟的逼真视频。这些视频呈现“多个角色,特定类型的动作,以及充满细节的复杂场景”。

 

现在Sora还没有开放使用,未来会提供给“数量有限的创作者”,售价应该不便宜。


图片

Sora首页/OpenAI


Sora面世后,如ChatGPT一样刷屏全球媒体。

 

OpenAI首席执行官山姆·奥特曼热情接受网友“点单”,在X上放送多个Sora绘制的精美视频。科技界大佬杨立昆、贾扬清、Jim Fan、谢赛宁、周鸿祎、李志飞等人竞相评论,马斯克直接感慨“人类愿赌服输”。

 

OpenAI的独角戏时代,对普通人而言是技术平权的好事,对AI从业者来说却是沉重的压迫。


最高兴的是谁呢?造芯片的。


图片

Sora冲击奥斯卡

Sora得名于日语“天空”一词。研究团队成员蒂姆·布鲁克斯和比尔·皮布尔斯介绍,选择这个名字,是因为它能“唤起无限的创造潜力”。

 

官方网站贴出了Sora创作的东京街头视频。“美丽的、白雪皑皑的东京市,镜头穿过熙熙攘攘的城市街道,跟随几名行人享受美妙的雪天,有人在路边小摊购物。绚丽的樱花与雪花一起在风中飞舞。”


图片

Sora制作的视频


另一个视频根据如下提示词产生,“几只巨大的、毛茸茸的猛犸象,踩着白雪皑皑的地面走近,风吹动它们身上的长长毛发,远处是白雪覆盖的高大树木和雄伟山脉,午后的光线营造出温暖的光芒。”


图片

Sora制作的猛犸象视频/OpenAI


有了提示词,Sora就“知道”如何用镜头语言讲故事。

 

比尔·皮布尔斯用一个“海洋视频”举例,该视频根据“一个华丽的珊瑚礁世界”等描述创建,画面充斥着五颜六色的鱼类和海洋生物。Sora通过变化摄像机的角度和进程,创造出了“叙事节奏”。

 

“实际视频里有多个镜头变化——这些变化不是拼接在一起的,而是由模型一次性生成的,”皮布尔斯说。“我们没有告诉它这样做,它自动这样做的。”


图片

Sora制作的视频


Sora最令人吃惊的本事,就是没有经过训练而自行创造的能力。

 

Sora模型基于Transformer架构,建立在DALL·E 3和GPT模型之上,这是OpenAI综合利用自家前沿技术方面的又一次突破。它有三大核心特点,“60秒超长长度”“单视频多角度镜头”,以及“世界模型”,一举打败所有同类竞品。

 

在此之前,AI视频生成领域的明星产品Runway和Pika,只能做3或4秒长的模糊视频,角色形象也很扭曲,还得用户输入图片——受技术水平所限。


图片

Sora、Pika、RunwayML和Stable video用相似关键词得出的视频,结果显示Sora的视频更为流畅/@Gabor Cselle


像YouTube火爆的AI视频迷因“威尔·史密斯吃面条”,用网友的话说“完美地用视觉效果传达出洛夫克拉夫特式恐怖”——人物面目狰狞,看了一宿睡不着觉。


图片

网络上流传的“威尔·史密斯吃面条”


而Sora达到了惊人的高清照片级真实感,“运镜”手法更令人难忘——围绕同一主体实现远景、中景、近景、特写等不同镜头的切换。

 

虽然“东京街头飘雪”视频里,两个角色走着走着就要走进死胡同;“猛犸象”视频里,前头两只猛犸象有点“顺拐”;“戴墨镜的时髦女子”左手拇指比例不对;被咬了一口的饼干没有牙印……但Sora的整体视觉呈现效果依然无可匹敌。

 

Sora发布的同一天,谷歌DeepMind推出Gemini 1.5 Pro,几乎没抢到什么眼球。去年大火的Stability AI也发布了新视频模型SVD1.1,自觉“技不如人”,又火速删除了该条官方推文。


图片

Stability AI发布了新视频模型SVD1.1后又删除官方推文



图片

大力出奇迹

跟一年多以前横空出世的ChatGPT一样,OpenAI的秘诀一直是屡试不爽的Scaling Law(缩放定律)。只要模型足够“大”,根据特定算法,就会产生智能“涌现”的能力。

 

当然,一般的机构和公司,也没有能力达到OpenAI的水平。别小看“大力出奇迹”,前提是你得有那么“大力”。

 

Sora是一种AI模型,使用文本到视频的合成技术,按文本提示生成视频。这种技术将自然语言转换为视觉表示形式——图像或视频。


深度神经网络依然是Sora的基础,它是一个带有Transformer骨架的扩散(Diffusion)模型,AI从数据中学习并执行复杂的任务。Sora就是从“学习”的大型视频数据集里学会了各种风格、主题和流派。

 

Transformer模型本质是一个编码器-解码器,输入原始语言,生成目标语言。扩散模型的原理是先给数据添加高斯噪声,再反向去除,从中恢复数据本貌。

 

简单粗暴地理解Sora的原理,就是翻译器+搜索引擎+概率制作(内容)。

 

首先,拿到提示词后,Sora先分析文本,提取关键字,比如主题、动作、地点、时间和情绪,再从它的数据集里搜索与关键字匹配的、最合适的视频。


图片

Sora制作的视频/OpenAI


其次,Sora将数据集里合适的视频混合在一起,重新创建一个符合要求的视频。在“创造”的过程中,它要“知道”场景中有哪些对象和角色,它们的外形,它们如何运动,对象如何交互,以及受到环境影响后如何表现。

 

根据用户的喜好,Sora会修改视频的风格。假如用户想要一个35毫米胶片样式的视频,Sora会调整效果,更改图像的亮度、色彩和摄像机角度。这一点和MidJourney等“文生图”应用类似。

 

Sora可以生成分辨率1920x1080的视频。它也可以基于静止图片创建视频,使用新素材扩展现有素材。比如用户给它一张森林图片,它可以帮你加上鸟、兽、人。给它一张汽车行驶图,它能加上道路、交通灯、沿途建筑物和风景。


图片

Sora将两段视频结合后产生的奇幻景象/OpenAI


“补丁”是新方法,类似于GPT里的Token——较小数据单元的集合。“补丁”叠加在一起,凑成完整内容。

 

“世界模型”这一核心特点,代表了文本生成视频领域的最高级研究方向:通过对真实物理世界的模拟,世界模型让计算机像人类一样全面、准确地“认知”世界。其最根本意义就是“言出法随”——你说什么,世界就是什么。

 

世界模型最早由图灵奖得主、Meta首席科学家杨立昆(Yann LeCun)2023年6月提出。2023年12月,Runway宣布建造“通用世界模型”,用生成式AI模拟整个世界。


图片

Runway宣布建造“通用世界模型”,并在官网首页介绍了该模型


然而,“果子”还是让OpenAI摘到了。

 

Sora面世后,杨立昆的看法值得思考。他发帖说,连接主义是有问题的,符号主义更有前途。意思就是重数据量和网络规模、轻抽象表示和物理结构是不行的;要反过来。


因为模型要学习符号逻辑和物理意义,才能进一步理解因果,理解物理现实,否则长视频上一定“露馅儿”。


图片

“造芯”是硬道理

有Sora的能力,何愁“元宇宙”遥遥无期。

 

《头号玩家》的世界近在眼前:带上苹果Vision Pro,打开支持8K视频的Sora应用,想象一个美好的场景,生成白日梦,然后成瘾。


图片

苹果Vision Pro宣传片


Sora也让电视剧《黑镜》里《Joan Is Awful》一集变为现实。女主角发现自己的生活与电视剧惊人相似。随着情节推进,她逐渐揭露真相,一个根据观众个性、喜好及生活经历生成的复杂系统,已经渗入普通人的生活。


图片

《黑镜》第六季第一集《Joan Is Awful》展示了流媒体窃取用户信息等问题


随着Sora技术的更新和应用,新的娱乐时代近在眼前。所有的文化产品都不再是单向度的叙述和输出,而是能反应、适应每一位观众独特偏好的互动“游戏”。

 

当人工智能越发显现出无所不能的力量之时,基于人类作为社群而不仅仅是种群的生命经验、社会经验提出问题,解决问题,仍然是我们“老调重弹”的挽尊之道。

 

不过,在强调“想象力夺权”之前,最紧张的反而是芯片制造商:视频模型的竞争和语言模型相差不远,先是拼团队的工程化调参能力,最后就是拼算力。


就在OpenAI首席执行官奥特曼开口“七万亿美元造芯片”前后,AI芯片赛道人满为患。

 

AI芯片传统三巨头里,占有98%市场份额的英伟达,凭借近年人工智能的东风,一个星期前市值达到1.78万亿美元,超越亚马逊,成为美股市值第四大公司,距离市值1.8万亿的谷歌一步之遥。AMD和英特尔还在紧追不舍。

 

Meta于2月公布最新的自研定制芯片计划。2月17日,软银集团创始人孙正义宣布筹措1000亿美元,成立AI芯片企业,以便与前几年收购的芯片设计公司ARM互补。


图片

孙正义


据The Information统计,截至目前,全球有超过18家用于AI大模型训练和推理的芯片设计初创公司,包括Cerebras、Graphcore、壁仞科技、摩尔线程、d-Matrix等,融资总额已超过60亿美元,企业整体估值共计超过250亿美元。背后的投资方包括红杉资本、OpenAI、五源资本、字节跳动等。

 

各家争先“造芯”,最引人注目的还是OpenAI。

 

去年,CEO奥特曼就开始为代号Tigris的芯片制造项目筹钱,当时号称要筹集100亿美元,希望生产出类似谷歌TPU、英伟达H100等芯片。2023年9月,OpenAI还招募了搞软硬件协同的著名牛人Andrew Tulloch。


图片

OpenAI


2024年1月,奥特曼到访韩国,会见韩国三星电子和SK海力士高管,寻求芯片领域的合作。2月,奥特曼被曝出与阿联酋政府谈判,计划筹集“7万亿美元”。

 

AI时代出寡头。


以前做技术,参与者总有身处浪潮之中的感觉。如今,从业者们眼巴巴看着黄仁勋、奥特曼呼风唤雨,也眼巴巴看着投资越来越天文数字,模型数据量也越来越天文数字,无处排遣“浓浓的科技主义阶级压迫感”——找到自己的机会,也变得越来越难。


文中配图部分来源于视觉中国,部分来源于网络

编辑 | 向由

值班编辑|吴擎

排版 | 菲菲

浏览量:
@广州日报 版权所有 转载需经授权