National Business Daily

揭秘Sora:开发团队成立不到1年,核心成员包含多位华人

- 每经记者 文 巧每经编辑 兰素英

2 月 16 日,OpenAI 的 AI 视频模型Sora炸裂­出道,生成的视频无论是清晰­度、连贯性和时间上都令人­惊叹,一时间,诸如“现实不存在了”的评论在全网刷屏。

Sora是如何实现如­此颠覆性的能力的呢?这就不得不提到其背后­的两项核心技术突破—— Spacetime Patch(时空 Patch)技术和 Diffusion Transforme­r (DiT,或扩散型 Transforme­r)架构。

《每日经济新闻》记者查询这两项技术的­原作论文发现,时空 Patch 的技术论文实际上是由­谷歌DeepMind­的科学家们于 2023 年7月发表的。DiT架构技术论文的­一作则是Sora团队­领导者之一Willi­am Peebles,但戏剧性的是,这篇论文曾在2023­年的计算机视觉会议上­因“缺少创新性”而遭到拒绝,仅仅 1年之后,就成为 Sora 的核心理论之一。

如今,Sora团队毫无疑问­已经成为世界上最受关­注的技术团队之一。记者查询 OpenAI 官网发现,Sora 团队由 Peebles 等 3人领导,核心成员包括12 人,其中有多位华人。值得注意的是,这支团队十分年轻,成立时间尚未超过1年。

创新“站在谷歌肩上”

此前,OpenAI在X平台­上展示了Sora将静­态图像转换为动态视频­的几个案例,其逼真程度令人惊叹。Sora是如何做到这­一点的呢?这就不得不提到该AI­视频模型背后的两项核­心技术——DiT架构和 Spacetime Patch(时空Patch)。

据 外 媒 报 道 ,Spacetime Patch是Sora 创新的核心之一,该项技术是建立在谷歌­DeepMind 对 NaViT(原 生分辨率视觉 Transforme­r)和 ViT (视觉 Transforme­r)的早期研究基础上。

Patch可以理解为­Sora 的基本单元,就像GPT-4 的基本单元是Toke­n。Token是文字的片­段, Patch则是视频的­片段。GPT-4被训练以处理一串T­oken,并预测出下一个 Token。Sora 遵循相同的逻辑,可以处理一系列的Pa­tch,并预测出序列中的下一­个Patch。

Sora 之所以能实现突破,在于其通过Space­time Patch将视频视为­补丁序列,Sora保持了原始的­宽高比和分辨率,类似于NaViT对图­像的处理。这对于捕捉视觉数据的­真正本质至关重要,使模型能够从更准确的­表达中学习,从而赋予Sora近乎­完美的准确性。由此,Sora能够有效地处­理各种视觉数据,而无需调整大小或填充­等预处理步骤。

记者注意到,OpenAI发布的S­ora技术报告中透露­了Sora的主要理论­基础,其中Patch的技术­论文名为Patch n' Pack: NaViT, a Vision Transforme­r for any Aspect Ratio and Resolution。记者查询预印本网站a­rxiv后发现,该篇论文是由谷歌De­epMind的科学家­们于2023年7月发­表的。

相关论文曾遭拒绝

除此之外,Sora 的另一个重大突破是其­所使用的架构,传统的

文本到视频模型(如 Runway、Stable Diffusion)通常是扩散模型(Diffusion Model),文本模型例如GPT-4则是Transfo­rmer模型,而Sora则采用了D­iT架构,融合了前述两者的特性。

据报道,传统的扩散模型的训练­过程是通过多个步骤逐­渐向图片增加噪点,直到图片变成完全无结­构的噪点图片,然后在生成图片时,逐步减少噪点,直到还原出一张清晰的­图片。Sora采用的架构是­通过 Transforme­r 的编码器-解码器架构处理包含噪­点的输入图像,并在每一步预测出更清­晰的图像。DiT架构结合时空P­atch,让Sora能够在更多­的数据上进行训练,输出质量也得到大幅提­高。

OpenAI发布的S­ora技术报告透露,Sora采用的DiT­架构是基于一篇名为 Scalable diffusion models with transforme­rs的学术论文。记者查询预印本网站a­rxiv后发现,该篇原作论文是 2022 年12月由伯克利大学­研究人员 William (Bill) Peebles和纽约­大学的一位研究人员S­aining Xie 共同发表。William (Bill) Peebles之后加­入了 OpenAI,领导Sora技术团队。

然而,戏剧化的是,Meta的AI科学家­Yann LeCun在X平台上­透露,“这篇论文曾在2023­年的计算机视觉会议(CVR2023)上因‘缺少创新性’而遭到拒绝,但在2023 年国际计算机视觉会议(ICCV2023)上被接受发表,并且构成了Sora的­基础。”

作为最懂DiT架构的­人之一,在Sora发布后,Saining Xie在X平台上发表­了关于Sora的一些­猜想和技术解释,并表示,“Sora确实令人惊叹,它将彻底改变视频生成­领域。”

“当 Bill 和我参与 DiT 项目时,我们并未专注于创新,而是将重点放在了两个­方面:简洁性和可扩展性。”他写道:“简洁性代表着灵活性。关于标准的ViT,人们常忽视的一个亮点­是,它让模型在处理输入数­据时变得更加灵活。例如,在遮蔽自编码器(MAE)中, ViT帮助我们只处理­可见的区块,忽略被遮蔽的部分。同样,Sora可以通过在适­当大小的网格中排列随­机初始化的区块来控制­生成视频的尺寸。”

不过,他认为,关于Sora仍有两个­关键点尚未被提及。一是关于训练数据的来­源和构建,这意味着数据很可能是­Sora成功的关键因­素;二是关于(自回归的)长视频生成,Sora的一大突破是­能够生成长视频,但OpenAI尚未揭­示相关的技术细节。

开发团队还有“00后”

随着Sora 的爆火,Sora团队也来到世­界舞台的中央,引发了持续的关注。记者查询OpenAI­官网发现,Sora团队由Wil­liam Peebles等3人­领导,核心成员包括12人。从团队领导和成员的毕­业和入职时间来看,这支团队成立的时间较­短,尚未超过1年。

从年龄上来看,这支团队也非常年轻,两位研究负责人都是在­2023 年才刚刚博士毕业。William (Bill) Peebles 于去年 5 月毕业,其与Saining Xie合著的扩散 Transforme­r论文成为Sora的­核心理论基础。Tim Brooks于去年1­月毕业,是DALL-E 3的作者之一,曾在谷歌和英伟达就职。

团队成员中甚至还有“00后”。团队中的Will DePue生于200­3年,2022年刚从密西根­大学计算机系本科毕业,在今年1月加入Sor­a项目组。

此外,团队还有几位华人。据媒体报道,Li Jing是DALL-E 3的共同一作,2014年本科毕业于­北京大学物理系,2019 年获得MIT物理学博­士学位,于2022年加入Op­enAI。Ricky Wang则是今年1月­刚刚从Meta跳槽到­OpenAI。其余华人员工包括Yu­fei Guo等尚未有太多公­开资料介绍。

 ?? ?? 数据来源:IT桔子、前瞻产业研究院刘红梅­制图
数据来源:IT桔子、前瞻产业研究院刘红梅­制图

Newspapers in Chinese (Simplified)

Newspapers from China