揭秘Sora：开发团队成立不到1年，核心成员包含多位华人

2024-02-20 - 每经记者文巧每经编辑兰素英

2 月 16 日，OpenAI 的 AI 视频模型Sora炸裂出道，生成的视频无论是清晰度、连贯性和时间上都令人惊叹，一时间，诸如“现实不存在了”的评论在全网刷屏。

Sora是如何实现如此颠覆性的能力的呢？这就不得不提到其背后的两项核心技术突破—— Spacetime Patch（时空 Patch）技术和 Diffusion Transformer （DiT，或扩散型 Transformer）架构。

《每日经济新闻》记者查询这两项技术的原作论文发现，时空 Patch 的技术论文实际上是由谷歌DeepMind的科学家们于 2023 年7月发表的。DiT架构技术论文的一作则是Sora团队领导者之一William Peebles，但戏剧性的是，这篇论文曾在2023年的计算机视觉会议上因“缺少创新性”而遭到拒绝，仅仅 1年之后，就成为 Sora 的核心理论之一。

如今，Sora团队毫无疑问已经成为世界上最受关注的技术团队之一。记者查询 OpenAI 官网发现，Sora 团队由 Peebles 等 3人领导，核心成员包括12 人，其中有多位华人。值得注意的是，这支团队十分年轻，成立时间尚未超过1年。

创新“站在谷歌肩上”

此前，OpenAI在X平台上展示了Sora将静态图像转换为动态视频的几个案例，其逼真程度令人惊叹。Sora是如何做到这一点的呢？这就不得不提到该AI视频模型背后的两项核心技术——DiT架构和 Spacetime Patch（时空Patch）。

据外媒报道，Spacetime Patch是Sora 创新的核心之一，该项技术是建立在谷歌DeepMind 对 NaViT（原生分辨率视觉 Transformer）和 ViT （视觉 Transformer）的早期研究基础上。

Patch可以理解为Sora 的基本单元，就像GPT-4 的基本单元是Token。Token是文字的片段， Patch则是视频的片段。GPT-4被训练以处理一串Token，并预测出下一个 Token。Sora 遵循相同的逻辑，可以处理一系列的Patch，并预测出序列中的下一个Patch。

Sora 之所以能实现突破，在于其通过Spacetime Patch将视频视为补丁序列，Sora保持了原始的宽高比和分辨率，类似于NaViT对图像的处理。这对于捕捉视觉数据的真正本质至关重要，使模型能够从更准确的表达中学习，从而赋予Sora近乎完美的准确性。由此，Sora能够有效地处理各种视觉数据，而无需调整大小或填充等预处理步骤。

记者注意到，OpenAI发布的Sora技术报告中透露了Sora的主要理论基础，其中Patch的技术论文名为Patch n' Pack: NaViT, a Vision Transformer for any Aspect Ratio and Resolution。记者查询预印本网站arxiv后发现，该篇论文是由谷歌DeepMind的科学家们于2023年7月发表的。

开发团队还有“00后”

随着Sora 的爆火，Sora团队也来到世界舞台的中央，引发了持续的关注。记者查询OpenAI官网发现，Sora团队由William Peebles等3人领导，核心成员包括12人。从团队领导和成员的毕业和入职时间来看，这支团队成立的时间较短，尚未超过1年。

从年龄上来看，这支团队也非常年轻，两位研究负责人都是在2023 年才刚刚博士毕业。William (Bill) Peebles 于去年 5 月毕业，其与Saining Xie合著的扩散 Transformer论文成为Sora的核心理论基础。Tim Brooks于去年1月毕业，是DALL-E 3的作者之一，曾在谷歌和英伟达就职。

团队成员中甚至还有“00后”。团队中的Will DePue生于2003年，2022年刚从密西根大学计算机系本科毕业，在今年1月加入Sora项目组。

此外，团队还有几位华人。据媒体报道，Li Jing是DALL-E 3的共同一作，2014年本科毕业于北京大学物理系，2019 年获得MIT物理学博士学位，于2022年加入OpenAI。Ricky Wang则是今年1月刚刚从Meta跳槽到OpenAI。其余华人员工包括Yufei Guo等尚未有太多公开资料介绍。

?? ?? 数据来源：IT桔子、前瞻产业研究院刘红梅制图 — 数据来源：IT桔子、前瞻产业研究院刘红梅制图

揭秘Sora：开发团队成立不到1年，核心成员包含多位华人

创新“站在谷歌肩上”

相关论文曾遭拒绝

开发团队还有“00后”

Newspapers in Chinese (Simplified)

Newspapers from China