报告揭秘Sora六大优势业内：AGI可能在一两年内实现

2024-02-19 - 每经记者兰素英每经编辑孙宇婷

“两只金毛猎犬在山顶播客”；

“火星上日落时的一场极具未来感的无人机比赛”；

“在一个与自然和谐共生，同时又有超强朋克气质和高科技属性的未来城市漫游……”

根据上述提示词，OpenAI首席执行官阿尔特曼在X平台上发布了一系列视频，精美的场景让用户惊叹不已。而这些视频全都是通过OpenAI 2月16日发布的最新视频生成模型Sora制作的，用户震惊之余，也给予了

Sora高度评价，将其描述为“绝无仅有”和“游戏规则改变者”。

Sora 采用了 OpenAI 文生图模型DALL·E 3背后的强大技术，可将简短的文本描述转化成长达1分钟的高清视频。业界大佬 Gabor Cselle 将 Sora和 Pika、RunwayML 和 Stable Video进行对比后发现，在输入相同的提示后，其他主流工具生成的视频都大约只有5秒钟，Sora可以在一段长达17秒视频场景中，保持动作和画面一致性。

英伟达人工智能研究院首席研究科学家Jim Fan也对Sora的能力发出感叹，称这是视频生成领域的GPT-3时刻。他表示， Sora是一个“数据驱动的物理引擎”，一个可学习的模拟器或“世界模型”。360集团创始人、董事长周鸿祎则称，随着Sora 的到来，人类离AGI真的就不远了，不是10年、20年的问题，可能一两年很快就可以实现。

在随后发布的技术报告中， OpenAI介绍了Sora的强大性能以及背后的支撑技术，也对Sora的局限性进行了客观的分析。《每日经济新闻》记者通过梳理，总结出了Sora的六大核心优势。

从技术上看，Sora有望将数字内容的创造力和真实感提升到新的水平，但凡事总有两面性，影视、广告制作和视频等行业也将面临严重的冲击。另外，有专家对于技术的迅猛发展也表示出了担忧，称这类技术可能会导致“深度伪造”视频，让人难以识别，产生滥用等问题。

报告揭秘Sora六大优势

值得注意的是，Sora推出的同一天，谷歌发布了Gemini 多模态模型的更新版本，而三天前， Stability AI推出了新的图像生成模型 Stable Cascade。OpenAI的最新举动无疑将加剧生成式AI图片和视频领域的竞争。

而在Sora推出后不久， OpenAI发布了这款新工具的技术报告。在报告中，OpenAI首先重点介绍了如何将不同类型的视觉数据转化为统一的格式，以便于对生成模型进行大规模训练的方法，并对Sora的能力和局限性进行了评价。

《每日经济新闻》记者对报告进行梳理，总结出了Sora的六大优势：

（1）准确性和多样性：Sora可将简短的文本描述转化成长达1分钟的高清视频。它可以准确地解释用户提供的文本输入，并生成具有各种场景和人物的高质量视频剪辑。它涵盖了广泛的主题，从人物和动物到郁郁葱葱的风景、城市场景、花园，甚至是水下的纽约市，可根据用户的要求提供多样化的内容。另据 Medium，Sora能够准确解释长达135个单词的长提示。

（2）强大的语言理解：OpenAI利用 Dall·E 模型的 recaptioning（重述要点）技术，生成视觉训练数据的描述性字幕，不仅能提高文本的准确性，还能提升视频的整体质量。此外，与DALL·E 3类似，OpenAI还利用GPT技术将简短的用户提示转换为更长的详细转译，并将其发送到视频模型。这使Sora能够精确地按照用户提示生成高质量的视频。

（3）以图/视频生成视频： Sora除了可以将文本转化为视频，还能接受其他类型的输入提示，如已经存在的图像或视频。这使 Sora能够执行广泛的图像和视频编辑任务，如创建完美的循环视频、将静态图像转化为动画、向前或向后扩展视频等。OpenAI在报告中展示了基于DALL·E 2和DALL·E 3的图像生成的demo视频。这不仅证明了Sora的强大功能，还展示了它在图像和视频编辑领域的无限潜力。

报告揭秘Sora六大优势业内：AGI可能在一两年内实现

报告揭秘Sora六大优势

Newspapers in Chinese (Simplified)

Newspapers from China

报告揭秘Sora六大­优势 业内：AGI可能在一两年内­实现

报告揭秘Sora六大­优势

Newspapers in Chinese (Simplified)

Newspapers from China

报告揭秘Sora六大优势业内：AGI可能在一两年内实现

报告揭秘Sora六大优势