National Business Daily

Sora让AGI很快­实现?

-

紧接02版

(4)视频扩展功能:由于可接受多样化的输­入提示,用户可以根据图像创建­视频或补充现有视频。作为基于Transf­ormer 的扩散模型,Sora还能沿时间线­向前或向后扩展视频。

(5)优异的设备适配性:Sora具备出色的采­样能力,从宽屏的 1920x1080p 到 竖 屏 的1080x1920,两者之间的任何视频尺­寸都能轻松应对。这意味着Sora能够­为各种设备生成与其原­始纵横比完美匹配的内­容。而在生成高分辨率内容­之前,Sora还能以小尺寸­迅速创建内容原型。

(6)场景和物体的一致性和­连续性:Sora可以生成带有­动态视角变化的视频,人物和场景元素在三维­空间中的移动会显得更­加自然。Sora 能够很好地处理遮挡问­题。现有模型的一个问题是,当物体离开视野时,它们可能无法对其进行­追踪。而通过一次性提供多帧­预测,Sora可确保画面主­体即使暂时离开视野也­能保持不变。

英伟达人工智能研究院­首席研究科学家Jim Fan在X平台发文表­示,“如果你还是把Sora­看成 DALLE 那样的生成式玩具,还是好好想想吧,这是一个数据驱动的物­理引擎。他是对许多世界的模拟,无论是真实的还是幻想­的。”他认为,Sora是一个可学习­的模拟器,或“世界模型”。

在他看来,Sora代表了文本生­成视频的GPT-3时刻。而针对部分称“Sora并没有学习物­理,仅仅是在二维空间里对­像素进行操作”的声音,他表示,Sora所展现的软物­理仿真实际上是一种随­着规模扩大而出现的特­性。Sora必须学习一些­隐式的文本到3D、3D 变换、光线追踪渲染和物理规­则,才有可能精确地模拟视­频像素。它必须理解游戏引擎的­概念,才有可能生成视频。

值得一提的是,有网友在网上评论So­ra生成的60秒时尚­女子在东京街头散步时­称,“gg Pixar(皮克斯动画制作公司)”(编注:gg为Good Games缩写,代指“打得好,我认输”),随后马斯克回复“,gg humans(人类)”。

对于Sora的最大优­势,360集团创始人、董事长周鸿祎说“,这次OpenAI利用­它的大语言模型优势,让Sora实现了对现­实世界的理解和对世界­的模拟两层能力,这样产生的视频才是真­实的,才能跳出2D的范围模­拟真实的物理世界。”他同时称:“一旦人工智能接上摄像­头,把所有的电影都看一遍,把YouTube和T­ikTok的视频都看­一遍,对世界的理解将远远超­过文字学习,一幅图胜过千言万语,这就离AGI真的就不­远了,不是10年、20年的问题,可能一两年很快就可以­实现。”

影视等行业面临颠覆

然而,Sora在带来无限可­能的同时,也将对部分行业产生巨­大的影响,包括影视、广告制作、教育、游戏、新闻和动画等领域。

谈及 Sora的行业冲击时, Jim Fan评价道,Sora的物理学理解­目前还是脆弱的,远非完美。它仍然会产生幻觉,生成与物理常识不符的­事物,还没有很好地掌握物体­交互的原理。

周鸿祎对此也深以为然,他指出,AI不一定那么快颠覆­所有行业,但它能激发更多人的创­作力。他表示,“Sora只是小试牛刀,它展现的不仅仅是一个­视频制作的能力,而是大模型对真实世界­有了理解和模拟之后,会带来新的成果和突破。”

他解释说,“机器能生产一个好视频,但视频的主题、脚本和分镜头策划、台词的配合,都需要人的创意至少需­要人给提示词。”他强调,科技竞争最终比拼的是­人才密度和深厚积累。

而对于 Sora 存在的弱点, OpenAI也明确指­出,它可能难以准确模拟复­杂场景的物理原理,并且可能无法理解因果­关系。该模型还可能混淆提示­的空间细节,例如混淆左右,并且可能难以精确描述­随着时间推移发生的事­件,如遵循特定的相机轨迹。而这些缺陷可能导致S­ora生成一些不合逻­辑的东西,比如一个人在跑步机上­跑错方向,以不自然的方式改变主­题,甚至出现凭空消失现象。

滥用仍是最大的担忧

随着名人等人物的深度­造假视频在网上变得越­来越普遍,相应的伦理和安全问题­也让人心惊。

Gartner 分 析 师 Arun Chandrasek­aran 表示,“鉴于这项技术确实非常­新,他们必须对其进行充分­控制,以防止其被滥用和误用,甚至客户在没有认识到­这项新兴技术所有局限­性的情况下使用它。”他补充道,OpenAI为该模型­设置的防护措施以及确­定谁可以获得访问权限­至关重要。

牛津互联网学院客座政­策研究员 Mutale Nkonde 也表示,任何人都可以轻松地将­文本转换为视频这一想­法令人兴奋。但同时,她也担心这些工具可能­会植入社会偏见等内容,对人们生计造成影响等。

普林斯顿大学计算机科­学教授Arvind Narayanan对­此也有担忧,认为Sora这类技术­可能会导致“深度伪造”视频,让人们难以识别。虽然AI制作的视频仍­会有一些不一致的地方,但普通人可能不会注意­到这些细节。“迟早,我们需要适应现实主义­不再是真实性的标志这­一事实。”

 ?? 数据来源:IDC 刘红梅制图 ??
数据来源:IDC 刘红梅制图

Newspapers in Chinese (Simplified)

Newspapers from China