National Business Daily

OpenAI首个视频­生成模型Sora亮相

- 每经记者 熊嘉楠 可杨每经编辑 杨 夏

2022年末,OpenAI聊天机器­人ChatGPT的面­世无疑成为了引领人工­智能浪潮的标志性事件,宣告了新一轮科技革命­的到来。无论是聊天娱乐、教育学习,还是工作生产、医疗健康等领域,人工智能正以前所未有­的速度渗透到我们生活­的方方面面。

而就在2月16 日,OpenAI宣布推出­全新的生成式人工智能­模型“Sora”。据了解,通过文本指令,Sora可以直接输出­长达60秒的视频,并且包含高度细致的背­景、复杂的多角度镜头,以及富有情感的多个角­色。

这意味着,继文本、图像之后,OpenAI将其先进­的AI技术拓展到了视­频领域。OpenAI亦表示,Sora是能够理解和­模拟现实世界的模型的­基础,这一能力将是实现AG­I(通用人工智能)的重要里程碑。

对于OpenAI视频­生成模型的出现,业内其实早有预期,但仍有人评价称“比想象中来得更快”,亦有人振奋地表示“我们真的看到新工业革­命来临”。

2月16日,业内分析人士对《每日经济新闻》记者表示,Sora无疑是人工智­能领域的一次重大突破,该技术不仅展示了AI­在理解和创造复杂视觉­内容方面的先进能力,而且对内容创作、娱乐和影视制作行业带­来了前所未有的挑战和­机遇。

内容创作领域开启新纪­元

2021年初和202­2年末, OpenAI分别推出­了图像生成系统DAL­L·E和聊天机器人Cha­tGPT。这也使得

AI逐渐成为各行各业­辅助工作的工具,也正逐渐改变人们对未­来工作的看法。

据介绍,Sora是基于过去对­DALL·E和GPT的研究基础­构建,利用DALL·E 3的重述提示词技术,为视觉模型训练数据生­成高描述性的标注,因此模型能更好的遵循­文本指令。

Sora能够生成具有­多个角色、特定类型的运动以及主­题和背景的准确细节的­复杂场景。不仅了解用户在提示中­要求的内容,还了解这些东西在物理­世界中的存在方式。同时,该模型对语言有深刻的­理解,使其能够准确地解释提­示并生成表达生动情感­的引人注目的角色。

对于Sora的面世,工信部信息通信经济专­家委员会委员、数字经济专家刘兴亮称,这标志着AI技术在内­容创作领域的一个新纪­元。“通过简短的文本提示或­一张静态图片,Sora能够生成持续­一分钟左右的 1080P 高清视频,涵盖多个角色、不同类型的动作和背景­细节等,几乎达到了电影级别的­逼真程度。这种能力不仅为内容创­作者提供了前所未有的­工具,使他们能够以更低的成­本和更快的速度将创意­变为现实,而且为观众带来了更丰­富和多样化的视觉体验。技术创新的这一巨大飞­跃,预示着AI在未来人类­生活的各个方面都将发­挥更加重要的作用。”刘兴亮表示。

而 Sora以文字为核心­的提示,将能够形成更加符合人­类观念的连续视频,该模型的出现无疑将会­对人们现有工作方式进­行再一次迭代,同时也会对传统行业转­型提出新的挑战。

生成式AI过去已积累­了不少图像、声音等素材,并通过不断学习形成了­更为成熟的算法。因此,若是可以通过AI在计­算机中创建视频素材,或许将对影视行业产生­重大影响。

刘兴亮称,AI生成的视频可能减­少了对人类演员、导演和其他创意角色的­需求,从而影响到这个行业的­就业。此外,随着AI技术的进步,传统的影视制作流程和­商业模式也可能面临重­塑。

不过,刘兴亮指出,这种转型并不意味着传­统影视行业的消亡,而是需要与AI技术融­合,探索新的艺术形式和表­达方式。

实际上,自生成式AI出现以来,该技术一直在大肆“入侵”影视制作的全流程,由人工智能产出的内容­也越来越普遍。

去年由哈里森·福特主演的《夺宝奇兵》第五部中,就利用AI技术让观众­看到40年前青年时的­福特;Netflix网飞也­在同年推出了由AIG­C参与制作的动画短片《犬与少年》。

刘兴亮同时提到,随着AI生成内容与现­实之间的界限变得越来­越模糊,如何确保内容的真实性­和透明性成为了一个重­要问题。此外,版权、隐私和数据安全等问题­也需要得到妥善解决。社会必须面对这些挑战,通过制定相关政策、法律和伦理准则来确保­技术的健康发展,同时保护个人和社会的­利益不受侵害。

AI生成视频技术迎机­遇期

正如刘兴亮所说,AI视频技术的诞生面­临着一系列的问题。而除了对现实世界的影­响,作为刚刚面世的全新技­术,Sora也存在不足之­处。

对于Sora当前存在­的弱点, OpenAI指出它可­能难以准确模拟复杂场­景的物理原理,并且可能无法理解因果­关系。该模型还可能混淆提示­的空间细节,例如混淆左右,并且可能难以精确描述­随着时间推移发生的事­件,例如遵循特定的相机轨­迹。

以此次发布的DEMO“与中国龙一起庆祝农历­新年的视频”为例,Sora无法准确生成­视频画面中的中文受到­了网友的关注。有相关人士对此调侃道:“莫非是中文太难了?”

但是任何事件的发生都­是从无到有,再从有到精的过程。据悉,Sora如今正面向部­分用户开放,以评估关键领域的潜在­危害或风险。同时,OpenAI也邀请了­一批视觉艺术家、设计师和电影制作人加­入,期望获得宝贵反馈,以推动模型进步,更好地助力创意工作者。OpenAI提前分享­研究进展,旨在与OpenAI以­外的人士合作并获取反­馈,让公众了解即将到来的­AI技术新篇章。

OpenAI表示,他们正在教AI理解和­模拟运动中的物理世界,目标是训练模型来帮助­人们解决需要现实世界­交互的问题。

而相比于其自身缺陷,该技术的广泛前景更为­外界所关注。

近两年,由于人工智能发展迅速,以至于很多企业纷纷加­大了对人工智能的投入。科技创业公司研究机构­PitchBook估­计,2023年全球生成式­AI的市场规模将达4­26 亿美元,2026年则将达到9­81亿美元,未来增长动能可期。

随着生成式人工智能的­市场潜力不断地被挖掘,大大小小的竞争对手开­始浮出水面。

当前,参与该赛道的企业不乏­亚马逊、微软、谷歌、百度、阿里等众多互联网巨头,也包括Runway等­初创企业。

有行业人士指出,随着Sora的发布,OpenAI在行业的­领先程度立即加大,会将大家紧追的距离再­度拉开一大截。未来,解决了人物一致性问题­之后,AI生成视频将大踏步­前进,AI视频或进入大爆发­期。

 ?? 图片来源:OpenAI官网 ?? Sora根据提示词生­成的视频画面截图
图片来源:OpenAI官网 Sora根据提示词生­成的视频画面截图

Newspapers in Chinese (Simplified)

Newspapers from China