生成式AI如何寻求进一步突破？北京航空航天大学巢文涵：调用和激发AI潜力

2024-03-18 - 每经记者王郁彪每经编辑文多

AI（人工智能）大潮汹涌，真实与虚拟，正在被无限模糊。2024年伊始，OpenAI用它的首个视频生成模型Sora宣告了AI新阶段的到来——仅凭简单的文字描述，便可深度模拟真实物理世界，生成最长60秒的拟真视频。

如果把AI比作刚出生的婴儿，大语言模型的诞生则意味着它开口讲话，Sora的面世相当于他/她睁开了双眼，并把自己观察到的一切转化为画面与声音。

随着AI技术不断发展与应用，在AI赋能过程中，如何平衡其中的创新与挑战？3月15日，由工业和信息化部工业文化发展中心牵头成立的AI应用工作组主办，每日经济新闻承办、数智未来场景实验室协办的“Sora的启示：AI应用再飞跃”主题沙龙活动在京成功举办。

北京航空航天大学计算机学院副教授巢文涵在主旨演讲环节表示，生成式AI的迭代速度降低了用户端的再训练必要性，因此，想要在生成式AI的应用中寻求进一步突破，应该从训练和创造AI，逐渐走向调用和激发AI潜力。

Sora尚有诸多局限性

当其他AI视频工具还在突破几秒内的连贯性时，Sora已经可以快速制作最长1分钟、准确反映用户提示、可一镜到底的视频。

对于Sora在技术上的突破，巢文涵认为，Sora实际上是一个“Diffusion＋Transformer 模型” （Diffusion、Transformer 分别为模型名称），是二者组合成的强大信息提取器。Sora 继承了 DallE3（OpenAI开发的最新文本到图像转换工具）的画质和遵循指令的能力，可以深度模拟真实物理世

界，能生成具有多个角色、包含特定运动的复杂场景。因其根据静态图像生成视频的能力，Sora在动图制作、广告设计等领域具有不小的应用前景。不过，Sora能够获取现有视频并对其进行扩展或填充缺失的帧，这一功能在视频编辑、电影特效等领域也将有不俗的应用表现。

值得一提的是，用户还可以使用Sora连接两个输入视频，在完全不同的主题和场景组成的视频间实现无缝过渡。

Sora在技术上的突破及其未来广阔的应用前景，使得AI又上升到了全新的维度。“Sora虽被定义为一款人工智能文生视频大模型，但其实，OpenAI并未将其单纯视为视频模型，而是作为‘世界模拟器’。”巢文涵如此表示。

从时尚展示到动漫制作，从心理治疗到建筑规划，Sora可以为多个相关领域进行全新创造、再创造。

不过，巢文涵认为，目前Sora同样拥有诸多局限性。比如，Sora

在处理复杂场景时对物理规则的应用不一致，因此出现无法准确模拟出因果关系的特定情况。这也可以解释，为什么在Sora生成的视频里，时常能看到变形的椅子飞向天空的画面。

巢文涵进一步补充说，在人机交互、充分理解空间和时间的复杂性以及使用限制上，Sora还有非常多的局限性。

难免引发一系列问题

那么，如何在AI技术不断突破的过程中，继续逐点击破AI赋能和应用的难点，平衡创新与挑战？巢文涵表示，生成式AI应用，应该从训练和创造AI，走向调用和激发AI潜力。

“生成式AI的迭代速度降低了用户端的再训练必要性，关键是用户怎么调用这些生成式AI。同时，大模型本身外部检索、多模态能力都非常强，本身是一个好的搜索入口。”他接着补充说，“应该进一步去APP化，提供更多维度的综合应用交互方式。”

在巢文涵看来，大模型本身具备生态插件及融合能力，其自身会调用服务接口，不需要打开APP，而是需要设计合理的API（应用程序编程接口）接口。此外，还需打破传统AI应用中语音、文字、图片等不同格式内容的界限，提供更多维度的综合应用交互方式。

从技术层面考量，Sora也面临一系列挑战，包括可扩展性和计算资源、隐私和伦理问题以及就业和社会变革等。在这些挑战中，巢文涵特别提到了深度伪造。他注意到，不法分子会利用机器的深度学习技术，进行图像、声音、视频的篡改、伪造和自动生成，产生高度逼真且难以甄别的内容。

巢文涵认为，Sora对社会生产力和产业发展的促进作用毋庸置疑，但同时，Sora创造的大量虚拟视频会污染现存的图像数据，引发一系列问题。因此，他建议，应该建立法律和监管框架，同时提供政策支持，增强创新意识，加强数据保护与安全。

?? 每经记者韩阳摄 ?? 图为北京航空航天大学计算机学院副教授巢文涵进行主旨演讲 — 每经记者韩阳摄图为北京航空航天大学计算机学院副教授巢文涵进行主旨演讲

生成式AI如何寻求进一步突破？北京航空航天大学巢文涵：调用和激发AI潜力

Sora尚有诸多局限性

难免引发一系列问题

Newspapers in Chinese (Simplified)

Newspapers from China

生成式AI如何寻求进­一步突破？北京航空航天大学巢文­涵：调用和激发AI潜力

Sora尚有诸多局限­性

难免引发一系列问题

Newspapers in Chinese (Simplified)

Newspapers from China

生成式AI如何寻求进一步突破？北京航空航天大学巢文涵：调用和激发AI潜力

Sora尚有诸多局限性