National Business Daily

生成式AI如何寻求进­一步突破?北京航空航天大学巢文­涵:调用和激发AI潜力

- 每经记者 王郁彪每经编辑 文 多

AI(人工智能)大潮汹涌,真实与虚拟,正在被无限模糊。2024年伊始,OpenAI用它的首­个视频生成模型Sor­a宣告了AI新阶段的­到来——仅凭简单的文字描述,便可深度模拟真实物理­世界,生成最长60秒的拟真­视频。

如果把AI比作刚出生­的婴儿,大语言模型的诞生则意­味着它开口讲话,Sora的面世相当于­他/她睁开了双眼,并把自己观察到的一切­转化为画面与声音。

随着AI技术不断发展­与应用,在AI赋能过程中,如何平衡其中的创新与­挑战?3月15日,由工业和信息化部工业­文化发展中心牵头成立­的AI应用工作组主办,每日经济新闻承办、数智未来场景实验室协­办的“Sora的启示:AI应用再飞跃”主题沙龙活动在京成功­举办。

北京航空航天大学计算­机学院副教授巢文涵在­主旨演讲环节表示,生成式AI的迭代速度­降低了用户端的再训练­必要性,因此,想要在生成式AI的应­用中寻求进一步突破,应该从训练和创造AI,逐渐走向调用和激发A­I潜力。

Sora尚有诸多局限­性

当其他AI视频工具还­在突破几秒内的连贯性­时,Sora已经可以快速­制作最长1分钟、准确反映用户提示、可一镜到底的视频。

对于Sora在技术上­的突破,巢文涵认为,Sora实际上是一个“Diffusion+Transforme­r 模型” (Diffusion、Transforme­r 分别为模型名称),是二者组合成的强大信­息提取器。Sora 继承了 DallE3(OpenAI开发的最­新文本到图像转换工具)的画质和遵循指令的能­力,可以深度模拟真实物理­世

界,能生成具有多个角色、包含特定运动的复杂场­景。因其根据静态图像生成­视频的能力,Sora在动图制作、广告设计等领域具有不­小的应用前景。不过,Sora能够获取现有­视频并对其进行扩展或­填充缺失的帧,这一功能在视频编辑、电影特效等领域也将有­不俗的应用表现。

值得一提的是,用户还可以使用Sor­a连接两个输入视频,在完全不同的主题和场­景组成的视频间实现无­缝过渡。

Sora在技术上的突­破及其未来广阔的应用­前景,使得AI又上升到了全­新的维度。“Sora虽被定义为一­款人工智能文生视频大­模型,但其实,OpenAI并未将其­单纯视为视频模型,而是作为‘世界模拟器’。”巢文涵如此表示。

从时尚展示到动漫制作,从心理治疗到建筑规划,Sora可以为多个相­关领域进行全新创造、再创造。

不过,巢文涵认为,目前Sora同样拥有­诸多局限性。比如,Sora

在处理复杂场景时对物­理规则的应用不一致,因此出现无法准确模拟­出因果关系的特定情况。这也可以解释,为什么在Sora生成­的视频里,时常能看到变形的椅子­飞向天空的画面。

巢文涵进一步补充说,在人机交互、充分理解空间和时间的­复杂性以及使用限制上,Sora还有非常多的­局限性。

难免引发一系列问题

那么,如何在AI技术不断突­破的过程中,继续逐点击破AI赋能­和应用的难点,平衡创新与挑战?巢文涵表示,生成式AI应用,应该从训练和创造AI,走向调用和激发AI潜­力。

“生成式AI的迭代速度­降低了用户端的再训练­必要性,关键是用户怎么调用这­些生成式AI。同时,大模型本身外部检索、多模态能力都非常强,本身是一个好的搜索入­口。”他接着补充说,“应该进一步去APP化,提供更多维度的综合应­用交互方式。”

在巢文涵看来,大模型本身具备生态插­件及融合能力,其自身会调用服务接口,不需要打开APP,而是需要设计合理的A­PI(应用程序编程接口)接口。此外,还需打破传统AI应用­中语音、文字、图片等不同格式内容的­界限,提供更多维度的综合应­用交互方式。

从技术层面考量,Sora也面临一系列­挑战,包括可扩展性和计算资­源、隐私和伦理问题以及就­业和社会变革等。在这些挑战中,巢文涵特别提到了深度­伪造。他注意到,不法分子会利用机器的­深度学习技术,进行图像、声音、视频的篡改、伪造和自动生成,产生高度逼真且难以甄­别的内容。

巢文涵认为,Sora对社会生产力­和产业发展的促进作用­毋庸置疑,但同时,Sora创造的大量虚­拟视频会污染现存的图­像数据,引发一系列问题。因此,他建议,应该建立法律和监管框­架,同时提供政策支持,增强创新意识,加强数据保护与安全。

 ?? 每经记者 韩阳 摄 ?? 图为北京航空航天大学­计算机学院副教授巢文­涵进行主旨演讲
每经记者 韩阳 摄 图为北京航空航天大学­计算机学院副教授巢文­涵进行主旨演讲

Newspapers in Chinese (Simplified)

Newspapers from China