大模型是人工智能时代“操作系统”有望全方位融入人类工作生活学习科研
Sora模型的特点可以总结为“真、灵、动”。所谓“真” ,是指 Sora生成的视频真实感强,能够很好地表现提示词的内容语义,视频细节呈现得恰到好处; “灵”是指生成的视频有一定的灵性和艺术性; “动”指的是视频中的运动场景、物体结构性和时空关联性较好。
Sora主要通过扩散模型来实现“真”和“灵”。扩散模型是一种借鉴物理热力学中扩散原理的生成模型,通过加噪、去噪等,实现由文本驱动图像生成的目的。大数据对于扩散模型的训练非常重要。Sora“看”过大量高质量的图像, “阅图无数”让扩散模型能够学到很精细的特征,进而根据提示词生成细节精细的图像。
Sora的“动”则有赖于 Transformer (中文通常翻译为“变形金刚”或“变压器” )。Transformer就是GPT里面的
T,本质上是具备“自注意”和“自监督”学习能力的新型神经网络。比如,输入“东方明珠是上海的标志性建筑之一”这样一句话, Transformer可以通过“自注意”机制捕捉到“东方明珠”和“上海”之间的关系;在一篇文章中随机遮掉一定比例的单词或者句子,让 Transformer自己监督自己,学会做完形填空(填上“东方明珠”这个名字)、句子接龙(接上“东方明珠是上海的标志性建筑之一” ),甚至更复杂的任务。
OpenAI公司把人工智能的数据、模型、算力的规模和性能,在如此短的时间内提升到眼下的程度是令人惊讶的。这反映了人工智能技术的一个趋势— —“迭代速度越来越快” ,其背后可能有一个“AI摩尔定律”在驱动,即“宇宙中的智能数量每18个月翻一倍”。有理由相信, “AI摩尔定律”在相当长的时期内可以得到延续。
与之相伴,生成式人工智能作为新质生产力,正从广度和深度上影响人类社会发展。
在广度上,生成式人工智能正在成为“人机共生”时代的新型生产力。在办公方面,微软公司借助大模型打通了办公生态,帮助用户解锁生产力、释放创造力以及升级各种技能;在编程领域,人工智能代码提示工具可以提供约46%的代码提示与自动补全,程序开发效率得以提升55%;在工业领域,大模型可应用于机器人控制领域,人们有望直接利用自然语言操控无人机、机械臂等。
生成式人工智能还在引发搜索引擎的变革。New Bing试用版集成了ChatGPT,新增连续聊天功能,从具有事实来源的网页中总结归纳出答案,并且反馈用户可能进一步关心的问题。
可以说,大模型是人工智能时代的
“操作系统” ,连接现实世界和智能机器人,优化产品设计、工业物流、制造流程、市场营销、组织管理等,从而显著提高生产效率,有望全方位融入人类的工作、生活、学习、科研。我们不得不认真探讨:一个“人机共生”的时代是不是正在拉开序幕?
一个更新的应用例子是,生成式人工智能正在成为开拓元宇宙、构建世界模型和生产数字人的强大工具,促进虚实融合,实现效率和体验的提升。尽管Sora还不具备真正理解内在物理规律的能力,但它可以被视为对现实世界的某种广义模拟。最新的生成式人工智能技术已经可以制作高拟真、规模化的三维虚拟数字人,简化三维建模流程,提升渲染真实感。未来的生成式人工智能技术有望进一步结合科学规律,使得物理世界的模拟更逼真,数字人更丰富、更立体,数字人与世界模型能够有效交互。
在深度上,生成式人工智能正在加速科学发现。在生物、化学、医药等领域,大模型可以将分子式、基因序列、蛋白质结构视为一种形式化的语言,并已取得多项颠覆性成果。与前四种范式(经验、理论、计算和数据)不同, AIfor Science(利用人工智能加速科学发现的新方法)不仅可以充分运用已有的经验、理论和数据,还能够生成全新的科学假设、逼真的自然现象,进而助力推导出未知的结论,提高科学研究的速度和准确性,探索更广阔的可能性空间。
相对于日常生活领域的 AIGC(人工智能生成的内容) ,科学领域的生成式人工智能模型对于人类进步的意义更为深远。从微观的分子及物质结构生成,到中观的流场和反应过程建模,再到宏观的大气、行星、黑洞等物理天文现象推演,一系列新发现将从本质上推动科技发展。