大模型是人工智能时代“操作系统”有望全方位融入人类工作生活学习科研

2024-03-12 -

Sora模型的特点可以总结为“真、灵、动”。所谓“真” ，是指 Sora生成的视频真实感强，能够很好地表现提示词的内容语义，视频细节呈现得恰到好处； “灵”是指生成的视频有一定的灵性和艺术性； “动”指的是视频中的运动场景、物体结构性和时空关联性较好。

Sora主要通过扩散模型来实现“真”和“灵”。扩散模型是一种借鉴物理热力学中扩散原理的生成模型，通过加噪、去噪等，实现由文本驱动图像生成的目的。大数据对于扩散模型的训练非常重要。Sora“看”过大量高质量的图像， “阅图无数”让扩散模型能够学到很精细的特征，进而根据提示词生成细节精细的图像。

Sora的“动”则有赖于 Transformer （中文通常翻译为“变形金刚”或“变压器” ）。Transformer就是GPT里面的

T，本质上是具备“自注意”和“自监督”学习能力的新型神经网络。比如，输入“东方明珠是上海的标志性建筑之一”这样一句话， Transformer可以通过“自注意”机制捕捉到“东方明珠”和“上海”之间的关系；在一篇文章中随机遮掉一定比例的单词或者句子，让 Transformer自己监督自己，学会做完形填空（填上“东方明珠”这个名字）、句子接龙（接上“东方明珠是上海的标志性建筑之一” ），甚至更复杂的任务。

OpenAI公司把人工智能的数据、模型、算力的规模和性能，在如此短的时间内提升到眼下的程度是令人惊讶的。这反映了人工智能技术的一个趋势— —“迭代速度越来越快” ，其背后可能有一个“AI摩尔定律”在驱动，即“宇宙中的智能数量每18个月翻一倍”。有理由相信， “AI摩尔定律”在相当长的时期内可以得到延续。

与之相伴，生成式人工智能作为新质生产力，正从广度和深度上影响人类社会发展。

在广度上，生成式人工智能正在成为“人机共生”时代的新型生产力。在办公方面，微软公司借助大模型打通了办公生态，帮助用户解锁生产力、释放创造力以及升级各种技能；在编程领域，人工智能代码提示工具可以提供约46%的代码提示与自动补全，程序开发效率得以提升55%；在工业领域，大模型可应用于机器人控制领域，人们有望直接利用自然语言操控无人机、机械臂等。

生成式人工智能还在引发搜索引擎的变革。New Bing试用版集成了ChatGPT，新增连续聊天功能，从具有事实来源的网页中总结归纳出答案，并且反馈用户可能进一步关心的问题。

可以说，大模型是人工智能时代的

“操作系统” ，连接现实世界和智能机器人，优化产品设计、工业物流、制造流程、市场营销、组织管理等，从而显著提高生产效率，有望全方位融入人类的工作、生活、学习、科研。我们不得不认真探讨：一个“人机共生”的时代是不是正在拉开序幕？

一个更新的应用例子是，生成式人工智能正在成为开拓元宇宙、构建世界模型和生产数字人的强大工具，促进虚实融合，实现效率和体验的提升。尽管Sora还不具备真正理解内在物理规律的能力，但它可以被视为对现实世界的某种广义模拟。最新的生成式人工智能技术已经可以制作高拟真、规模化的三维虚拟数字人，简化三维建模流程，提升渲染真实感。未来的生成式人工智能技术有望进一步结合科学规律，使得物理世界的模拟更逼真，数字人更丰富、更立体，数字人与世界模型能够有效交互。

在深度上，生成式人工智能正在加速科学发现。在生物、化学、医药等领域，大模型可以将分子式、基因序列、蛋白质结构视为一种形式化的语言，并已取得多项颠覆性成果。与前四种范式（经验、理论、计算和数据）不同， AIfor Science（利用人工智能加速科学发现的新方法）不仅可以充分运用已有的经验、理论和数据，还能够生成全新的科学假设、逼真的自然现象，进而助力推导出未知的结论，提高科学研究的速度和准确性，探索更广阔的可能性空间。

相对于日常生活领域的 AIGC（人工智能生成的内容），科学领域的生成式人工智能模型对于人类进步的意义更为深远。从微观的分子及物质结构生成，到中观的流场和反应过程建模，再到宏观的大气、行星、黑洞等物理天文现象推演，一系列新发现将从本质上推动科技发展。

大模型是人工智能时代“操作系统”有望全方位融入人类工作生活学习科研

Newspapers in Chinese (Simplified)

Newspapers from China

大模型是人工智能时代“操作系统”有望全方位融入人类工­作生活学习科研

Newspapers in Chinese (Simplified)

Newspapers from China

大模型是人工智能时代“操作系统”有望全方位融入人类工作生活学习科研