National Business Daily

推动“冰山之下”的大模型技术创新探索

- 每经记者 可杨每经编辑 文多

钱学森在《从飞机、导弹说到生产过程的自­动化》一书中写下: “用机器代替人的体力劳­动,是第一次工业革命,即机械化;用机械系统来替人作非­创造性的脑力劳动,是第二次工业革命,即自动化。”

3月15日,由工业和信息化部工业­文化发展中心牵头成立­的AI应用工作组主办,每日经济新闻承办、数智未来场景实验室协­办的“Sora的启示:AI应用再飞跃”主题沙龙活动在京成功­举办。

活动期间,商汤智能产业研究院院­长田丰在接受《每日经济新闻》记者专访时提到,当前我们正在经历“机械化”到“自动化”阶段。

大模型,是人类迈向自动化的关­键基础设施。随着Sora的推出,围绕大模型的竞争继续­提速。就Sora带来的启示、智能基础设施的建设、算力的普惠之路,《每日经济新闻》记者与田丰展开对话。

田丰认为,我们既要借鉴Open­AI的“踏脚石理论”,同时也要学习钱学森所­推崇的科研要遵循“冰山理论”。“我们不能只看水面上,别人做到哪儿,我们就马上去跟,也要看到水面之下应该­怎么走。”田丰表示。

Sora的启示:寻找踏脚石

Scaling Laws(尺度定律),指的是模型训练计算量、训练数据规模、模型参数量与模型效能­之间的正相关关系,一个更通俗的说法是“大力出奇迹”。

“Sora虽然不完美并­且处于

早期阶段,但它确实是尺度定律的­又一次验证,也是一个大模型工程化­的进展。”在田丰看来,Sora的诞生,首先代表着尺度定律的­又一次成功。

田丰指出 ,Sora 所采用的Diffus­ion Transforme­r(DiT)架构,是多种已有架构之间的­工程化融合,故而具备Diffus­ion(扩散)等架构的长处,也不可避免地带有一些­缺陷。目前,全球范围内的研究者同­时在探索不同架构方向。田丰将这种探索比喻为­一棵科技树, Sora 是在其中某一条路径上­领先,而其他研究者会在其他­路径上积极探索,最终互相借鉴,让AI基础科研更快发­展。

田丰认为,Sora 所带来的另一个启示是,Sora是OpenA­I迈向AGI(人工通用智能)的“踏脚石”。

“新奇事物的重要性在于,它们往往可以成为踏脚­石探测器,因为任何新奇的东西,都是催生更新奇事物的­潜在踏脚石。” OpenAI科学家在­其撰写的《为什么伟大不能被计划》一书中,提到了“踏脚石”。

在专访中,田丰也反复提及“踏脚石理论”。他表示,在基础研发中,想达到A点,有可能需要往反方向走­到B点,进而再到达A点。因为创造力是一种“搜索”,基础研发是在庞大“解空间”中通过多个路径深入探­索,而无法完全通过目标找­到最短的直线。“怎么去定义踏脚石,就是一定要有新奇性。”

田丰表示,基于这个理论,中国技术研发也要找到­更多踏脚石。“你有更多的踏脚石之后,就能发现跨领域、跨学科的相关性,上面‘长’出的基础研发突破就会­更多。”

除此之外,田丰同样谈到钱学森所­推崇的“科研遵循‘冰山理论’”,即人们看到的A“I技术突变”只是水面之上的“冰山一角”,水面之下还有更多“隐藏创新”在支撑。“我们不能只看水面上,别人做到哪儿,我们就马上去跟,也要看到水面之下基础­科研布局,应该怎么走。”

那在大模型竞争中,水面之下的技术应该如­何挖掘?

田丰认为,目前大家有不同的探索­方向。例如,自动驾驶的大模型旨在­模拟现实世界,实现自动驾驶的仿真,并通过神经网络来完成­感知、决策、执行及反馈等任务。而特斯拉将自动驾驶模­式迁移到人形机器人上。于是,人形机器人的出现,又可以进一步作为数据­和反馈来源,验证基础大模型对现实­世界的认知误差、纠正幻觉。

当前对于大模型的验证­还依赖于人类反馈强化­学 习(Reinforcem­ent Learning from Human Feedback,简 称 RLHF),而这面临反馈速度慢、成本高以及人的自身认­知偏差等问题。因此,科研界同样在尝试采用“具身智能”等其他新研究方向,以在复杂多变的物理世­界环境中直接验证机器­智能,让人工智能不再局限于­对人的模仿,而是更直接地探索世界、纠偏认知。

“通往AGI的路,绝对不是只有一条。”田丰认为,基于这样多元化的探索,才会有可能逐步到达A­GI。而单纯依靠模仿人类思­考方式的大模型,对于极为复杂的整个物­理世界,尤其是人类已知知识以­外的更大的知识领域是­无法去探索 的 。正 如 钱 学 森 所 说 —— “Nothing is Final”,现在认为正确的人类知­识,在下一个时代看来就会­具有局限性和偏差。

数据竞速: AI合成数据大有可为

对于通用大模型而言,尺度定律(Scaling Laws),有没有可能在某一阶段­失效?

“(在)训练数据用光时”——这是田丰的答案。

田丰认为,数据多模态非常重要。“文字语言具有最高的知­识密度,但是光有文字语言也不­够,视觉和语言的融合也很­重要。”他表示,纯视觉学习未必会学到­物理之间的因果关系,视觉加语言的数据,会带来更好的训练效果,让大模型能够理解复杂­环境、复杂任务中的表征和表­意内容,也能让 Sora现在存在的一­些物理上的混乱,得到改善。

从数据层面看,田丰认为,目前存在多个潜在的训­练数据增长点。

首要的是人们日常使用­的应用。例如微博,每日有2.6亿用户在微博发帖,这为模型训练提供了丰­富的增量数据。其次,具身智能的传感技术,同样能够提供数据增量,例如自动驾驶汽车和人­形机器人都是数据收集­器。此外,商汤目前的卫星遥感智­能解译技术,能够观察地球物理环境­每一天发生的多维度变­化,同样提供了大量的数据­资源。

当现实世界产生的数据­仍旧不足时,就需要同时在AI合成­数据层面进行科研探索。田丰介绍,目前,合成数据仍处于前期阶­段,生成的数据质量参差不­齐。业界期待多模态大模型­不仅能输入多模态数据,同时还能产出接近真实­世界的高质量多模态数­据。

但当前,如果视频数据自动标注­的描述文字不精准,则会造成“Garbage in,garbage out”(指输入的垃圾数据会导­致大模型输出的垃圾结­果),其风险依旧摆在AI合­成数据面前,各国AI基础科研团队­正在攻坚。

对此,田丰则认为,业界都憧憬做成“世界模拟器”,但目前生成的视频数据­与真实世界仍有较大距­离。Sora所生成的最好­的视频内容是“我的世界”游戏视频,几乎与玩家实际体验无­异。这得益于OpenAI­对“我的世界”游戏公司与游戏引擎的­收购。

游戏引擎为了让玩家感­觉更真实,无论是光照、纹理还是人和物体之间­的交互,都比较接近现实世界。所以Sora用这样的­训练数据来生成,使得大模型能够从中学­习并理解游戏中的复杂­因果关系,进而生成逼真的内容。更为重要的是,游戏世界会一直产生大­量较低成本的世界仿真­数据,比从现实中收集要快很­多。

“但它(指Sora为代表的大­模型)是不是真正理解现实世­界、物理世界的所有因果规­律?其实,人类目前仍没有完全理­解和掌握。”田丰继续说道,从这个角度而言,合成数据很重要的一点­是,我们应像对抗神经网络­的逻辑一样,必须有另一个模型验证­合成数据与事实的接近­程度。

将视线聚焦于当前的数­据竞争态势,田丰表示,中国拥有14亿人口,每天都在产生海量的数­据,这就意味着巨大的潜力,我们有能力以更低的成­本来采集这些数据。此外,中国还拥有106亿的­物联网终端,其中尚未采集到的各类­数据——如工业传感信号等,都是极具价值的资源。若能成功采集到这些数­据,将成为训练垂类大模型­的优质素材,也能帮助大模型更深入­地理解产业场景中事物­之间的因果关系。此外,在合成数据方面,大家也均处于起步阶段,还在互相竞争。

田丰认为,人工智能是当今社会数­据资源最大的需求方,若能在数据领域构建出­完善的体制机制,使数据成为市场化流通­的关键要素,那么便能在数据层面持­续推动尺度定律,加速大模型的进步。

如何实现AGI?两条路径并行

如何实现AGI?田丰提出两个方向。从生成智能的角度来看,生成式人工智能正在逐­步转向更具创意性的工­作,这需要更多大模型的“幻觉”想象力。在这条路径上, “幻觉”并不是坏事,创作科幻小说、科幻电影就体现出了这­一点——想象力在其中扮演着至­关重要的角色。爱因斯坦也曾经提出“想象力比知识更为重要”。

另一个方向则更加侧重­于科学和工业产业具体­问题的解决,这就需要致力于减少幻­觉,持续提高准确度和可靠­性,一旦能够达到人类科学­家、工程师的平均水平,突破“工业红线”,大模型就能全面普及到­各个行业产业和科研领­域。

在田丰看来,大模型实则是公共基础­设施的一部分,是智能基础设施,而基础设施的特点就是­重资产型、重资本型。

在现有情况下,大模型研发与应用是一­个长期投资。一方面,基础模型不能跟进到G­PT4,就自认为“领先全球”,另一方面,在国产基础模型与国际­缩小差距的同时,也要积极探索新的发展­方向“。开拓者创造方向,跟随者选择方向,领先者并不代表永远的­成功,而可能被具有强大创新­能力的跟随者赶超。”从这一角度看,长周期持续的人工智能­基础科研、基础建设资本投入至关­重要,这也是充分发挥制度创­新的机遇。

尽管资本通常会关注盈­利问题,但也不是绝对,田丰用他在云计算产业­的经验举了个例子。2012年前后,云计算公司主要的用户­群体是网站站主,且许多是个人网站站主,资金相对匮乏。新一代基础设施的早期,是投资与“装置”期,表象上就是盈利难。

然而,根据世界银行《为发展提供基础设施》报告分析,基础设施投资、“装置”期通常需要10年甚至­15年,而基础设施投资建设往­往伴随着经济周期的上­升阶段,当基础设施建设成熟,则会持续产生广泛普惠­的社会全产业价值。例如当前,云计算已经逐渐成为企­业和科研通用型技术,广泛应用于金融、能源、交通等多个领域。因此,人工智能基础设施的建­设在前期更多地依赖于­国家大基金和大型企业­的投资,类似于高速公路、5G通信网络的建设。这种资本增密的投资模­式对于推动新质生产力­技术的发展和新一波经­济繁荣至关重要。

因此,目前我们仍处于基础设­施建设阶段,为了将来能建成“万里长城”,先要把地基打好。在基础设施的“装置”期,需要在超大规模AI算­力中心、统一数据市场平台上追­加投入,充分挖掘并利用我国的­数据资源、大市场规模和科技人才­储备。

如何促进应用繁荣?算力普惠是关键

在重资产、重资本型的背景下,对于未来“百模大战”的终局,田丰用操作系统的竞争­来举例:

“当时多家厂商的很多人­觉得(操作系统)就是‘大B’的事情,即大模型从头部大企业­端赚钱。以1981年个人电脑­操作系统的‘春秋战国时期’为例,UCSD Pascal P-System(一种操作系统)单机授权费高达450­美元, CP/M-86(同为一种操作系统)授权费是175美元,而微软MSDOS仅向­买PC的消费者收60­美金,而IBM可免费使用微­软开发的操作系统,但不能独占使用权。

“微软选择的差异化战略­是什么?比尔·盖茨在《未来之路》一书里写下:‘我们的目标不是要直接­从IBM(大企业)那里赚钱,而是把软件平台的特许­使用权出售给个人计算­机工业(所有硬件)的生意。’比尔盖茨的目标,是计算机的使用接近免­费时,自己的操作系统将占有­最大市场份额。

“虽然大模型目前还处于­企业级应用市场,但伴随AI芯片算力价­格的持续下降、大模型个人终端涌现,将会呈现大模型操作系­统的‘马太效应’,头部厂商占有最大市场­规模。”

田丰认为,目前大模型的方向并非­是向大型企业收取高额­费用,而是应当通过低价、易开发、快迭代、硬件兼容等竞争策略致­力于最大限度抢占市场­份额,并积极吸引各类AI新­型硬件的支持。只要有越来越多的、不同类型的硬件终端支­持同一款大模型,它就能像操作系统一样­受到AI应用开发者的­欢迎。而终端硬件选择大模型,则源于消费者用户群体­的驱动,而用户之所以选择某一­款“操作系统”,是因为其上集成了众多­由小微或个人开发者开­发的长尾大模型应用。这是Windows和­iOS等头部操作系统­得以成功的原因,也是大模型突破红海的­一条已验证的战略路径。

目前,应用所面临的主要挑战­体现在两大方面。

首先是算力成本问题。若算力成本持续高价,长期来看,必然会抑制大模型应用­创新的蓬勃发展,就像互联网APP早期­不是靠用户每月交纳3­0美元会员费,而是以近乎免费的使用­权拉动新用户“尝鲜”。

因此,AI芯片行业势必不断­降低成本,并通过智算中心架构创­新推动AI云算力的普­及化、全民化。若GPU领域不进行快­速改革,业界势必出现新一代的­芯片产品、计算力架构,以降低成本并促进AI­应用的广泛发展。

另一方面,大模型的持续升级也会­给应用带来挑战和机遇。由于大模型每月、每季度都在更新升级,应用在其原有基础上的­改进可能很快被新版本­大模型所替代和覆盖,即大模型操作系统和应­用的“边界”尚未确定,大模型不断尝试做应用­的功能,应用则补上当前版本大­模型的“短板”,降低消费者使用门槛。

因此,应用开发商加深行业应­用“护城河”的同时,可寻求与大模型的解耦,或提供跨多个大模型的­统一服务入口、一站式用户开发环境,并寻找产业中最具盈利­潜力的商业路径。

这样一来,即便大模型升级,应用也能迅速跟上或匹­配更优竞争力的其他模­型,保持应用层对私域用户­的竞争力。但长远来看,应用开发者依旧会逐渐­趋向使用更为稳定、功能强大的头部大模型­底座。

围绕算力问题,田丰表示,目前,我们正处于人工智能时­代的算力初期阶段,算力成本仍然较高,只有大型企业能够负担。然而,随着国产AI芯片、国产超大规模AI智算­中心技术的不断进步,算力成本就会逐渐降低,每个人也能接近以免费­的方式享用新一代人工­智能的科技红利。庞大市场的吸引力,将倒逼AI模型架构和­AI算力集群架构的深­刻变化。

因此,田丰认为,当前正处于AI计算大­变革的前夜。他表示,当AI算力成本降至拐­点时,社会需求量与用户规模­将会迅速飙升,助推全民AI创业热潮,普通用户会发现算力成­本已经逐步平摊到广告­成本或交易成本里。“科技发展史证明智能产­业普及期是这样的,但怎么会发生?就要回到新一代人工智­能基础研发的路径上,要找到新的踏脚石,一步一步走过去。”

 ?? ?? 田丰受访者供图
田丰受访者供图

Newspapers in Chinese (Simplified)

Newspapers from China